AI와 벤치마크, 신뢰할 수 있는 지능의 척도(AI총서)
Regular price
$13.48
Sale price
Regular price
✈️
Estimated delivery date 예상 배송일
Standard Shipping
불러오는 중...
주문일로부터 8-12 영업일
Express Shipping
불러오는 중...
주문일로부터 6-8 영업일
Couldn't load pickup availability
출판사 리뷰
출판사 리뷰
벤치마크의 점수 뒤에 숨은 진실, AI 평가의 본질을 묻다
인공지능은 매일 더 뛰어난 성능을 기록하며 진화하고 있다. 그러나 우리는 그 성능을 무엇으로 판단하는가. AI 시대의 핵심 질문, '지능은 어떻게 측정되는가'에 정면으로 답한다. 오늘날 대부분의 AI 평가는 벤치마크 점수에 의존한다. 높은 점수는 곧 높은 지능으로 받아들여지지만, 그 숫자가 과연 신뢰할 수 있는 척도인지는 별개의 문제다. 잘못 설계된 문항, 복수 정답 문제, 데이터 오염과 같은 구조적 결함은 평가 결과의 신뢰도를 흔든다. 더 나아가 기업과 연구기관이 리더보드 경쟁에 몰입하면서 특정 시험에만 최적화된 '기형적 지능'이 등장하는 현상도 심각한 문제로 지적된다. 이러한 현실을 비판적으로 분석하며, 벤치마크가 어떻게 만들어지고 왜 왜곡되는지를 구조적으로 설명한다. 특히 생성형 AI와 피지컬 AI 시대에 접어들며 잘못된 판단이 실제 위험으로 이어질 수 있다는 점에서, 평가의 문제는 기술을 넘어 사회적 과제로 확장된다.
이 책은 다양한 평가 방식과 최신 연구를 통해 신뢰할 수 있는 지능의 기준을 모색한다. 숫자에 대한 맹신을 넘어서, 우리가 무엇을 측정하고 있으며 무엇을 놓치고 있는지를 다시 묻게 만든다.
인공지능은 매일 더 뛰어난 성능을 기록하며 진화하고 있다. 그러나 우리는 그 성능을 무엇으로 판단하는가. AI 시대의 핵심 질문, '지능은 어떻게 측정되는가'에 정면으로 답한다. 오늘날 대부분의 AI 평가는 벤치마크 점수에 의존한다. 높은 점수는 곧 높은 지능으로 받아들여지지만, 그 숫자가 과연 신뢰할 수 있는 척도인지는 별개의 문제다. 잘못 설계된 문항, 복수 정답 문제, 데이터 오염과 같은 구조적 결함은 평가 결과의 신뢰도를 흔든다. 더 나아가 기업과 연구기관이 리더보드 경쟁에 몰입하면서 특정 시험에만 최적화된 '기형적 지능'이 등장하는 현상도 심각한 문제로 지적된다. 이러한 현실을 비판적으로 분석하며, 벤치마크가 어떻게 만들어지고 왜 왜곡되는지를 구조적으로 설명한다. 특히 생성형 AI와 피지컬 AI 시대에 접어들며 잘못된 판단이 실제 위험으로 이어질 수 있다는 점에서, 평가의 문제는 기술을 넘어 사회적 과제로 확장된다.
이 책은 다양한 평가 방식과 최신 연구를 통해 신뢰할 수 있는 지능의 기준을 모색한다. 숫자에 대한 맹신을 넘어서, 우리가 무엇을 측정하고 있으며 무엇을 놓치고 있는지를 다시 묻게 만든다.
목차
목차
인류의 미래를 여는 열쇠, 신뢰할 수 있는 AI
01 AI 성능 평가의 역사와 기술의 공진화
02 최신 AI 평가 패러다임
03 언어 지능의 평가
04 사회적 지능의 평가
05 시각적 지능의 평가
06 신체적 지능의 평가
07 피지컬 AI의 평가
08 리더보드의 함정
09 AI 평가 방법의 오류
10 인간 정렬 평가
01 AI 성능 평가의 역사와 기술의 공진화
02 최신 AI 평가 패러다임
03 언어 지능의 평가
04 사회적 지능의 평가
05 시각적 지능의 평가
06 신체적 지능의 평가
07 피지컬 AI의 평가
08 리더보드의 함정
09 AI 평가 방법의 오류
10 인간 정렬 평가
저자
저자
이영호
대구교육대학교 컴퓨터교육과 교수다. 서울교육대학교를 졸업하고 동대학원에서 박사학위를 받았다. 주요 저서로 《모두의 인공지능 with 파이썬(개정2판)》(2025), 《IT 세계가 그렇게 어려운가요?》(2025), 《인공지능은 선생님을 대신할까요?》(2023), 《모두의 인공지능 with 스크래치》(2020) 등이 있다.
인공지능 모델 개발 및 성능 평가와 관련된 연구를 진행하고 있으며, 한국연구재단의 "교육용 LLM 성능평가 벤치마크 및 가이드라인 개발 연구"(2025), "자연어처리 모델 기반 질의-응답 시스템 개발 및 적용 연구"(2023) 등을 수행하고 있다.
인공지능 모델 개발 및 성능 평가와 관련된 연구를 진행하고 있으며, 한국연구재단의 "교육용 LLM 성능평가 벤치마크 및 가이드라인 개발 연구"(2025), "자연어처리 모델 기반 질의-응답 시스템 개발 및 적용 연구"(2023) 등을 수행하고 있다.
Payment & Security
Payment methods
Your payment information is processed securely. We do not store credit card details nor have access to your credit card information.
$99 이상 무료 배송
3% 리워드 크레딧 적립
Secure Payment

