QA를 넘어 개발자도 알아야 할 AI 에이전트 품질 가이드

Name: QA를 넘어 개발자도 알아야 할 AI 에이전트 품질 가이드
Brand: My Store
SKU: 9788965404347
Price: 31.46 USD
Availability: InStock

정답 없는 AI 서비스의 신뢰 기준, LLM Judge 평가 전략

저자 정상미

출판사 프리렉

출간일 2026-02-13

ISBN 9788965404347

사이즈 (188 x 245 mm)

무게 760g

판형

상태 정상

$31.46

Shipping calculated at checkout.

Free Shipping over $99

✈️ Estimated delivery date 예상 배송일

Standard Shipping 불러오는 중...

주문일로부터 8-12 영업일

Express Shipping 불러오는 중...

주문일로부터 6-8 영업일

책소개

AI 시대 요즘 QA, AI 에이전트 품질 평가, 이 한 권으로 시작하자!
정답 없는 AI 시대, 무엇을 기준으로 PASS를 줄 것인가?
QA팀이 없어도, 품질은 누군가 책임져야 합니다.
AI 서비스는 왜 ‘어제는 괜찮았는데 오늘은 실패하는지’ 설명하기가 어렵습니다. 같은 질문에도 답이 달라지고, 맥락에 따라 결과가 바뀌며, 문제를 재현하기도 쉽지 않기 때문입니다. 저자는 이런 흔들림을 줄이기 위해, 개발이 끝난 뒤에 검증을 덧붙이는 방식이 아니라 Shift-Left Testing 관점에서 초기에 품질을 설계하고 운영하는 흐름을 실무 언어로 정리했습니다. 이 책은 그 결과를 담은 AI 에이전트 품질 평가 입문서입니다.

먼저 “좋은 답변”을 말로만 판단하지 않도록, Responsible AI Testing 프레임워크인 RaiT를 바탕으로 품질의 조건을 항목별로 정리합니다. 정확도뿐 아니라 의도 이해, 안전성, 표현의 적절성, 일관성처럼 실제 서비스에서 문제가 되는 지점을 기준으로 삼아, 팀이 합의할 수 있는 평가 기준표를 만들고, 그 기준을 Judge 프롬프트로 구현해 누가 보더라도 납득할 수 있는 판정 체계로 바꾸는 방법을 안내합니다.

그리고 사람이 매번 확인하는 방식에서 벗어나, 평가를 반복 가능하게 만드는 운영 방식을 제시합니다. 릴리스가 반복될수록 평가가 느슨해지거나 결과가 흔들리지 않도록, 테스트 준비부터 실행, 결과 정리와 공유까지의 흐름을 표준화하고, 현업에 즉시 적용할 수 있는 체크리스트와 보고서 템플릿도 함께 제공합니다. 더 나아가 품질이 좋아도 느리면 실패한다는 관점에서, 사용자가 체감하는 반응 속도인 TTFT와 완성 속도인 TTLT까지 함께 다루며, 릴리스마다 더 단단해지는 운영 루프로 연결합니다.

이 책을 통해 여러분은 흔들리는 결과 앞에서 당황하기보다, 정리하고 재현하고 개선하는 방식으로 문제를 다루게 될 것입니다. 완벽함보다 중요한 건 꾸준히 운영 가능한 체계를 만드는 일이고, 그 과정에서 여러분은 분명 한층 더 강한 품질 담당자로 성장하게 될 것입니다.

출판사 리뷰

정답 없는 AI 시대, 품질을 감이 아닌 '검증 가능한 과정'으로 증명하는 실무 가이드
AI 에이전트가 제품의 핵심 기능이 되면서, 테스트는 더 이상 "기능이 동작하나?"만 확인하는 일이 아니게 됐습니다.
같은 질문에도 답이 달라지고, 맥락에 따라 결과가 흔들리며, 무엇보다 재현이 어려운 오류가 늘어납니다.

그리고 어느날 팀은 말합니다.
"어제는 PASS였는데 오늘은 FAIL"입니다.

원인을 설명하지 못한 채 땜질과 핫픽스를 반복하는 상황 앞에서,
이 책은 바로 그 혼란을 출발점으로 삼아 시작합니다.
정답이 없는 AI 시대에 품질을 감이 아니라 원칙과 절차로 다루는 방법을 실무 흐름으로 정리합니다.

특히 이 책의 강점은 "평가"를 말로만 다루지 않는다는 점입니다. 개발이 끝난 뒤에 검증을 덧붙이는 방식에서 벗어나, Shift-Left Testing 관점으로 기획·설계 단계부터 품질 목표와 검증 흐름을 함께 설계하도록 안내합니다. 이어서 **Responsible AI Testing 프레임워크(RaiT)**로 '좋은 답변'을 항목화해 팀이 합의할 수 있는 형태로 바꾸고, 누구나 납득할 수 있는 판단 체계로 연결합니다. "정확도만 보면 된다"는 단순한 접근을 넘어, 의도 이해, 안전성, 표현의 적절성, 일관성처럼 실제 서비스에서 문제를 만드는 지점을 품질 요소로 정리해, 평가가 사람마다 달라지는 위험을 줄입니다.

또한 이 책은 평가를 '한 번' 해보는 수준에서 멈추지 않고, 반복 가능한 운영 방식으로 완성합니다. Judge 프롬프트를 통해 평가를 자동화하고, 릴리스마다 기준이 흔들리지 않도록 리그레션 운영 루프로 연결합니다. 테스트 준비부터 실행, 결과 정리와 공유까지를 하나의 흐름으로 표준화해, 팀이 커지거나 담당자가 바뀌어도 품질 판단이 무너지지 않게 설계한 점이 인상적입니다.

마지막으로 "품질이 좋아도 느리면 실패한다"는 현실을 놓치지 않습니다. 사용자 체감 속도를 보여주는 TTFT/TTLT 관점을 함께 제시해, 답변의 내용뿐 아니라 반응 속도와 완성 속도까지 품질 관리 범위로 끌어옵니다. 그리고 이 모든 내용을 현업에서 바로 적용할 수 있도록 체크리스트와 보고서 템플릿까지 제공해, 독자가 "읽고 끝"이 아니라 "내일 바로 적용"할 수 있게 구성했습니다. QA와 개발자가 같은 언어로 품질을 합의하고, 흔들리는 결과를 운영 가능한 품질 체계로 바꾸고 싶다면 이 책은 현실적인 출발점이 될 것입니다.

이런 분께 추천합니다!
QA/QE
"어제 PASS, 오늘 FAIL"처럼 흔들리는 AI 서비스 품질을 기준과 운영 루프로 정리하고 싶은 분
수동 확인에 지치지 않고, 반복 가능한 평가·리그레션 체계를 만들고 싶은 분
개발자/테크리드
QA팀이 없거나 리소스가 부족해도, 팀이 함께 돌릴 수 있는 품질 검증 방식이 필요한 분
릴리스마다 품질 이슈를 땜질하는 대신, 자동 평가(Judge 프롬프트) 기반 운영으로 전환하고 싶은 분
PM/기획자
"좋은 답변"을 말로만 합의하지 않고, 팀이 납득할 품질 기준과 판단 방식을 세우고 싶은 분
릴리스마다 품질 목표와 사용자 경험(정확도·안전·일관성·속도)을 한 흐름으로 관리하고 싶은 분
AI/데이터·서비스 운영 담당자
모델·프롬프트 변경이 잦은 환경에서, 변경 전후 품질을 일관되게 비교·추적하고 싶은 분
결과 리포트와 지표를 기반으로 품질을 '운영'하는 체계가 필요한 분

-이 책의 구성-
이 책은 독자의 이해를 돕기 위해 가상의 검색 서비스 기업 '펜 서치(PEN Search Inc.)'를 설정했습니다. 실제 기업은 아니지만, AI 검색 서비스를 개발·운영하는 과정에서 발생할 수 있는 문제를 보다 구체적으로 설명하기 위한 사례로 활용됩니다. 펜 서치는 처음에는 키워드 기반 검색 서비스를 운영하다가, 차세대 플랫폼 '넥스트 서치(Next Search)'로 전환하는 과정을 겪습니다. 이 과정에서 단순한 검색 기능을 넘어, 사용자의 의도와 맥락을 이해하고 답변을 제공하는 AI 에이전트를 도입합니다.
이러한 설정을 통해 독자는 검색 서비스가 어떻게 발전하는지, 그리고 그 과정에서 품질 기준과 테스트 방법론이 어떤 방식으로 적용되는지를 보다 현실적으로 이해할 수 있습니다. 더 나아가 AI 모델·에이전트 시대에 품질의 기준이 어떻게 달라져야 하는지, 그리고 QA가 어떤 방식으로 역량과 커리어를 확장할 수 있는지를 함께 보여주고자 합니다.

책은 총 7장으로 구성되어 있습니다.
1장은 가상의 AI 프로젝트를 함께 수행하면서 QA가 겪었던 혼란을 돌아보고, Shift-Left전환을 통해 품질을 수행하는 과정을 이야기합니다.
2장은 AI 에이전트를 이해하는 것이 왜 테스트의 출발점인지를 설명합니다. 모델 생성 방식과 최적화 기술, 그리고 에이전트 유형별 구조를 소개합니다.
3장은 AI 에이전트 테스팅을 위한 Responsible AI Testing, 즉 RaiT 프레임워크를 다룹니다. 8가지 품질 지표로 AI 에이전트를 어떻게 평가할 수 있는지 제시합니다.
4장은 실제 프로젝트에 RaiT를 적용하는 방법을 다룹니다. 테스트 플랜 수립부터 케이스 도출, 자동화 적용까지 단계별로 정리했습니다.
5장은 "AI 품질 판정은 어떻게 내릴 것인가?"라는 질문을 다룹니다. 단순히 사람이 점수를 매기는 것을 넘어, 프롬프트와 모델을 활용한 평가 자동화 기법을 소개합니다. 자동화 프롬프트 설계와 구현 고민까지 실제 경험을 담았습니다.
6장은 "품질은 반복에서 만들어진다"는 관점에서 자동화 사례를 다룹니다. 반복 테스트를 어떻게 효율적으로 구축하고, 어떤 방식으로 적용했는지 보여줍니다.
7장은 여전히 중요한 성능 품질을 다룹니다. 기능이나 AI 에이전트 답변 품질만큼이나, 성능이 사용자 경험을 좌우한다는 점을 다시 짚고, 자동화된 성능 테스트 방식을 정리했습니다.

머리말
QA의 변화와 새로운 성장 기회
QA 커리어는 어디로 향하는가
베타 리뷰어의 한마디: 첫 독자가 전하는 말
이 책이 전하려는 것
독자에게 드리는 부탁

Chapter 1. AI 시대, 소프트웨어의 품질 기준은 왜 달라져야 하는가
_1.1 AI 이전의 프로젝트에서 QA는?
_1.2 AI 프로젝트 초기, QA가 마주한 혼란의 기록
__우리가 품질에서 놓친 것들: AI 프로젝트 초반, 불안정했던 QA 현실
_1.3 더 이상 늦게 들어가선 안 된다: Shift-Left Testing
__Shift-Left Testing
__Shift-Left Testing의 실전 적용: "우리가 바꾼 프로세스"
_1.4 새로운 기술에는 새로운 품질 기준이 필요하다.
__Responsible AI Frameworks
__ISO/IEC 42001: AI 관리 체계 전반의 품질 통제 기준
__TTA의 인공지능 신뢰성 인증
__Responsible AI를 위한 새로운 AI 테스트 기준, RaiT
_1.5 마무리하며: AI 시대 요즘 QA에 대하여

Chapter 2. AI 에이전트를 이해하면 테스트가 쉬워집니다
_2.1 AI 모델의 개념과 생성 방식 이해
__AI 모델의 기본 개념
__AI 모델의 분류 방식
_2.2 AI 모델 최적화 기술
__프롬프트 튜닝(Prompt-Tuning)
__파인 튜닝(Fine-tuning) 모델
__RAG(Retrieval-Augmented Generation)
__모델 증류 (Model Distillation)
_2.3 AI 에이전트 테스트 포인트
__무한 응답의 혼돈: 예측 불가성과 환각(hallucination)
__데이터 중독과 편향(Bias) - 사회적 편견이 응답으로 나타나는 경우
__문맥의 미로 - 컨텍스트 누락, 왜곡, 충돌
__기술 종속의 덫 - 모델과 프롬프트 의존성(lock-in)
_2.4 AI 에이전트 유형별 구조
__AI 에이전트 주요 구성 요소
__정확한 명령을 처리하는 Function Agent
__문맥을 기억하는 Agentic Agent
__말을 걸지 않아도 먼저 도와주는 Promptless Agent
_2.5 마무리하며: AI Agent 이해가 시작입니다.

Chapter 3. AI Agent 품질을 측정하는 프레임워크
_3.1 Responsible AI Agent Test (RaiT)
__RaiT 테스트 방법론
__RaiT 테스트 프로세스
__RaiT 테스트 도구
_3.2 RaiT 품질지표
__문맥연결성 (Contextual Relevance, 관련성)
__의도해석성 (Intent Interpretation, 이해도)
__신뢰안전성 (Trust & Safety, 안전성)
__표현적절성 (Linguistic Appropriateness, 표현성)
__정보정확성 (Factual Correctness, 정확성)
__목표충족성 (Task Effectiveness, 적합성)
__반응안정성 (Response Stability, 일관성)
__지속적응성 (Continuity & Adaptivity, 지속성)
3.3 RaiT 평가 기준점
__품질 기준점 영향 요소
__품질 기준점 정책
_3.4 마무리하며: RaiT는 AI Agent 품질의 새로운 기준

Chapter 4. AI Agent 테스트 설계 실전
_4.1 RaiT 테스트 플랜 프로세스
__품질 지표 평가 및 선택
__품질 Criteria 정의
__답변 기준 설정
_4.2 RaiT 테스트 케이스 도출
__테스트 케이스 종류와 품질 지표
__질문 생성 프롬프팅
__컨텐츠 추가
_4.3 RaiT 테스트 실행 프로세스
__매뉴얼 검증: AI 모델 품질 향상을 위한 필수적인 사람 중심 평가
__자동 테스트
__이슈 등록 및 관리
__결과 보고
_4.4 마무리하며: 같은듯 다른 테스트 프로세스

Chapter 5. 모델의 평가는 이제 모델에게 : 프롬프트와 모델로 평가 자동화하기
_5.1. '정답'이 없는 시대의 테스터를 위한 자동화 안내서
__초기 계획 수립의 어려움
__LLM 평가방식 자동화에 대한 고민
__자동화 구현 방식의 고민
__자동화 프롬프트의 중요성
_5.2 Rubric 기반 Judge Prompt 설계
__무엇이 좋은 Judge 프롬프트를 만드는가?
__Judge 프롬프트의 5가지 핵심 구성요소
__단계별 루브릭 상세화: 점수에 의미 부여하기
__실전! Judge 프롬프트 템플릿 작성하기
__살아있는 프롬프트로 발전시키기
_5.3 Few-shot 기반 Judge Prompt 설계
__제로샷(Zero-shot)의 한계를 넘어: 왜 Few-shot이 필요한가?
__효과적인 Few-shot 예시(Exemplar)의 조건
__실전! Few-shot Judge 프롬프트 템플릿 작성하기
__퓨샷 프롬프팅의 장점과 주의사항
_5.4 AI의 오답노트와 모범답안: 감점/긍정 피드백 활용법
__기본 평가의 한계와 2단계 평가의 필요성
__실전! 2단계 평가 프롬프트 작성 예시
__평가에서 학습으로: 피드백 루프의 완성
__감점 피드백: 실패에서 배우는 수정된 모범 답안 생성
__긍정 피드백: 성공에서 배우는 행동 원칙 추출
__결론: 평가와 학습의 선순환
_5.5 평가 모델 기반 판정 (BERTScore, Classifier)
__BERTScore: 정답과 의미가 얼마나 비슷한가? 의미 유사도 측정
__Classifier(분류기): 이 답변은 합격인가, 불합격인가? - 품질 기준 평가
_5.6 A/B Test와 신뢰도 확보 방법
__A/B 테스트의 핵심 원리
__오프라인 A/B 테스트: BERTScore를 활용한 자동화된 성능 비교
__온라인 A/B 테스트: 실제 사용자를 통한 최종 검증
_5.7 마무리하며: AI 평가 시스템, 살아있는 유기체로 만들기

Chapter 6. 품질은 반복에서 만들어집니다 - 자동화와 적용 사례
_6.1 실무 QA 환경에서의 자동화 전략과 성공 포인트
__실무 성공을 위한 5가지 자동화 전략
_6.2 평가 자동화 구조 설계: 입력 〉 실행 〉 판정 〉 리포트
__1단계: 입력 (Input) - 자동화의 재료를 준비하는 단계
__2단계: 실행 (Execution) - 평가를 수행하는 엔진
__3단계: 판정 (Judgment) - 품질을 측정하고 점수를 매기는 단계
__4단계: 리포트 (Report) - 결과를 분석하고 공유하는 단계
__평가 테스트 자동화 구조 다이어그램
_6.3 LLM 평가 자동화 구현
__LLM 평가 자동화 실습 환경 준비하기
__Postman으로 빠르게 사전 검증하기
__LLM 평가 자동화 구현하기
__최종 실행 결과
_6.4 지속 가능한 자동화 운영: 프롬프트, 데이터, 보안, 비용 관리
__체계적인 프롬프트 관리 전략: 프롬프트를 '코드'처럼 다루기
__살아있는 테스트 케이스 관리 전략: '골든셋'의 진화
__가장 중요한 자산: API 키 보안과 관리
__비용 최적화: 토큰(Token) 사용량 완벽하게 이해하고 관리하기
_6.5 LLM 평가 자동화 현업 실무 적용 사례 (RaiT Tool)
__사례1 모두를 위한 LLM 테스팅 도구 - RaiT Client)
__사례2 API 기반 평가 플랫폼 - RaiT Web
__사례3 Jenkins를 활용한 온디맨드(On-Demand) 평가 - RaiT CI
_6.6 평가 결과 분석 및 활용 전략
__평가 결과 분석 및 후속 조치 프로세스
__리소스 효율화: '선택과 집중' 전략
_6.7 마무리하며: 자동화 도입 시 고려할 점과 유지 테스트
__1. 자동화 도입 전, 반드시 답해야 할 3가지 질문
__2. 시스템 도입 후: 지속적인 유지보수 전략

Chapter 7. 여전히 중요한 성능
_7.1 성능의 트레이드오프: 품질, 속도, 그리고 비용
_7.2 Time to First Token (TTFT): 사용자가 느끼는 '반응 속도'의 모든 것
_7.3 Time to Last Token (TTLT): 사용자가 느끼는 '완성 속도'의 모든 것
_7.4 성능 모니터링 리포트 결과와 유관부서 협업
_7.5 마무리하며: 속도와 품질, 두 마리 토끼를 잡는 법

Appendix A. Test Plan Checklist
_1. 목표 및 범위 정의
_2. 품질 지표 및 기준 설정
_3. 테스트 케이스 설계
_4. 테스트 수행 전략
_5. 이슈 관리 및 결과 보고
_6. 자원 및 일정 계획
Appendix B. 테스트 결과 보고서 템플릿
_1. 개요
_2. 테스트 목표 및 범위
_3. 테스트 방법론
_4. 품질 지표별 품질 기준점
_5. 테스트 결과 요약
_6. 품질 지표별 상세 분석
__6.1. 안전성
__6.2. 정확성
__6.3. 일관성
__6.4. 지속성
_7. 결론 및 권고 사항
_8. 첨부 자료

저자

정상미 소프트웨어 품질보증 분야의 발전을 위해 노력하고 있는 전문가이다. AI를 비롯한 다양한 소프트웨어 영역에서 품질보증 적용 확대와 테스트 자동화, 테스트 환경 구축에 관심을 가지고 있으며, 특히 자동화 기반 검증과 대규모 언어모델(LLM) 검증, 보안성 검증 기술 연구에 주력하고 있다. 음성 AI 서비스와 모빌리티 플랫폼의 품질보증 업무를 수행하며, 윈도우, 리눅스, 맥, 모바일, 웹 브라우저 등 다양한 이기종 플랫폼에서 동작하는 제품들의 테스트 자동화 프로젝트를 수행해 왔다. 정보관리기술사로서 IT 보안과 소프트웨어 품질관리 전문성 향상에 힘쓰고 있다. 저서로는 『더 괜찮은 QA가 되기 위한 프랙티컬 테스트 자동화』가 있다.

Payment & Security

Your payment information is processed securely. We do not store credit card details nor have access to your credit card information.