자연어 처리를 위한 트랜스포머

Name: 자연어 처리를 위한 트랜스포머
Brand: My Store
SKU: 9791196965679
Price: 29.21 USD
Availability: InStock

저자 Denis Rothman

출판사 DK로드북스

출간일 2022-01-10

ISBN 9791196965679

사이즈 (181 x 237 mm)

무게 836g

판형 규격外

상태 정상

$29.21

Shipping calculated at checkout.

Free Shipping over $99

✈️ Estimated delivery date 예상 배송일

Standard Shipping 불러오는 중...

주문일로부터 8-12 영업일

Express Shipping 불러오는 중...

주문일로부터 6-8 영업일

책소개

트랜스포머 아키텍처가 현재 사용되고 있는 대표적 모델인 RNN과 CNN의 성능을 현저하게 능가한다는 것이 확인되었다. 이 책 “자연어처리를 위한 트랜스포머”는 기계 번역, 음성-텍스트 변환, 텍스트-음성 변환, 언어 모델링, 질의 응답 등 다양한 NLP 분야를 위한 딥러닝을 자세하게 다루고 있다.
이 책은 파이썬으로 독자들을 NLP로 안내하며, 구글, 페이프북, 마이크로소프트, OpenAPI, Hugging Face 같은 선도 기업들이 만든 다양하고 저명한 트랜스포머 아키텍처의 모델들과 데이터 세트를 실험한다.
이 책의 독자들은 세 단계의 훈련 과정을 거친다. 첫 단계에서는 RoBERTa, BERT, DistilBERT 같은 모델로 진입하기 전에 원본 트랜스포머로 시작해서 트랜스포머 아키텍처를 소개한다. GPT-3를 능가하는 소형 트랜스포머를 훈련시키는 방법을 알게 될 것이다. 두 번째 단계에서는 자연어이해(NLU)와 자연어생성(NLG)에 트랜스포머를 적용한다. 끝으로 세 번째 단계에서는 소셜 네트� 데이터셋 최적화, 가짜 뉴스 식별 등의 고급 언어 이해 기술을 접하게 될 것이다.
이 책으로 공부하고 나면 트랜스포머를 인지 과학 관점에서 이해하게 될 것이며, 거대 테크 기업들이 만든 사전 훈련 트랜스포머 모델들을 다양한 데이터셋에 대해 적용할 수 있게 될 것이다.

출판사 리뷰

언어는 인간 커뮤니케이션의 핵심이다. 문명은 언어를 형성하는 단어 시퀀스 없이는
태어나지 않았을 것이다. 이제 우리는 디지털 언어 표현 세계에 살고 있다. 일상에서 웹 검색 엔진, 이메일, 소셜 네트워크, 게시물, 트윗, 스마트 폰 문자 메시지, 번역, 웹 페이지, 기록을 위한 스트리밍 사이트의 음성-텍스트 변환, 텍스트-핫라인 변환 서비스, 그리고 그 외의 수 많은 일상의 NLP(Natural Language Processing. 자연어 처리) 디지털 언어 기능에 의존한다.
2017년 12월, Vaswani 등의 Google Brain 멤버와 Google Research가 쓴 Attention Is AIl You Need 논문이 발표되었다. 트랜스포머가 탄생한 것이다. 트랜스포머가 기존의 최첨단 NLP 모델을 능가했다. 트랜스포머는 이전 아키텍처보다 빠르게 훈련되었으며, 더 높은 평가 결과를 얻었다. 트랜스포머는 NLP의 핵심 구성 요소가 되었다.
지금의 디지털 세계는 NLP 없이는 존재하지 않았을 것이다. NLP는 인공 지능이 없었다면
원시적이고 비효율적으로 남아 있었을 것이다. 그렇지만 RNN(Recurrent Neural Network)과 CNN(Convolutional Neural Network)의 사용은 계산 및 기계 성능 측면에서 엄청난 비용을 발생시킨다.
이 장에서는 먼저 트랜스포머의 부상을 가져온 NLP의 배경부터 시작하겠다. 초기 NLP에서
RNN과 CNN으로 빨리 진행할 것이다. 그런 다음 시퀀스 분석을 수십 년 동안 지배해왔던
RNN과 CNN의 시대를 트랜스포머가 어떻게 무너뜨렸는지 살펴볼 것이다.
그런 다음 Vaswani 등(2017)이 설명한 트랜스포머 모델을 개봉하고, 그 아키텍처의 주요 구성 요소를 살펴볼 것이다. 매혹적인 어텐션 세계를 탐구하고, 트랜스포머의 주요 구성 요소를 설명할 것이다.

| ■ 이 책이 다루는 내용 |
I부: 트랜스포머 아키텍처 소개
1장. '트랜스포머의 모델 아키텍처 시작하기'에서는 NLP의 배경을 살펴보고, RNN, LSTM
및 CNN 아키텍처가 어떻게 버려지고, 트랜스포머 아키텍처가 어떻게 새로운 시대
를 열었는지 이해한다. Google Research 및 Google Brain 저자들이 발명한 독특한
"Attention Is All You Need" 접근 방식을 통해 트랜스포머의 아키텍처를 살펴보겠다.
트랜스포머 이론을 설명할 것이다. 멀티-어텐션 헤드 서브레이어가 어떻게 작동하는
지 보기 위해, Python으로 직접 작업할 것이다. 이 장이 끝날 무렵 여러분은 트랜스포
머의 원래 아키텍처를 이해하게 될 것이다. 다음 장들에서 트랜스포머의 다양한 변형
과 사용법을 탐구할 준비가 되어 있을 것이다.
2장. 'BERT 모델 미세 조정'에서는 원래 트랜스포머의 아키텍처를 기반으로 한다.
BERT(Bidirectional Encoder Representations from Transformers)는 NLP의 세계를 인식하는 광대하고 새로운 방식으로 트랜스포머를 옮길 것이다. BERT는 미래 시퀀스를 예측하기 위해 과거 시퀀스를 분석하는 대신, 전체 시퀀스에 주의를 기울인다! 먼저 BERT 아키텍처의 주요 혁신을 살펴본 다음, Google Colaboratory 노트북에서 각 단계를 거치면서 BERT 모델을 미세 조정하겠다. 인간과 마찬가지로 BERT는 주제를 백지 상태에서 배울 필요 없이, 작업을 배우고 다른 새로운 작업을 수행할 수 있다.

3장. '백지 상태에서 RoBERTa 모델 사전 훈련 시키기'에서는 Hugging Face PyTorch 모듈을 사용하여 RoBERTa 트랜스포머 모델을 백지 상태에서 구축한다. 이 트랜스포머는
BERT및 DistilBERT와 유사하다. 먼저 맞춤형 데이터셋에 대해 백지 상태에서 토크나
이저를 훈련시킨다. 그런 후 훈련된 트랜스포머가 다운스트림, 마스킹된 언어 모델링
작업에 대해 실행된다.

머리말 IX
우리는 개념적 NLP 표현을 탐구하기 위해 Immanuel Kant 데이터셋에 대해 마스킹된 언
어 모델링을 실험할 것이다.
II부: 자연어 이해 및 생성을 위한 트랜스포머 적용
4장. '트랜스포머를 사용한 다운스트림 NLP 작업'에서는 다운스트림 NLP 작업에 의해 트
랜스포머 모델의 마법을 보여준다. 사전 훈련된 트랜스포머 모델을 미세 조정하여
BoolQ, CB, MultiRC, RTE, WiC 등과 같은 다양한 NLP 작업을 해결하여, GLUE
및 SuperGLUE 리더보드를 지배할 수 있다. 작업, 데이터셋 및 메트릭의 트랜스포머
평가 프로세스를 살펴보겠다. 그런 다음 Hugging Face의 트랜스포머 파이프라인을 사
용하여 일부 다운스트림 작업을 실행할 것이다.
5장. '트랜스포머를 사용한 기계 번역'에서는 인간의 베이스라인에서 기계 변환(transduction)방법으로 이동하는 방법을 이해하기 위해 기계 번역을 정의한다. 그런 다음 유럽 의회의 WMT 프랑스어-영어 데이터셋을 사전 처리한다. 기계 번역은 정확한 평가 방법이 필요하며, 이 장에서는 BLEU 채점 방법에 대해 살펴본다. 마지막으로 Trax를 사용하여 트랜스포머 기계 번역 모델을 구현한다.
6장. 'OpenAI GPT-2 및 GPT-3 모델을 사용한 텍스트 생성'에서는 OpenAI GPT-2 트랜
스포머의 여러 측면을 탐구한다. 먼저 리포머 및 PET와 같은 대안 솔루션을 살펴봄으
로써 프로젝트 관리 관점에서 GPT-2 및 GPT-3을 검토한다. 그런 다음 OpenAI의
GPT-2 및 GPT-3 트랜스포머 모델의 새로운 아키텍처를 탐구하고 GPT-2 345M 파
라미터 모델을 실행하고, 상호작용하여 텍스트를 생성한다. 그런 다음 사용자 지정 데
이터셋에 대해 GPT-2 117M 파라미터 모델을 훈련하고 사용자 지정 텍스트 완성을
생성한다.
7장. 'AI 텍스트 요약을 위한 법률 및 재무 문서에 트랜스포머 적용하기'에서는 T5 트랜스포머 모델의 개념과 아키텍처를 살펴본다. 문서를 요약하기 위해 Hugging Face의 T5 모델을 초기화한다. 마지막으로 T5 모델에 권리장전의 샘플을 포함한 다양한 문서의 요약 작업을 시키고, 트랜스포머에 적용된 전이 학습(transfer learning) 접근 방식의 성공과 한계를 탐구한다.

머리말 X
8장. '토큰나이저와 데이터셋 매칭'에서는 토크나이저의 한계를 분석하고, 데이터 인코
딩 프로세스의 품질을 개선하기 위해 적용된 몇 가지 방법을 살펴본다. 우리는 먼저
word2vector 토크나이저가 일부 단어를 생략하거나 잘못 해석하는 이유를 조사하기
위해 Python 프로그램을 빌드할 것이다. 그리고, 우리는 토크나이저에 비특정적인 방
법으로, 사전 훈련된 토크나이저의 한계를 찾아낸다. 마지막으로 토큰화 프로세스의
방법론을 개선할 여지가 아직 많이 남아 있음을 보여주는 몇 가지 아이디어를 적용하
여 T5 요약을 개선할 것이다.
9장. 'BERT 기반 트랜스포머를 사용한 시맨틱 롤 레이블링'에서는 트랜스포머가 텍스트 내
용을 이해하는 방법을 탐구한다. SRL(Semantic Role Labeling)은 인간에게 어려운 작업이다.
트랜스포머는 놀라운 결과를 생성할 수 있다. 우리는 Allen Institute for AI에서 설계한
BERT 기반 트랜스포머 모델을 Google Colab 노트북에서 구현할 것이다. 또한 온라인
리소스를 사용하여 SRL 출력을 시각화한다.
III부: 고급 언어 이해 기술
10장. '데이터가 말하게 하라: 이야기, 질문, 대답'에서는 트랜스포머가 추론하는 방법을 배
울 수 있는지를 보여준다. 트랜스포머는 텍스트, 이야기를 이해할 수 있어야 하며 추
론 능력도 보여줄 수 있어야 한다. NER 및 SRL을 프로세스에 추가하여 질문 답변을
향상시키는 방법을 살펴보겠다. 트랜스포머를 교육하거나 독립 실행형 솔루션으로 사
용할 수 있는 질문 생성기에 대한 청사진을 구축할 것이다.
11장. '예측을 위한 고객 감정 감지'에서는 트랜스포머가 어떻게 센티먼트(감성) 분석을 개선했는지를 보여준다. Stanford Sentiment Treebank를 사용하여 복잡한 문장을 분석하여, 시퀀스의 구조뿐만 아니라 논리적 형태도 이해하는데 여러 트랜스포머 모델을 도
전시킨다. 센티먼트 분석 출력에 따라 다른 작업을 트리거하는 예측을 만들기 위해
트랜스포머를 사용하는 방법을 살펴보겠다.
12장. '트랜스포머에 의한 가짜 뉴스 분석'에서는 뜨거운 주제인 가짜 뉴스와, 우리가 매일
보는 온라인 콘텐츠의 다양한 관점을 이해하는 데 트랜스포머가 어떻게 도움이 되는
지 탐구한다. 매일 수십억 개의 메시지, 게시물 및 기사가 소셜 미디어, 웹 사이트 및
사용 가능한 모든 형태의 실시간 통신을 통해 웹에 게시된다. 이전 장들의 몇 가지 기
술을 사용하여 기후 변화 및 총기 규제에 대한 토론과 전직 대통령의 트윗을 분석한
다. 합리적인 의심을 넘어 가짜 뉴스로 간주될 수 있는 뉴스와 주관적인 뉴스를 결정
하는 도덕적, 윤리적 문제를 겪을 것이다.

머리말 Ⅴ

1장 트랜스포머 모델 아키텍처
1.1 트랜스포머의 배경 4
1.2 트랜스포머의 부상: Attention Is All You Need 7
1.2.1 인코더 스택 10
1.2.2 디코더 스택 46
1.3 훈련과 성능 49
1.3.1 이 장을 마치기 전에 50
1.4 요약 51
1.5 질문 52

2장 BERT 모델 미세 조정
2.1 BERT 아키텍처 58
2.1.1 인코더 스택 59
2.1.2 BERT의 사전훈련 및 미세 조정 66
2.2 BERT 미세 조정 68
2.2.1 GPU 활성화 69
2.2.2 BERT용 Hugging Face PyTorch 인터페이스 설치 71
2.2.3 모듈 불러오기 71
2.2.4 CUDA를 Torch용 디바이스로 지정하기 72
2.2.5 데이터셋 불러오기 72
2.2.6 문장 및 레이블 목록 생성, BERT 토큰 추가 76
2.2.7 BERT 토크나이저 활성화 76
2.2.8 데이터 처리 77
2.2.9 어텐션 마스크 생성 77
2.2.10 훈련 및 검증 데이터 분리 78
2.2.11 Torch 텐서로 데이터 변환 79
2.2.12 뱃치 크기 선택 및 iterator 생성 79
2.2.13 BERT 모델 설정 80
2.2.14 Hugging Face BERT uncased 베이스 모델 불러오기 82
2.2.15 Optimizer 그룹 파라미터 84
2.2.16 훈련 루프용 하이퍼파라미터 85
2.2.17 훈련 루프 86
2.2.18 훈련 평가 87
2.2.19 미사용 데이터셋에 의한 예측 및 평가 88
2.2.20 Matthews 상관 계수에 의한 평가 90
2.2.21 개별 뱃치 점수 91
2.2.22 전체 데이터셋에 대한 Matthews 평가 92
2.3 요약 92
2.4 질문 93

3장 백지 상태에서 RoBERTa 모델 사전훈련시키기
3.1 토크나이저 훈련 및 트랜스포머 사전훈련 98
3.2 백지 상태에서 KantaiBERT 구축하기 100
3.3 다음 단계 122
3.4 요약 122
3.5 질문 123

4장 트랜스포머를 사용한 다운스트림 NLP 작업
4.1 트랜스포머의 변환 및 귀납 상속 128
4.1.1 인간 지능 스택 129
4.1.2 기계 지능 스택 130
4.2 트랜스포머 성능 대 인간 베이스라인 132
4.2.1 메트릭에 의한 모델 평가 133
4.2.2 벤치마크 작업과 데이터셋 134
4.2.3 SuperGLUE 벤치마크 작업 정의 140
4.3 다운스트림 작업 실행 147
4.3.1 CoLA(Corpus of Linguistic Acceptability. 언어 수용성 코퍼스) 147
4.3.2 SST-2 148
4.3.3 MRPC 149
4.3.4 Winograd 스키마 151
4.4 요약 152
4.5 질문 153

5장 트랜스포머 기계 번역
5.1 기계 번역의 정의 158
5.1.1 인간 트랜스덕션과 번역 159
5.1.2 기계 트랜스덕션과 번역 160
5.2 WMT 데이터셋 전처리 161
5.2.1 원시 데이터 전처리 161
5.2.2 데이터셋 전처리 마무리 164
5.3 BLEU에 의한 기계 번역 평가 168
5.3.1 기하적 평가 169
5.3.2 스무딩 기법 적용 171
5.4 Trax에 의한 번역 173
5.4.1 Trax 설치 174
5.4.2 트랜스포머 모델 생성 174
5.4.3 사전 훈련 가중치로 모델 초기화하기 175
5.4.4 문장 토큰화 175
5.4.5 트랜스포머 디코딩 175
5.4.6 역 토큰화 및 번역 표시 176
5.5 요약 177
5.6 질문 178

6장 OpenAI GPT-2 및 GPT-3 모델을 사용한 텍스트 생성
6.1 10억 파라미터 트랜스포머 모델의 부상 185
6.1.1 트랜스포머 모델의 크기 증가 185
6.2 트랜스포머, 리포머, PET, 또는 GPT? 188
6.2.1 원본 트랜스포머 아키텍처의 한계 190
6.2.2 리포머 194
6.2.3 PET(Pattern-Exploiting Training. 패턴 활용 훈련) 196
6.3 결정을 내려야 할 때다 199
6.4 OpenAI GPT 모델의 아키텍처 200
6.4.1 미세 조정에서 제로-샷 모델까지 201
6.4.2 디코더 레이어 쌓기 203
6.5 GPT-2에 의한 텍스트 완성 205
6.6 GPT-2 언어 모델 훈련 218
6.7 컨텍스트 및 완성 예제 225
6.8 트랜스포머로 음악 생성 229
6.9 요약 230
6.10 질문 231

7장 AI 텍스트 요약을 위해 법률 및 재무 문서에 트랜스포머 적용하기
7.1 보편적인 T2T 모델 설계 236
7.1.1 T2T 트랜스포머 모델의 부상 237
7.1.2 작업-특정 형식 대신 접두사 239
7.1.3 T5 모델 241
7.2 T5를 사용한 텍스트 요약 243
7.2.1 Hugging Face 243
7.2.2 T5-large 트랜스포머 모델 초기화 246
7.2.3 T5-large에 의한 문서 요약 252
7.3 요약 258
7.4 질문 259

8장 토크나이저와 데이터셋 매칭
8.1 토크나이저와 데이터셋 매칭 264
8.2 최선 관행 265
8.1.2 Word2Vec 토큰화 270
8.2 특정 어휘를 사용한 표준 NLP 작업 282
8.2.1 GPT-2에 의한 비조건부 샘플 생성 282
8.2.2 훈련된 조건부 샘플 생성 288
8.3 T5 권리장전 샘플 289
8.3.1 권리장전 요약 1 289
8.3.2 권리장전 요약 2 290
8.4 요약 292
8.5 질문 293

9장 BERT 기반 트랜스포머를 사용한 시맨틱 롤 레이블링
9.1 SRL 시작하기 298
9.1.1 SRL 정의 299
9.2.1 사전 훈련 BERT 기반 모델 실행 301
9.2 BERT 기반 모델을 사용한 SRL 실험 304
9.3 기본 샘플 304
9.3.1 샘플 1 304
9.3.2 샘플 2 306
9.3.3 샘플 3 309
9.4 어려운 샘플들 313
9.4.1 샘플 4 313
9.4.2 샘플 5 317
9.4.3 샘플 6 319
9.5 요약 319
9.6 질문 320

10장 데이터가 말하게 하라: 이야기, 질문, 답변
10.1 방법론 326
10.1.1 트랜스포머와 방법 327
10.2 방법 0: 시행착오 329
10.3 방법 1: NER first 332
10.3.1 질문을 찾기 위해 NER 사용하기 333
10.4 방법 2: SRL first 340
10.4.1 ELECTRA를 사용한 질문-답변 342
10.4.2 프로젝트 관리 제약 345
10.4.3 질문을 찾기 위해 SRL 사용하기 345
10.5 다음 단계 352
10.5.1 RoBERTa 모델로 Haystack 탐구하기 354
10.6 요약 355
10.7 질문 356

11장 예측을 위한 고객 감정 감지
11.1 시작하기: 센티먼트 분석 트랜스포머들 362
11.2 SST 362
11.2.1 RoBERTa-large를 사용한 센티먼트 분석 366
11.3 센티먼트 분석에 의한 고객 행동 예측 368
11.3.1 DistillBERT를 사용한 센티먼트 분석 368
11.3.2 Hugging Face 모델 목록을 이용한 센티먼트 분석 371
11.4 요약 378
11.5 질문 379

12장 트랜스포머에 의한 가짜 뉴스 분석
12.1 가짜 뉴스에 대한 감정적 반응 384
12.1.1 인지 불협화가 감정적 반응을 촉발 385
12.2 가짜 뉴스에 대한 합리적 접근 방법 394
12.2.1 가짜 뉴스 해결 로드맵 정의 395
12.2.2 총기 규제 396
12.2.3 COVID-19와 트럼프 전 대통령 트윗 408
12.3 나가기 전에 412
12.3.1 은탄환을 찾아서 412
12.3.2 신뢰할 수 있는 훈련 방법을 찾아서 413
12.4 요약 414
12.5 질문 415

부록: 질문에 대한 답 417
찾차보기

저자

Denis Rothman About the author
Denis Rothman graduated from Sorbonne University and Paris Diderot
University, designing one of the very first word2matrix patented embedding
and vectorizing systems. He began his career authoring one of the first AI
cognitive Natural Language Processing (NLP) chatbots applied as an automated
language teacher for Mo?t et Chandon and other companies. He has authored an AI resource optimizer for IBM and apparel producers and an advanced planning
and scheduling (APS) solution used worldwide

Payment & Security

Your payment information is processed securely. We do not store credit card details nor have access to your credit card information.