허깅페이스로 배우는 멀티모달 모델
이미지 이해부터 생성, 파인튜닝까지
Regular price
$24.72
Sale price
Regular price
✈️
Estimated delivery date 예상 배송일
Standard Shipping
불러오는 중...
주문일로부터 8-12 영업일
Express Shipping
불러오는 중...
주문일로부터 6-8 영업일
세계 최대이자 대표 오픈소스 AI 플랫폼
허깅페이스로 시작하는 멀티모달 모델의 모든 것
허깅페이스(Hugging Face)는 전 세계의 수많은 연구자와 기업들이 자신의 모델과 데이터셋을 공개하고 공유할 수 있는 대표적인 오픈소스 AI 플랫폼입니다. 허깅페이스는 단순히 모델을 모아 둔 저장소 역할만 하지 않습니다. Transformers와 같은 라이브러리를 통해 이 모델들을 쉽게 다룰 수 있는 방법을 제공하며, 개발자들이 복잡한 기술을 간단한 코드 몇 줄로 활용할 수 있게 해줍니다. 이렇듯 허깅페이스는 AI 기술을 효과적으로 활용하는 것은 물론 텍스트, 이미지, 오디오, 비디오 등 다양한 데이터를 동시에 처리하는 멀티모달(Multimodal) AI 분야에서도 필수적인 도구로 자리 잡았습니다.
《허깅페이스로 배우는 멀티모달 모델》은 허깅페이스(Hugging Face) 생태계를 기반으로, 텍스트와 이미지를 동시에 다루는 멀티모달 (Multimodal) 모델의 기초부터 실무 활용까지 이론을 바탕으로 실습을 통해 익힐 수 있도록 구성하였습니다.
이론 설명을 넘어 멀티모달 모델의 핵심인 CLIP 인코더의 원리와 비전 언어 모델(VLM)의 파인튜닝 그리고 ControlNet을 활용한 정교한 이미지 생성 기법을 단계별 실습과 함께 알려 줍니다. 특히 급변하는 AI 트렌드에 발맞춰 비디오 LLM, 옴니 모델, 로봇 멀티모달 등 차세대 기술의 확장성까지 조망함으로써 AI 엔지니어와 개발자들이 실질적인 구현 능력을 갖출 수 있도록 도와줄 것입니다.
허깅페이스로 시작하는 멀티모달 모델의 모든 것
허깅페이스(Hugging Face)는 전 세계의 수많은 연구자와 기업들이 자신의 모델과 데이터셋을 공개하고 공유할 수 있는 대표적인 오픈소스 AI 플랫폼입니다. 허깅페이스는 단순히 모델을 모아 둔 저장소 역할만 하지 않습니다. Transformers와 같은 라이브러리를 통해 이 모델들을 쉽게 다룰 수 있는 방법을 제공하며, 개발자들이 복잡한 기술을 간단한 코드 몇 줄로 활용할 수 있게 해줍니다. 이렇듯 허깅페이스는 AI 기술을 효과적으로 활용하는 것은 물론 텍스트, 이미지, 오디오, 비디오 등 다양한 데이터를 동시에 처리하는 멀티모달(Multimodal) AI 분야에서도 필수적인 도구로 자리 잡았습니다.
《허깅페이스로 배우는 멀티모달 모델》은 허깅페이스(Hugging Face) 생태계를 기반으로, 텍스트와 이미지를 동시에 다루는 멀티모달 (Multimodal) 모델의 기초부터 실무 활용까지 이론을 바탕으로 실습을 통해 익힐 수 있도록 구성하였습니다.
이론 설명을 넘어 멀티모달 모델의 핵심인 CLIP 인코더의 원리와 비전 언어 모델(VLM)의 파인튜닝 그리고 ControlNet을 활용한 정교한 이미지 생성 기법을 단계별 실습과 함께 알려 줍니다. 특히 급변하는 AI 트렌드에 발맞춰 비디오 LLM, 옴니 모델, 로봇 멀티모달 등 차세대 기술의 확장성까지 조망함으로써 AI 엔지니어와 개발자들이 실질적인 구현 능력을 갖출 수 있도록 도와줄 것입니다.
Couldn't load pickup availability
출판사 리뷰
출판사 리뷰
AI 기술의 격전지, 멀티모달의 A to Z
"복합 지능 AI 시대를 주도하기 위한 가장 확실한 로드맵"
단일 데이터 처리의 시대가 저물고, 인간처럼 보고 듣고 말하는 '멀티모달'이 인공지능의 새로운 표준이 되었습니다. 이 책은 파편화된 기술 정보를 나열하는 대신, 전 세계 개발자들이 가장 신뢰하는 허깅페이스 생태계를 기반으로 멀티모달 모델의 탄생 배경부터 최신 진화 양상까지 하나의 흐름으로 꿰어냅니다.
〈이 책에 수록된 내용〉
ㆍ Part 01. 허깅페이스 살펴보기에서는 전 세계적으로 가장 대표적인 오픈소스 AI 플랫폼인 허깅페이스의 시작과 발전 과정, 그리고 허깅페이스의 생태계를 '개발 도구 및 서비스', '연구개발', '커뮤니티 및 교육', 이렇게 세 영역으로 나누어 살펴봅니다. 또한 허깅페이스 멀티모달 모델을 위한 허깅페이스의 라이브러리의 모델 불러오기, 입력 처리, 파이프라인 시스템에 대해서 살펴봅니다.
ㆍ PART 02. 멀티모달 모델 이해하기에서는 멀티모달 모델을 활용한 이미지 생성에 앞서 먼저 멀티모달 모델이란 무엇인지와 필요성, 그리고 모델의 분류에 대해 알아봅니다. 또한 멀티모달 모델이 작동하는 데 꼭 필요한, 이미지와 텍스트 데이터를 동시에 처리할 수 있는 인코더 중 가장 널리 사용되는 CLIP의 개념과 CLIP가 실제로 어떻게 작동하는지, 제로샷 분류 실습을 통해 확인해 봅니다.
ㆍ PART 03. 멀티모달 모델을 활용한 이미지 이해에서는 멀티모달 모델을 활용해 이미지와 같은 시각 정보를 이해하고, 그 이해를 바탕으로 시각 정보와 연관된 텍스트를 생성하는 방법들을 단계적으로 학습할 수 있도록 안내합니다. 멀티모달 모델이 어떻게 이미지와 텍스트를 함께 이해하는지에 대한 핵심 개념과 이를 바탕으로 비전 언어 모델들을 실제로 사용해 보며, 주요 작업에서의 동작 방식과 출력 특성을 비교합니다. 비전 언어 모델이 특정 작업에서 더 정확하고 일관된 출력을 내도록 만드는 파인튜닝 방법을 다룹니다.
ㆍ PART 04. 멀티모달 모델을 활용한 이미지 생성에서는 멀티모달 모델을 활용한 이미지 생성 방법을 다룹니다. 먼저, 텍스트 기반 이미지 생성 모델의 기본적인 개념과 활용 방법을 이해하고, ControlNet을 활용하여 보다 정교하게 이미지 생성을 제어하는 방법을 살펴봅니다. 또한, 맞춤형 이미지 생성 모델을 학습하는 방법과 효율적인 학습 및 추론 기법도 수록했습니다.
ㆍ PART 05. 멀티모달 모델 더 알아보기에서는 기존의 이미지 기반 멀티모달 모델을 시간 차원으로 확장한 모델인 비디오 LLM, 텍스트, 이미지, 오디오(음성), 비디오 등 여러 종류의 데이터를 동시에 자연스럽게 처리하는 옴니 모델, 로봇을 위한 멀티모달 모델을 살펴봅니다. 또한 하나의 모델로 이미지 생성과 편집을 아우르는 Qwen Image Edit와 비디오 생성 모델의 등장과 이에 따른 도전 과제들을 살펴보며, 마지막으로 이미지 생성 벤치마크를 알아봅니다.
〈이 책을 함께 읽어요!〉
ㆍ 자연어처리(NLP), 컴퓨터비전, 멀티모달 분야에 관심있는 일반인
ㆍ 멀티모달 모델 학습을 통해 이미지 생성 원리 및 모델 확습에 관심 있는 일반인
ㆍ 오픈소스 라이브러리를 통한 AI 실습에 관심있는 개발자
ㆍ AI 기술을 실무에 적용하고자 하는 개발자
ㆍ 허깅페이스 및 오픈소스 라이브러리를 통한 LLM 개발에 관심있는 AI 엔지니어
"복합 지능 AI 시대를 주도하기 위한 가장 확실한 로드맵"
단일 데이터 처리의 시대가 저물고, 인간처럼 보고 듣고 말하는 '멀티모달'이 인공지능의 새로운 표준이 되었습니다. 이 책은 파편화된 기술 정보를 나열하는 대신, 전 세계 개발자들이 가장 신뢰하는 허깅페이스 생태계를 기반으로 멀티모달 모델의 탄생 배경부터 최신 진화 양상까지 하나의 흐름으로 꿰어냅니다.
〈이 책에 수록된 내용〉
ㆍ Part 01. 허깅페이스 살펴보기에서는 전 세계적으로 가장 대표적인 오픈소스 AI 플랫폼인 허깅페이스의 시작과 발전 과정, 그리고 허깅페이스의 생태계를 '개발 도구 및 서비스', '연구개발', '커뮤니티 및 교육', 이렇게 세 영역으로 나누어 살펴봅니다. 또한 허깅페이스 멀티모달 모델을 위한 허깅페이스의 라이브러리의 모델 불러오기, 입력 처리, 파이프라인 시스템에 대해서 살펴봅니다.
ㆍ PART 02. 멀티모달 모델 이해하기에서는 멀티모달 모델을 활용한 이미지 생성에 앞서 먼저 멀티모달 모델이란 무엇인지와 필요성, 그리고 모델의 분류에 대해 알아봅니다. 또한 멀티모달 모델이 작동하는 데 꼭 필요한, 이미지와 텍스트 데이터를 동시에 처리할 수 있는 인코더 중 가장 널리 사용되는 CLIP의 개념과 CLIP가 실제로 어떻게 작동하는지, 제로샷 분류 실습을 통해 확인해 봅니다.
ㆍ PART 03. 멀티모달 모델을 활용한 이미지 이해에서는 멀티모달 모델을 활용해 이미지와 같은 시각 정보를 이해하고, 그 이해를 바탕으로 시각 정보와 연관된 텍스트를 생성하는 방법들을 단계적으로 학습할 수 있도록 안내합니다. 멀티모달 모델이 어떻게 이미지와 텍스트를 함께 이해하는지에 대한 핵심 개념과 이를 바탕으로 비전 언어 모델들을 실제로 사용해 보며, 주요 작업에서의 동작 방식과 출력 특성을 비교합니다. 비전 언어 모델이 특정 작업에서 더 정확하고 일관된 출력을 내도록 만드는 파인튜닝 방법을 다룹니다.
ㆍ PART 04. 멀티모달 모델을 활용한 이미지 생성에서는 멀티모달 모델을 활용한 이미지 생성 방법을 다룹니다. 먼저, 텍스트 기반 이미지 생성 모델의 기본적인 개념과 활용 방법을 이해하고, ControlNet을 활용하여 보다 정교하게 이미지 생성을 제어하는 방법을 살펴봅니다. 또한, 맞춤형 이미지 생성 모델을 학습하는 방법과 효율적인 학습 및 추론 기법도 수록했습니다.
ㆍ PART 05. 멀티모달 모델 더 알아보기에서는 기존의 이미지 기반 멀티모달 모델을 시간 차원으로 확장한 모델인 비디오 LLM, 텍스트, 이미지, 오디오(음성), 비디오 등 여러 종류의 데이터를 동시에 자연스럽게 처리하는 옴니 모델, 로봇을 위한 멀티모달 모델을 살펴봅니다. 또한 하나의 모델로 이미지 생성과 편집을 아우르는 Qwen Image Edit와 비디오 생성 모델의 등장과 이에 따른 도전 과제들을 살펴보며, 마지막으로 이미지 생성 벤치마크를 알아봅니다.
〈이 책을 함께 읽어요!〉
ㆍ 자연어처리(NLP), 컴퓨터비전, 멀티모달 분야에 관심있는 일반인
ㆍ 멀티모달 모델 학습을 통해 이미지 생성 원리 및 모델 확습에 관심 있는 일반인
ㆍ 오픈소스 라이브러리를 통한 AI 실습에 관심있는 개발자
ㆍ AI 기술을 실무에 적용하고자 하는 개발자
ㆍ 허깅페이스 및 오픈소스 라이브러리를 통한 LLM 개발에 관심있는 AI 엔지니어
목차
목차
머리말
추천사
Part 01. 허깅페이스 살펴보기
Chapter 00. 들어가기에 앞서
Chapter 01. 왜 허깅페이스인가?
Chapter 02. 허깅페이스 가입하기
Chapter 03. 멀티모달 모델을 위한 허깅페이스 라이브러리
PART 02. 멀티모달 모델 이해하기
Chapter 00. 들어가기에 앞서
Chapter 01. 멀티모달 모델에 대해서 알아보기
Chapter 02. 이미지와 텍스트를 이해하는 CLIP
PART 03. 멀티모달 모델을 활용한 이미지 이해
Chapter 00. 들어가기에 앞서
Chapter 01. 비전 언어 모델 알아보기
Chapter 02. 주요 비전 언어 모델 실전 활용
Chapter 03. 특정 작업을 잘하도록 비전 언어 모델 파인튜닝하기
PART 04. 멀티모달 모델을 활용한 이미지 생성
Chapter 00. 들어가기에 앞서
Chapter 01. 이미지 생성 모델 이해하기
Chapter 02. 이미지 생성 모델을 더 효과적으로 제어하는 방법
Chapter 03. 나만의 멀티모달 이미지 생성 모델을 학습하는 방법
Chapter 04. 더 효율적으로 이미지 생성 모델을 사용하는 방법
PART 05. 멀티모달 모델 더 알아보기
Chapter 00. 들어가기에 앞서
Chapter 01. 멀티모달 이해 더 알아보기
Chapter 02. 멀티모달 생성 더 알아보기
추천사
Part 01. 허깅페이스 살펴보기
Chapter 00. 들어가기에 앞서
Chapter 01. 왜 허깅페이스인가?
Chapter 02. 허깅페이스 가입하기
Chapter 03. 멀티모달 모델을 위한 허깅페이스 라이브러리
PART 02. 멀티모달 모델 이해하기
Chapter 00. 들어가기에 앞서
Chapter 01. 멀티모달 모델에 대해서 알아보기
Chapter 02. 이미지와 텍스트를 이해하는 CLIP
PART 03. 멀티모달 모델을 활용한 이미지 이해
Chapter 00. 들어가기에 앞서
Chapter 01. 비전 언어 모델 알아보기
Chapter 02. 주요 비전 언어 모델 실전 활용
Chapter 03. 특정 작업을 잘하도록 비전 언어 모델 파인튜닝하기
PART 04. 멀티모달 모델을 활용한 이미지 생성
Chapter 00. 들어가기에 앞서
Chapter 01. 이미지 생성 모델 이해하기
Chapter 02. 이미지 생성 모델을 더 효과적으로 제어하는 방법
Chapter 03. 나만의 멀티모달 이미지 생성 모델을 학습하는 방법
Chapter 04. 더 효율적으로 이미지 생성 모델을 사용하는 방법
PART 05. 멀티모달 모델 더 알아보기
Chapter 00. 들어가기에 앞서
Chapter 01. 멀티모달 이해 더 알아보기
Chapter 02. 멀티모달 생성 더 알아보기
저자
저자
이정인
컴퓨터 과학과 대학원에서 이미지 생성 모델을 연구한 뒤, 통신 회사의 멀티모달 모델 팀에 소속되어 이미지 생성 관련 연구에 참여했습니다. 이 과정에서 등록한 논문이 Hugging Face Daily Papers에 소개되었으며, Hugging Face KREW로 활동하며 오픈소스 생태계에도 꾸준히 기여해 왔습니다. 오픈소스 컨트리뷰션 아카데미 수상, AI 관련 대회에서 1년간 5회 수상 등 연구와 개발을 오가며 경험을 쌓았습니다. 현재는 대규모 서비스 환경에서 멀티모달 모델을 다루는 AI 엔지니어로 일하고 있습니다. 복잡한 개념을 누구나 이해할 수 있는 이야기로 풀어내기를 좋아하며, 처음 접하는 사람도 끝까지 따라올 수 있는 글을 지향합니다.
Payment & Security
Payment methods
Your payment information is processed securely. We do not store credit card details nor have access to your credit card information.

