파이토치로 완성하는 실전 강화학습
REINFORCE, A2C, DQN, DDQN, PPO, A3C 이론과 구현을 한번에!
Regular price
$53.68
Sale price
Regular price
✈️
Estimated delivery date 예상 배송일
Standard Shipping
불러오는 중...
주문일로부터 8-12 영업일
Express Shipping
불러오는 중...
주문일로부터 6-8 영업일
Couldn't load pickup availability
출판사 리뷰
출판사 리뷰
◈ 이 책에서 다루는 내용 ◈
◆ 단계적이고 체계적으로 다루는 강화학습의 기초부터 고급 주제까지
◆ 정책 기반(REINFORCE, PPO), 액터-크리틱(A2C, A3C), 가치 기반(DQN, DDQN) 알고리즘의 이론과 실습을 균형 있게 제공
◆ 개념을 시각화하고 수식을 단계별로 풀어 설명하며 배경 지식을 이해하도록 팁을 제공
◆ 알고리즘의 핵심 코드를 직접 구현해 보고 정답을 즉시 확인해 보는 방식의 실습 구성
◆ 강화학습 프레임워크를 설계하고 이를 기반으로 강화학습 알고리즘을 구현
◆ 강화학습의 주요 구성 요소와 전체 프로세스를 체계적으로 이해할 수 있으며 독자가 알고리즘을 스스로 개선하고 확장할 수 있도록 지원
◆ 분산 학습과 같은 최신 기법을 포함해 실무 환경에 바로 적용할 수 있는 실전 지식 제공
◈ 이 책의 대상 독자 ◈
◆ 심층 강화학습을 이론부터 실습까지 체계적으로 학습하고자 하는 독자
◆ 강화학습 프레임워크의 구조를 이해하고 직접 구현해 보려는 독자
◆ 여러 알고리즘을 구현해 성능을 비교·분석해 보고 싶은 독자
◆ 강화학습을 실제 업무에 적용하고자 하는 개발자 및 연구자
◆ 이공계 학부·대학원생, AI 분야 취업 준비생, 머신러닝 개발자, AI R&D 연구원 등
◆ 단계적이고 체계적으로 다루는 강화학습의 기초부터 고급 주제까지
◆ 정책 기반(REINFORCE, PPO), 액터-크리틱(A2C, A3C), 가치 기반(DQN, DDQN) 알고리즘의 이론과 실습을 균형 있게 제공
◆ 개념을 시각화하고 수식을 단계별로 풀어 설명하며 배경 지식을 이해하도록 팁을 제공
◆ 알고리즘의 핵심 코드를 직접 구현해 보고 정답을 즉시 확인해 보는 방식의 실습 구성
◆ 강화학습 프레임워크를 설계하고 이를 기반으로 강화학습 알고리즘을 구현
◆ 강화학습의 주요 구성 요소와 전체 프로세스를 체계적으로 이해할 수 있으며 독자가 알고리즘을 스스로 개선하고 확장할 수 있도록 지원
◆ 분산 학습과 같은 최신 기법을 포함해 실무 환경에 바로 적용할 수 있는 실전 지식 제공
◈ 이 책의 대상 독자 ◈
◆ 심층 강화학습을 이론부터 실습까지 체계적으로 학습하고자 하는 독자
◆ 강화학습 프레임워크의 구조를 이해하고 직접 구현해 보려는 독자
◆ 여러 알고리즘을 구현해 성능을 비교·분석해 보고 싶은 독자
◆ 강화학습을 실제 업무에 적용하고자 하는 개발자 및 연구자
◆ 이공계 학부·대학원생, AI 분야 취업 준비생, 머신러닝 개발자, AI R&D 연구원 등
목차
목차
1부. 강화학습 개요
1장. 강화학습 개요
1.1 강화학습이란?
1.2 강화학습의 응용
1.3 강화학습의 도전 과제
2장. 강화학습 알고리즘
2.1 강화학습의 정의
2.2 강화학습 알고리즘의 종류
2.3 강화학습의 학습 단계
2.4 알고리즘 선택 기준
2부. 강화학습 프레임워크 소개
3장. 강화학습 프레임워크
3.1 강화학습 논리 구성
3.2 강화학습 프레임워크 클래스 구성
3.2.1 공통 클래스와 커스터마이징 클래스
4장. 강화학습 프레임워크 개발 환경
4.1 개발 환경 구성
4.2 OpenGym 소개
4.3 강화학습 프레임워크의 실행
3부. 강화학습 맛보기 정책 기반 방법
5장. 러너
5.1 러너의 구성
5.2 러너의 작동 방식
5.3 Runner 클래스 정의
5.4 Runner 클래스 구현코드
6장. 환경 루프
6.1 환경 루프의 구성
6.2 환경 루프의 작동 방식
6.3 EnvironmentLoop 클래스 정의
6.4 EnvironmentLoop 클래스 구현 코드
7장. 폴리시 그레이디언트
7.1 정책 기반 방법의 유도
7.2 분산 최소화 방안
8장. REINFORCE 알고리즘 구현
8.1 REINFORCE 알고리즘 구성
8.2 REINFORCE 클래스
8.3 REINFORCENetwork 클래스
8.4 REINFORCELearner 클래스
8.5 몬테카를로 리턴
8.6 CartPole-v1 환경
8.7 LunarLanderContinuous-v2 학습
4부. 강화학습 발담그기 정책 기반 방법 성능 개선
9장. 에이전트
9.1 에이전트 구성
9.2 에이전트
9.3 액터
9.4 학습자
9.5 네트워크
10장. 정책
10.1 정책의 종류
10.2 정책의 구성
10.3 Policy 클래스
10.4 StochasticPolicy 클래스
10.5 CategoricalPolicy 클래스
10.6 GaussianPolicy 클래스
10.7 MLP 클래스
10.8 CategoricalPolicyMLP 클래스
10.9 GaussianPolicyMLP 클래스
11장. REINFORCE 베이스라인 적용
11.1 새로운 알고리즘 추가
11.2 REINFORCE 베이스라인 버전 구성
11.3 REINFORCEB 클래스
11.4 REINFORCEBNetwork 클래스
11.5 REINFORCEBLearner 클래스
11.6 CartPole-v1 학습
11.7 LunarLanderContinuous-v2 학습
11.8 새로운 환경 학습
5부. 강화학습 즐기기 액터-크리틱 방법
12장. 액터-크리틱 방법
12.1 가치 함수
12.2 액터-크리틱 방법
12.3 A2C
13장. A2C 알고리즘 구현
13.1 A2C 알고리즘 구성
13.2 A2C 클래스
13.3 A2CNetwork 클래스
13.4 A2CLearner 클래스
13.5 n-스텝 리턴
13.6 GAE
13.7 CartPole-v1 학습
13.8 LunarLanderContinuous-v2 학습
14장. 가치 함수
14.1 가치 함수
14.2 가치 함수의 구성
14.3 ValueFunction 클래스
14.4 StateValueFunction 클래스
14.5 ActionValueFunction 클래스
14.6 ValueFunctionMLP 클래스
14.7 QFunctionMLP 클래스
14.8 QFunctionMLPDQN 클래스
15장. 데이터셋
15.1 데이터셋 구성 방식
15.2 데이터셋의 구성
15.3 버퍼와 버퍼 스키마
15.4 롤아웃 버퍼
15.5 리플레이 버퍼
16장. 환경
16.1 환경의 작동 방식
16.2 환경 구성
16.3 Environment 클래스
16.4 EnvironmentSpec 클래스
16.5 OpenGym 클래스
6부. 강화학습 완성하기 가치 기반 방법
17장. 가치 기반 방법
17.1 가치 기반 방법
17.2 DQN
17.3 더블 DQN(Double DQN)
18장. 가치 기반 방법
18.1 DQN 알고리즘 구성
18.2 DQN 클래스
18.3 DQNNetwork 클래스
18.4 유틸리티 함수
18.5 DQNLearner 클래스
18.6 CartPole-v1 학습
19장. 더블 DQN 알고리즘 구현
19.1 더블 DQN 알고리즘 구성
19.2 DDQN 클래스
19.3 DDQNNetwork 클래스
19.4 DDQNLearner 클래스
19.5 CartPole-v1 학습
7부. 강화학습 성능 개선 분산 강화학습
20장. PPO 알고리즘
20.1 PPO 알고리즘
21장. PPO 알고리즘 구현
21.1 PPO 알고리즘 구성
21.2 PPO 클래스
21.3 PPONetwork 클래스
21.4 PPOLearner 클래스
21.5 CartPole-v1 학습
21.6 LunarLanderContinuous-v2 학습
21.7 AntBulletEnv-v0 학습
22장. 다중 환경 러너
22.1 A2C와 A3C
22.2 다중 환경 러너의 구성
22.3 MultiEnvRunner 클래스
22.4 MultiEnvAsyncRunner 클래스
22.5 다중 환경 성능 확인
22.6 Ray 소개
1장. 강화학습 개요
1.1 강화학습이란?
1.2 강화학습의 응용
1.3 강화학습의 도전 과제
2장. 강화학습 알고리즘
2.1 강화학습의 정의
2.2 강화학습 알고리즘의 종류
2.3 강화학습의 학습 단계
2.4 알고리즘 선택 기준
2부. 강화학습 프레임워크 소개
3장. 강화학습 프레임워크
3.1 강화학습 논리 구성
3.2 강화학습 프레임워크 클래스 구성
3.2.1 공통 클래스와 커스터마이징 클래스
4장. 강화학습 프레임워크 개발 환경
4.1 개발 환경 구성
4.2 OpenGym 소개
4.3 강화학습 프레임워크의 실행
3부. 강화학습 맛보기 정책 기반 방법
5장. 러너
5.1 러너의 구성
5.2 러너의 작동 방식
5.3 Runner 클래스 정의
5.4 Runner 클래스 구현코드
6장. 환경 루프
6.1 환경 루프의 구성
6.2 환경 루프의 작동 방식
6.3 EnvironmentLoop 클래스 정의
6.4 EnvironmentLoop 클래스 구현 코드
7장. 폴리시 그레이디언트
7.1 정책 기반 방법의 유도
7.2 분산 최소화 방안
8장. REINFORCE 알고리즘 구현
8.1 REINFORCE 알고리즘 구성
8.2 REINFORCE 클래스
8.3 REINFORCENetwork 클래스
8.4 REINFORCELearner 클래스
8.5 몬테카를로 리턴
8.6 CartPole-v1 환경
8.7 LunarLanderContinuous-v2 학습
4부. 강화학습 발담그기 정책 기반 방법 성능 개선
9장. 에이전트
9.1 에이전트 구성
9.2 에이전트
9.3 액터
9.4 학습자
9.5 네트워크
10장. 정책
10.1 정책의 종류
10.2 정책의 구성
10.3 Policy 클래스
10.4 StochasticPolicy 클래스
10.5 CategoricalPolicy 클래스
10.6 GaussianPolicy 클래스
10.7 MLP 클래스
10.8 CategoricalPolicyMLP 클래스
10.9 GaussianPolicyMLP 클래스
11장. REINFORCE 베이스라인 적용
11.1 새로운 알고리즘 추가
11.2 REINFORCE 베이스라인 버전 구성
11.3 REINFORCEB 클래스
11.4 REINFORCEBNetwork 클래스
11.5 REINFORCEBLearner 클래스
11.6 CartPole-v1 학습
11.7 LunarLanderContinuous-v2 학습
11.8 새로운 환경 학습
5부. 강화학습 즐기기 액터-크리틱 방법
12장. 액터-크리틱 방법
12.1 가치 함수
12.2 액터-크리틱 방법
12.3 A2C
13장. A2C 알고리즘 구현
13.1 A2C 알고리즘 구성
13.2 A2C 클래스
13.3 A2CNetwork 클래스
13.4 A2CLearner 클래스
13.5 n-스텝 리턴
13.6 GAE
13.7 CartPole-v1 학습
13.8 LunarLanderContinuous-v2 학습
14장. 가치 함수
14.1 가치 함수
14.2 가치 함수의 구성
14.3 ValueFunction 클래스
14.4 StateValueFunction 클래스
14.5 ActionValueFunction 클래스
14.6 ValueFunctionMLP 클래스
14.7 QFunctionMLP 클래스
14.8 QFunctionMLPDQN 클래스
15장. 데이터셋
15.1 데이터셋 구성 방식
15.2 데이터셋의 구성
15.3 버퍼와 버퍼 스키마
15.4 롤아웃 버퍼
15.5 리플레이 버퍼
16장. 환경
16.1 환경의 작동 방식
16.2 환경 구성
16.3 Environment 클래스
16.4 EnvironmentSpec 클래스
16.5 OpenGym 클래스
6부. 강화학습 완성하기 가치 기반 방법
17장. 가치 기반 방법
17.1 가치 기반 방법
17.2 DQN
17.3 더블 DQN(Double DQN)
18장. 가치 기반 방법
18.1 DQN 알고리즘 구성
18.2 DQN 클래스
18.3 DQNNetwork 클래스
18.4 유틸리티 함수
18.5 DQNLearner 클래스
18.6 CartPole-v1 학습
19장. 더블 DQN 알고리즘 구현
19.1 더블 DQN 알고리즘 구성
19.2 DDQN 클래스
19.3 DDQNNetwork 클래스
19.4 DDQNLearner 클래스
19.5 CartPole-v1 학습
7부. 강화학습 성능 개선 분산 강화학습
20장. PPO 알고리즘
20.1 PPO 알고리즘
21장. PPO 알고리즘 구현
21.1 PPO 알고리즘 구성
21.2 PPO 클래스
21.3 PPONetwork 클래스
21.4 PPOLearner 클래스
21.5 CartPole-v1 학습
21.6 LunarLanderContinuous-v2 학습
21.7 AntBulletEnv-v0 학습
22장. 다중 환경 러너
22.1 A2C와 A3C
22.2 다중 환경 러너의 구성
22.3 MultiEnvRunner 클래스
22.4 MultiEnvAsyncRunner 클래스
22.5 다중 환경 성능 확인
22.6 Ray 소개
저자
저자
윤성진
KAIST 전산학과에서 컴퓨터 그래픽스를 전공했으며 LG전자 전자기술원, 티맥스소프트, 액센츄어 등에서 소프트웨어 연구 개발, 미들웨어 및 모듈형 로봇 플랫폼 제품 기획 업무를 수행했다. 인공지능 전문가로서 한국외국어대학교에서 딥러닝, 자료 구조, 데이터 마이닝을 가르치고, ㈜인공지능연구원에서 연구개발을 총괄했다.
현재는 SoftAI의 연구소장으로서 AI 솔루션 연구 개발을 하고 있으며 서울과학종합 대학원대학교 AI첨단대학원 겸직 교수를 역임하고 있다. 대표 저서에는 『Do it! 딥러닝 교과서』(이지스퍼블리싱, 2021), 『파이썬으로 구현하는 로보어드바이저』(에이콘, 2024), 『모두를 위한 컨벡스 최적화』(오픈소스, 2018)가 있다.
현재는 SoftAI의 연구소장으로서 AI 솔루션 연구 개발을 하고 있으며 서울과학종합 대학원대학교 AI첨단대학원 겸직 교수를 역임하고 있다. 대표 저서에는 『Do it! 딥러닝 교과서』(이지스퍼블리싱, 2021), 『파이썬으로 구현하는 로보어드바이저』(에이콘, 2024), 『모두를 위한 컨벡스 최적화』(오픈소스, 2018)가 있다.
Payment & Security
Payment methods
Your payment information is processed securely. We do not store credit card details nor have access to your credit card information.
$99 이상 무료 배송
3% 리워드 크레딧 적립
Secure Payment

