애자일 데이터 과학 2.0(위키북스 데이터 사이언스 시리즈 13)
변화에 기민하게 반응하는 견고한 데이터 분석 애플리케이션 구축
Regular price
$31.46
Sale price
Regular price
✈️
Estimated delivery date 예상 배송일
Standard Shipping
불러오는 중...
주문일로부터 8-12 영업일
Express Shipping
불러오는 중...
주문일로부터 6-8 영업일
연구 활동을 유용한 분석 애플리케이션으로 전환하고자 하는 데이터 과학 팀이 성공하려면 올바른 도구뿐 아니라 올바른 접근 방식이 필요하다. 개정판 《애자일 데이터 과학 2.0》에서는 애자일 데이터 과학 개발 방법론을 활용해 파이썬(Python), 아파치 스파크(Apache Spark), 카프카(Kafka) 등의 도구로 데이터 애플리케이션을 구축하는 방법을 배우게 될 것이다.
이 책에서는 아파치 카프카와 아파치 스파크, 몽고DB, 엘라스틱서치(Elasticsearch), d3.js, scikit-learn, 아파치 에어플로우(Apache Airflow)를 이용해 분석 애플리케이션을 구축, 배포, 개선하는 데이터 플랫폼을 구성하는 방법을 보여준다. 데이터가 알려주는 것이 무엇인지에 따라 현재 진행 중인 분석 작업을 빠르게 변경하고, 데이터 과학 작업을 웹 애플리케이션으로 게시하며, 조직에 의미 있는 변화를 이끌어내는 반복적인 접근법을 배울 수 있을 것이다.
이 책에서는 아파치 카프카와 아파치 스파크, 몽고DB, 엘라스틱서치(Elasticsearch), d3.js, scikit-learn, 아파치 에어플로우(Apache Airflow)를 이용해 분석 애플리케이션을 구축, 배포, 개선하는 데이터 플랫폼을 구성하는 방법을 보여준다. 데이터가 알려주는 것이 무엇인지에 따라 현재 진행 중인 분석 작업을 빠르게 변경하고, 데이터 과학 작업을 웹 애플리케이션으로 게시하며, 조직에 의미 있는 변화를 이끌어내는 반복적인 접근법을 배울 수 있을 것이다.
Couldn't load pickup availability
출판사 리뷰
출판사 리뷰
★ 이 책에서 다루는 내용 ★
◎ 데이터-가치 피라미드를 사용해 일련의 애자일 스프린트(agile sprint)를 거치며 데이터에서 가치를 창출
◎ 여러 데이터셋으로부터 통계 모델을 위한 특징을 추출
◎ 데이터를 차트로 시각화하고 대화형 리포트를 통해 다양한 측면 드러내기
◎ 기존 데이터를 사용해 분류와 회귀 방식으로 미래를 예측
◎ 예측을 행동으로 전환하기
◎ 프로젝트가 제대로 진행될 수 있도록 각 스프린트 후에 사용자로부터 피드백 받기
◎ 데이터-가치 피라미드를 사용해 일련의 애자일 스프린트(agile sprint)를 거치며 데이터에서 가치를 창출
◎ 여러 데이터셋으로부터 통계 모델을 위한 특징을 추출
◎ 데이터를 차트로 시각화하고 대화형 리포트를 통해 다양한 측면 드러내기
◎ 기존 데이터를 사용해 분류와 회귀 방식으로 미래를 예측
◎ 예측을 행동으로 전환하기
◎ 프로젝트가 제대로 진행될 수 있도록 각 스프린트 후에 사용자로부터 피드백 받기
목차
목차
1부 환경 설정
01. 이론
소개
정의
폭포수 방식의 문제점
애자일 소프트웨어의 문제점
데이터 과학 프로세스
프로세스 관련 참고사항
02. 애자일 도구
확장성=단순성
애자일 데이터 과학에서의 데이터 처리
로컬 환경 설정
EC2 환경 설정
코드 가져오기 및 실행
도구 세트 둘러보기
아파치 에어플로우를 이용한 스케줄링
결론
03. 데이터
항공 여행 데이터
날씨 데이터
애자일 데이터 과학의 데이터 처리
SQL 대 NoSQL
결론
2부 피라미드 오르기
04. 레코드 수집 및 표시
종합하기
운항 데이터 집계 및 직렬화
운항 레코드 처리 및 게시
브라우저에 운항 레코드 보여주기
애자일 체크 포인트
운항 데이터 목록 만들기
운항 검색
결론
05. 차트와 표로 데이터 시각화하기
차트 품질: 반복이 핵심이다
게시/장식 모델에서 데이터베이스 확장시키기
계절성 탐색하기
메탈(항공기[개체]) 추출하기
데이터 보강
결론
06. 보고서로 데이터 탐색하기
항공사(개체) 추출하기
반구조화된 데이터의 온톨로지 관리하기
항공사 페이지 개선
항공기(개체) 조사하기
결론
07. 예측
예측의 역할
무엇을 예측할 것인가?
예측 분석 소개
운항 지연 탐색
파이스파크로 특징 추출하기
scikit-learn으로 회귀 분석하기
스파크 MLib으로 분류기 구축하기
결론
08. 예측 시스템 배포
웹 서비스로 scikit-learn 애플리케이션 배포하기
에어플로우를 사용해 배치로 스파크 ML 애플리케이션 배포하기
스파크 스트리밍을 통한 스파크 ML 배포
결론
09. 예측 개선
우리 예측의 문제점 해결하기
예측을 개선해야 할 때
예측 성능 개선
항공기 데이터 포함
운항 시간 포함시키기
결론
부록 수동 설치
하둡 설치
스파크 설치
몽고 DB 설치
몽고 DB 자바 드라이버 설치
mongo-hadoop 설치
엘라스틱 서치 설치
Elasticsearch for Hadoop 설치
스파크 환경 설정
카프카 설치
scikit-learn 설치
01. 이론
소개
정의
폭포수 방식의 문제점
애자일 소프트웨어의 문제점
데이터 과학 프로세스
프로세스 관련 참고사항
02. 애자일 도구
확장성=단순성
애자일 데이터 과학에서의 데이터 처리
로컬 환경 설정
EC2 환경 설정
코드 가져오기 및 실행
도구 세트 둘러보기
아파치 에어플로우를 이용한 스케줄링
결론
03. 데이터
항공 여행 데이터
날씨 데이터
애자일 데이터 과학의 데이터 처리
SQL 대 NoSQL
결론
2부 피라미드 오르기
04. 레코드 수집 및 표시
종합하기
운항 데이터 집계 및 직렬화
운항 레코드 처리 및 게시
브라우저에 운항 레코드 보여주기
애자일 체크 포인트
운항 데이터 목록 만들기
운항 검색
결론
05. 차트와 표로 데이터 시각화하기
차트 품질: 반복이 핵심이다
게시/장식 모델에서 데이터베이스 확장시키기
계절성 탐색하기
메탈(항공기[개체]) 추출하기
데이터 보강
결론
06. 보고서로 데이터 탐색하기
항공사(개체) 추출하기
반구조화된 데이터의 온톨로지 관리하기
항공사 페이지 개선
항공기(개체) 조사하기
결론
07. 예측
예측의 역할
무엇을 예측할 것인가?
예측 분석 소개
운항 지연 탐색
파이스파크로 특징 추출하기
scikit-learn으로 회귀 분석하기
스파크 MLib으로 분류기 구축하기
결론
08. 예측 시스템 배포
웹 서비스로 scikit-learn 애플리케이션 배포하기
에어플로우를 사용해 배치로 스파크 ML 애플리케이션 배포하기
스파크 스트리밍을 통한 스파크 ML 배포
결론
09. 예측 개선
우리 예측의 문제점 해결하기
예측을 개선해야 할 때
예측 성능 개선
항공기 데이터 포함
운항 시간 포함시키기
결론
부록 수동 설치
하둡 설치
스파크 설치
몽고 DB 설치
몽고 DB 자바 드라이버 설치
mongo-hadoop 설치
엘라스틱 서치 설치
Elasticsearch for Hadoop 설치
스파크 환경 설정
카프카 설치
scikit-learn 설치
저자
저자
러셀 저니
저자 러셀 저니는 미국과 멕시코의 카지노 도박계에서 슬롯 머신의 성능을 분석하는 웹 애플리케이션을 만들면서 데이터 경험을 쌓았다. 기업, 대화형 미디어, 언론계를 거쳐 닝(Ning)과 링크드인(LinkedIn)에서 방대한 분석 애플리케이션을 구축하기 위해 실리콘 밸리로 자리를 옮겼다. 현재 데이터 신드롬(Data Syndrome)의 수석 컨설턴트로서 기업들이 분석 제품을 만들기 위해 이 책에서 소개한 원칙과 방법을 적용할 수 있도록 돕고 있다.
Payment & Security
Payment methods
Your payment information is processed securely. We do not store credit card details nor have access to your credit card information.

