하이브 핵심정리(acorn+PACKT 시리즈)
하둡 기반 대용량 데이터 저장, 관리의 핵심 솔루션
이 책은 빅데이터 도메인의 배경과 개념을 소개하고, 하이브 작업 환경을 설정하는 방법을 설명한다. 많은 예시를 통해 빅데이터의 값을 찾는 방법과 변환하는 방법을 소개하며 하이브 언어를 효율적으로 사용할 수 있는 기술도 안내한다. 마지막에는 성능, 보안과 같은 고급 주제 뿐만 아니라, 하이브의 확장까지 설명한다. 이 책은 하이브 언어를 실무에 적용하고, 확장하고자 하는 이들에게 훌륭한 가이드가 되어 줄 것이다.
Couldn't load pickup availability
출판사 리뷰
출판사 리뷰
■ 하이브 환경의 생성과 셋업
■ 데이터를 설명하는 하이브 정의 언어의 사용 방법 발견.
■ 하이브의 데이터 집합에 조인과 필터링을 사용해 의미 있는 데이터 발견
■ 하이브 정렬, 순서, 함수를 사용해 데이터 변환
■ 데이터 집계와 샘플링
■ 하이브 쿼리 성능 개선과 데이터 보안성 향상
■ 하이브를 다른 툴과 연동하고, 사용자 정의 함수를 사용해 하이브를 최적화
★ 이 책의 대상 독자 ★
이 책은 하둡의 데이터를 확인하고 분석하는 데 하이브를 사용하려는 데이터 분석가, 개발자, 사용자를 대상으로 한다. 빅데이터에 대해 초보자든 전문가든, 이 책을 접한 독자는 하이브의 기본 기능과 고급 기능을 잘 다룰 수 있게 될 것이다.
하이브는 SQL과 같은 언어이기 때문에, SQL 언어와 데이터베이스에 대한 경험이 있다면 훨씬 이해가 쉽고, 유용하게 적용할 수 있다.
★ 이 책의 구성 ★
1장, '빅데이터와 하이브 소개'에서는 빅데이터의 진화, 하둡 생태계, 하이브를 소개한다.
하이브 아키텍처와 빅데이터 분석에서 하이브를 사용하는 장점도 살펴본다.
2장, '하이브 환경 설정'에서는 하이브 환경 설정을 설명한다. 하이브를 사용한 커맨드 라인과 개발 툴도 다룬다.
3장, '데이터 정의와 설명'에서는 하이브의 테이블, 파티션, 버킷, 뷰에 대한 기본 데이터 타입과 데이터 정의 언어를 소개한다.
4장, '데이터 선택과 범위'에서는 하이브에 데이터의 쿼리, 연결, 범위를 요청함으로써 데이터를 찾는 방법을 보여준다.
5장, '데이터 조작'에서는 하이브의 데이터를 변경, 이동, 정렬, 변환하는 과정을 설명한다.
6장, '데이터 집계와 샘플링'에서는 분석 함수, 윈도우 기능, 샘플 절을 사용해 집계하는 방법과 샘플링하는 방법을 설명한다.
7장, '성능 고려 사항'에서는 설계, 파일 포맷, 압축, 저장소, 쿼리, 작업 관점에서 성능 고려사항에 대한 모범 사례를 소개한다.
8장, '확장성 고려 사항'에서는 사용자 정의 함수, 스트리밍, 직렬화, 역직렬화를 생성해서 하이브를 확장하는 방법을 다룬다.
9장, '보안 고려 사항'에서는 인증, 권한, 암호화 관점으로 하이브의 보안 영역을 소개한다.
10장, '다른 툴과의 연동'에서는 기타 빅데이터 툴과 어떻게 연동할 수 있는지를 다룬다. 하이브 배포 버전의 주요 이정표를 살펴본다.
목차
목차
__짧은 역사
__빅데이터의 소개
__관계형 데이터베이스와 NoSQL vs 하둡
__배치, 실시간, 스트림 처리
__하둡 생태계의 개요
__하이브 개요
__요약
2장. 하이브 환경 설정
__아파치에서 하이브 설치하기
__외부 업체 패키지에서 하이브 설치하기
__클라우드에서 하이브 시작하기
__하이브 커맨드 라인과 비라인 사용하기
__하이브 통합 개발 환경
__요약
3장. 데이터 정의와 설명
__하이브의 데이터 타입 이해하기
__데이터 타입 변환
__하이브 데이터 정의 언어
__하이브 데이터베이스
__하이브의 내부 및 외부 테이블
__하이브 파티션
__Hive buckets
__하이브 뷰
__요약
4장. 데이터 선택과 범위
__SELECT 문
__INNER JOIN 문
__OUTER JOIN과 CROSS JOIN
__특수 조인: MAP JOIN
__집합 명령: UNION ALL
__요약
5장. 데이터 조작
__데이터 교환 -LOAD
__데이터 교환: INSERT
__데이터 교환: EXPORT와 IMPORT
__ORDER와 SORT
__명령어와 함수
__트랜잭션
__요약
6장. 데이터 집계와 샘플링
__기초적인 집계: GROUP BY
__고급 집계: GROUPING SETS
__고급 집계: ROLLUP와 CUBE
__집계 조건: HAVING
__분석 함수
__샘플링
__요약
7장. 성능 고려 사항
__성능 유틸리티
__EXPLAIN 문
__ANALYZE 문
__설계 최적화
__파티션 테이블
__버킷 테이블
__인덱스
__데이터 파일 최적화
__파일 포맷
__압축저장소 최적화
__작업과 쿼리 최적화
__로컬 모드
__JVM 재사용
__병렬 실행
__작업 최적화
__일반 조인
__맵 조인
__버킷 맵 조인
__정렬 합병 버킷 조인
__정렬 합병 버킷 맵 조인
__왜곡 조인
__요약
8장. 확장성 고려 사항
__사용자 정의 함수
__UDF 코드 템플릿
__UDAF 코드 템플릿
__UDTF 코드 템플릿
__개발과 배포
__스트리밍
__SerDe
__요약
9장. 보안 고려 사항
__인증
__메타 저장소 서버 인증
__HiveServer2 인증
__권한레거시 권한 모드
__저장소 기반 권한 모드
__SQL 표준 기반 모드
__암호화
__요약
10장. 다른 툴과의 연동
__JDBC / ODBC 커넥터
__HBase
__Hue
__HCatalog
__주키퍼
__우지
__하이브 로드맵
__요약
저자
저자
Your payment information is processed securely. We do not store credit card details nor have access to your credit card information.

