데이터 마이닝(4판)(데이터 과학)
실용적인 머신러닝 기술
머신러닝의 기초와 실제 데이터 마이닝에 적용하는 방법을 알려준다. 특히 4판에서는 데이터 준비, 분석 결과 해석, 결과 평가, 성공적인 데이터 마이닝 접근 방식의 핵심인 알고리듬에 이르기까지 데이터 마이닝을 진행하기 위해 알아야 할 모든 것을 다룬다.
Couldn't load pickup availability
출판사 리뷰
출판사 리뷰
◆ 머신러닝 개념의 기본을 살펴보고 데이터 마이닝 프로젝트에 적용할 도구 및 기술에 관한 조언 제공
◆ 성능 개선을 위해 머신러닝의 입력 및 결과의 변형으로 구체적인 팁과 기술 제공
◆ 데이터 마이닝 작업용 머신러닝 알고리듬에 광범위하게 적용할 수 있는 WEKA 소프트웨어 툴킷 제공
◈ 이 책의 대상 독자 ◈
머신러닝 관행의 기본 원리와 아이디어에 관심이 있고 기술적으로 잘 알고 있는 일반 독자를 대상으로 한다. 또한 이 새로운 기술에 익숙해져야 하는 정보 전문가와 머신러닝이 무엇을 포함하는지 자세히 이해하려는 모든 사람에게 관심을 끌 것이다. 정보 시스템 실무자, 프로그래머, 컨설턴트, 개발자, 데이터 과학자, 정보 기술 관리자, 사양 작성자, 특허 심사관, 호기심 많은 사람, 학생, 교수 등 다양한 사용자를 위해 작성됐다.
◈ 이 책의 구성 ◈
1장, '데이터 마이닝… 이게 다 뭐죠?'에서는 예를 통해 머신러닝이 무엇인지, 어디에서 사용할 수 있는지 설명하고 실제 애플리케이션을 제공한다. 2장, '입력 - 콘셉트, 인스턴스, 속성'과 3장, '출력 - 지식의 표현'에서는 관련된 다양한 종류의 입력 및 출력 또는 지식 표현을 다룬다. 다양한 종류의 출력은 다양한 스타일의 알고리듬을 지시하며 4장, '알고리듬: 기본 방법'은 머신러닝의 기본 방법을 설명하며 이해하기 쉽도록 단순화했다. 여기에서 관련된 원칙은 복잡한 세부 사항이나 까다로운 구현 문제에 관여하지 않고 다양한 알고리듬으로 전달된다. 특정 데이터 마이닝 문제에 머신러닝 기술을 적용하는 데 진전을 이루려면 얼마나 잘하고 있는지 측정할 수 있어야 한다. 5장, '신뢰성: 학습에 대한 평가'를 통해 머신러닝에서 얻은 결과를 평가하고 성능 평가와 관련된 복잡한 문제를 해결할 수 있다.
2부에서는 데이터 마이닝을 위한 고급 머신러닝 기술을 소개한다. 가장 낮고 가장 상세한 수준인 6장, '트리 및 규칙' 및 7장, '인스턴스 기반 및 선형 모델 확장'은 머신러닝 알고리듬 수행의 핵심적인 이슈를 세부적으로 잘 드러내며, 실무에 적용 시 필요한 복잡성을 내포하고 있다(하지만 몇 가지 알고리듬에 필요한 무거운 수학적 장치는 생략한다). 많은 독자가 이러한 세부 정보를 무시하고 싶어 할 수 있지만, 머신러닝 구조의 대부분 작업은 이 레벨에서 구현된다. 8장, '데이터 변환'은 머신러닝에 대한 입력 및 출력 엔지니어링과 관련된 실제 주제(예: 속성 선택 및 이산화)를 설명한다. 9장, '확률적 방법'과 10장, '딥러닝'에서는 각각 머신러닝 및 딥러닝의 확률적 방법을 설명한다. 11장, '지도 및 비지도 학습을 넘어서'는 준지도 및 다중 인스턴스 학습을 살펴보고, 12장, '앙상블 학습'에서는 다양한 학습 기술의 결과물을 결합한 '앙상블 학습' 기술을 다룬다. 13장, '응용 영역, 그 너머의 세계'는 미래를 내다본다.
부록에서는 9장 및 10장의 자료 이해에 필요한 몇 가지 수학적 배경을 다룬다. 또 다른 부록에서는 1부 및 2부에 설명된 대부분의 아이디어를 구현하는 WEKA 데이터 마이닝 워크벤치(workbench)를 소개한다. 개념적 자료를 사용 방법의 실제적인 측면에서 명확하게 분리하고자 이를 실었다. 1부와 2부의 각 장 끝에는 관련 WEKA 알고리듬을 소개한다.
◈ 옮긴이의 말 ◈
데이터 마이닝이라는 용어는 2000년도 초반에 잠깐 유행했었다. 당시에는 그냥 데이터를 어떻게 잘 모을까에 집중했었는데(지금 생각해 보면 이 개념이 데이터 레이크 등으로 이어진 것 같다) 분석 등에 대해서는 마땅한 도구가 없었던 것 같다.
사실 분석 방법은 옛날부터 나이브 베이즈와 같이 고전적인 방법들이 많이 있었는데 수많은 데이터에 적용시킬 방법이 없었던 것 같다. 그래서 2000년도 초반에 잠깐 데이터 마이닝이라는 분야가 나왔다가 다시 가라앉았던 기억이 있다.
R이나 파이썬과 같은 언어들이 나오면서 다양한 수학적 연산이 쉽게 가능해졌다. 이에 따라 다시 예전에는 적용에 엄두도 못 냈던 과거의 방법들이 라이브러리로 구현되면서 데이터 마이닝 분야도 다시 활기를 띠기 시작했다.
파이썬도 이제 다양한 라이브러리를 제공한다. 하지만 이 라이브러리들을 언제 써야 하는지 그리고 데이터에 유실 등의 문제가 발생하면 어떻게 대처해야 하는지를 모르는 경우가 많다.
이 책은 데이터 분석의 '기본'을 토대로 방향을 제시해 주는 책이다. 데이터 분석, 신경망 등에 대한 기본을 알려 주는 책들은 연일 쏟아지지만 문제가 발생할 때의 해결, 좀 더 나은 성능 개선 등을 알려 주는 책은 별로 없기 때문에 이 책이 더 빛이 나는 게 아닐까 싶다.
목차
목차
1장. 데이터 마이닝… 이게 다 뭐죠?
2장. 입력 - 콘셉트, 인스턴스, 속성
3장. 출력 - 지식의 표현
4장. 알고리듬 - 기본 방식
5장. 신뢰성 - 학습에 대한 평가
2부. 고급 머신러닝 기술
6장. 트리와 규칙
7장. 인스턴스 기반 및 선형 모델의 확장
8장. 데이터 변환
9장. 확률적 방법
10장. 딥러닝
11장. 지도 및 비지도 학습을 넘어서
12장. 앙상블 학습
13장. 응용 영역, 그 너머의 세계
부록 A. 이론적 기초
부록 B. WEKA 워크벤치
저자
저자
뉴질랜드 와이카토 대학교(University of Waikato)의 컴퓨터과학과 교수이며 뉴질랜드의 디지털 도서관 연구 프로젝트를 지휘했다. 관심사는 정보 검색, 머신러닝, 텍스트 압축, 데모 주도 프로그래밍이다. 영국 캠브리지 대학교(Cambridge University)에서 수학으로 석사학위를 받았으며 캐나다 캘거리 대학교(University of Calgary)에서 컴퓨터 과학 석사, 잉글랜드의 에섹스 대학교(Essex University)에서 전기공학 박사학위를 받았다. 지금은 ACM과 뉴질랜드 왕립학회의 회원으로 활동 중이다. 디지털 도서관, 머신러닝, 텍스트 압축, 음성 합성 및 신호 처리, 컴퓨터 타이포그래피 등 다방면에 논문을 발행했다. 가장 최근의 책은 『Managing Gigabytes(기가바이트 단위의 관리)』(1999) 및 『Data Mining(데이터 마이닝)』(2000)이다.
Your payment information is processed securely. We do not store credit card details nor have access to your credit card information.

