{"product_id":"book-9791158138479","title":"AI 분석을 위한 빅데이터 구축(Kuhminsa Big Data Series 1)","description":"이 책은 수집 및 저장된 데이터를 빅데이터 분석 목적을 달성하기 위하여 정제하고 변환하고 적재 및 검증하는\u003cbr\u003e\n\u003cbr\u003e\n과정을 통하여 분석용 데이터셋이 구축된다. 본서를 보기 위한 구성은 아래 그림과 같다.\u003cbr\u003e\n\u003cbr\u003e\n(1) 수집 및 저장\u003cbr\u003e\n\u003cbr\u003e\n데이터 수집은 비정형 및 정형의 DBMS 데이터 등을 수집하고, 저장에서는 HDFS 및 Hbase에 데이터를 저장한다. 본서의 [Part 3. 외부 데이터 수집하기]를 보기 바란다.\u003cbr\u003e\n\u003cbr\u003e\n(2) 전처리\u003cbr\u003e\n\u003cbr\u003e\n전처리는 원본 데이터 로드가 정확히 되었는지 검토하기 위해 Data Type 및 텍스트형식으로 저장된 데이터의 Level을 확인한다. 본서의 [Part. 1 빅데이터로 무엇을 해야 할까, Part 2. R로 하는 빅데이터 전처리]를 보기 바란다.\u003cbr\u003e\n\u003cbr\u003e\n(3) 정제\u003cbr\u003e\n\u003cbr\u003e\n정제에서는 본격적으로 분석용 데이터셋을 구축하기 위하여 분석에 필요한 데이터를 식별하고, 식별된 데이터를 가공 및 오류 - 결측치 처리를 한다. 본서의 [Part 5. 분석에 적합하게 변환하기(데이터 가공), Part 7. 데이터 탐색]을 보기 바란다.\u003cbr\u003e\n\u003cbr\u003e\n(4) 변환 \/ 적재\u003cbr\u003e\n\u003cbr\u003e\n데이터 변환 및 적재는 정제된 데이터를 빅데이터 분석에 용이한 형태로 적재한다. 변환기법에는 데이터를 평활화(smoothing), 집계(aggregation), 일반화(generalization), 정규화(normalization), 파생 속성생성 등이 있다. 본서의 [Part 4. 다양한 형식의 데이터 로딩하기, Part 5의 파생변수, Part 7 데이터 탐색의 chapter2] 등을 보기 바란다.\u003cbr\u003e\n\u003cbr\u003e\n(5) 검증\u003cbr\u003e\n\u003cbr\u003e\n검증은 정제된 분석용 데이터의 적재가 정합성 있게 되었는지 확인한다(데이터 품질 포함). 이 책의 [Part 6. 데이터 정제]를 보기 바란다.","brand":"My Store","offers":[{"title":"Default Title","offer_id":48986673348860,"sku":"9791158138479","price":26.97,"currency_code":"USD","in_stock":true}],"thumbnail_url":"\/\/cdn.shopify.com\/s\/files\/1\/0730\/4681\/9068\/files\/9791158138479.jpg?v=1776379849","url":"https:\/\/bookstore12.com\/products\/book-9791158138479","provider":"Bookstore 12","version":"1.0","type":"link"}