Post

Part 01 빅데이터 분석 개요

Part 01 빅데이터 분석 개요

1. 데이터 수집과 전처리

Section 01 데이터 수집과 전처리

데이터수집

데이터의 종류? 19

데이터 수집 기술? 20

ETL의 정의? 21

스쿱? 22

플럼? 23

스크래피? 23

데이터변환

데이터적재

데이터 적재 도구? 27

데이터저장

하둡 특징? 28

RDBMS vs NoSQL? 31

CAP 이론? 31

NoSQL 특성? 32

NoSQL 분류? 33

NoSQL 제품 및 특징? 33, 34

빅데이터 저장시스템 선정을 위한 NoSQL 제품 비교? 34 (데이터 모델, 확장성, 알관성, 질의 지원, 접근성)

데이터 모델예시
Key-ValueRedis, DynamoDB
DocumentMongoDB, CouchDB, SimpleDB
Column-OrientedBigtable, Casandra, Hbase, HyperTable

대용량 실시간 서비스 데이터 처리 방식 36

Section 02 데이터 전처리

데이터에 내재된 변수의 이해

데이터의 종류? 41

데이터 결측값 처리

결측 데이터의 종류? 44

결측 데이터 처리 방법? 44

데이터 이상값 처리

이상치 탐지 방법? 46

변수 선택

변수 선택 방법? 48

차원 축소

차원 축소의 필요성? 48

차원 축소 방법? 49

파생변수의 생성

요약변수 vs 파생변수? 52

변수 변환

정규화의 정의 및 종류? 53

분포형태별 변수 변환 방법? 55

불균형 데이터 처리

정확도와 재현율? 56

불균형 데이터 처리 방법? 57

2. 분석 모형 구축과 평가

Section 01 분석 모형 구축

분석 모형 선정

-

분석 모형 정의

-

분석 모형 구축 절차

가설 검정의 5단계? 68 신뢰수준 vs 유의수준? 68

분석 기법 개요

데이터 분석 모델 종류? 69

회귀 분석

회귀 분석 모형 진단 방법? 72

선형회귀분석의 기본 가정? 73

로지스틱 회귀분석? 73

의사결정나무

의사결정나무의 종류 및 종류별 분리 기준? 75

정보획득? 76

의사결정나무의 대표적 알고리즘? 78

랜덤포레스트? 7트

부스팅? 79

의사결정나무의 장단점? 79

인공신경망

과대적합 해결방안? 83

딥러닝 모델 종류? 85

모델설명
CNN이미지 인식
RNN시계열 데이터
LSTM시계열 데이터
GAN생성적 적대 신경망

CNN에서 사용하는 특징 추출 방법? 85

RNN? 87

LSTM? 87

오토인코더? 88

GAN? 88

서포트 벡터 머신

연관성 분석

군집 분석

Section 02 분석 모형 평가

평가지표

분석 모형 진단

k-폴드 교차 검증

적합도 검적

과대적대 방지

매개변수 최적화

분석 모형 융합

최종모형 선정

This post is licensed under CC BY 4.0 by the author.