2 minute read

2022-10-01 ADP필기시험을 합격하고 실기를 준비하기 위해 작성한 공부리스트이다.

아래 내용은 내용은 2021 ADsP 데이터분석 준전문가, 파이썬 한권으로 끝내기, 그리고 파이썬 완벽가이드를 기반으로 작성하였다.


공부 목차

데이터 전처리 및 데이터 분할

  1. 전처리
    • 이상치 확인 및 결측값 처리: 단순대치(Single Imputation), 단순확률 대치(Single Stochastic Imputation), 다중 대치(Multiple Imputation), knnImputation, centralimputation
    • 데이터 불균형 문제 처리 : 업샘플링 (SMOTE, Boaderline SMOTE, Adasyn), 다운샘플링
    • 이상값 처리: 극단값 절단, 조정
    • 변수 변환, 스케일링: 수치형 변수 변환(로그변환, 제곱근변환, 지수변환, 제곱변환, Box-cox 변환, 표준화, 정규화), 범주형 변수 변환(범주형 변수 인코딩, 대규모 범주형 변수처리), 날짜 및 변수 변환, 피쳐스케일링
    • 원핫인코딩(더미변수), 컬럼 트랜스퍼, 구간분할, 이산화, 피쳐선택
    • 차원축소
  2. 표본추출: 단순랜덤 추출법, 계통추출법, 집락추출법, 층화추출법
  3. 데이터분할: train/test/validation, 홀드아웃방법, Cross Validation 방법 (10 fold 교차분석), 부트스트랩

통계분석

  1. EDA
    • 기술통계 (평균, 표준편차, 중위수, 사분위수, 변동계수, 최빈값, 그래프, 왜도, 첨도)
    • 줄기잎그림
    • 상자수염 그림
    • 그래프 그리기:
      • 산점도, 막대그래프, 선그래프, 히트맵, 서브플롯, 트리맵, 도넛차트, 버블차트, 히스토그램, 체르노프 페이스, 스타차트, 다차원척도법, 평행좌표계
      • 도식화와 시각화
  2. 데이터 분포도
    • 정규분포
    • T분포
    • F분포
    • 이항분포
    • 포아송 분포
  3. 유의성검정:
    • t-test
      • 정규성검정: 콜모고로프 스미르노프 검정, QQ도, Anderson-Darling test, 샤크로-윌크 검정
      • 등분산검정
      • 등분산성만족 못할시: Welch two sample t-test
      • 일표본 T검정, 대응표본 t검정, 독립표본 t검정
    • 분산분석(ANOVA)
      • 일원배치 분산분석: 분산분석표, 사후분석(던칸의 MRT, 피셔의 LSD, Scheffe의 방법)
      • 이원배치 분산분석: 분산분석표, 교호작용
    • 교차분석: 적합도 검정, 독립성 검정(교차표), 동질성 검정(교차표)
    • 다중검정
    • 공분산, 상관분석 (피어슨, 스피어만, 켄달 타우, 상관계수 검정)
  4. 시계열분석:
    • 분해시계열, ARIMA모델 (ACF/PACF를 통한 모델 결정)
    • ARIMA(p,d,q) - 정상성 (ADF, KPSS test), 차분, ACF, PACF, Ljung-Box test
    • SARIMA(p,d,q)(P,D,Q)[s]
  5. 다차원척도법: 계량적 & 비계량적 MDS
  6. 비모수검정: 부호검정, 윌콕슨의 순위합 검정, 윌콕슨의 부호순위합검정, 만위트니의 U검정, 런검정
  7. 성과분석
    • 분류분석: 정분류율, 오분류율, 특이도, 민감도, 정확도, 재현율, F1 Score, RoC Curve, AUROC, Lift Chart (Frequency of buy, captured response, response, lift), cross validation
    • 연관성분석: 지지도, 신뢰도, 향상도
    • Bias-variance Trade-off
    • 과대적합, 과소적합, 일반화

머신러닝

  1. 지도학습
    • 회귀분석
      • 가정검토(선형성, 등분산성-잔차도, 정규성-히스토그램/QQplot/Shapiro-wilk, 오차항의 독립성-더빈왓슨검정)
      • 단순선형회귀분석(회귀계수 검정, 결정계수 계산-SST/SSR/SSE, 회귀직선의 적합도 검토)
      • 다중선형회귀분석(회귀계수 검정, 회귀식, 결정계수 계산, 모형의 통계적 유의성, 교호작용, 다중공선성-PCA회귀, VIF 상위변수 제거)
      • 다항회귀분석
      • 스플라인 회귀
      • 로지스틱 회귀
      • 최적회귀방정식(전진선택법, 후진제거법, 단계적선택법 - AIC/BIC)
      • 정규화 선형회귀 Regularized Linear Regression (Ridge회귀, Lasso회귀, Elastic Net 회귀)
      • 일반화 선형회귀 Generalized Linear Regression
      • 회귀분석의 기울기에 영향을 주는 영향점 진단: Cook’s Distance, DFBETAS, DFFITS, Leverage H
      • 변수 선택의 기준: 결정계수, Mallow’s Cp, AIC/BIC
    • 의사결정나무: CART, C5.0, C4.5, CHAID, 분리기준 (카이제곱통계량 p값, 지니 지수, 엔트로피 지수, F통계량, 분산의 감소량), 가지치기
    • 앙상블분석: 배깅, 부스팅(Adaboost), 랜덤포레스트, 스태킹, 엑스트라트리, 에이다부스트
    • 인공신경망
      • 활성화함수(계단함수, 부호함수, 시그모이드 함수, relu함수, softmax 함수)
      • 다층퍼셉트론
      • ANN, DNN, CNN, RNN, GAN(InfoGAN, CycleGAN), RBM, DBN
      • MLP-CNN-RNN 구현 및 비교
      • ResNet, DenseNet
      • AutoEncoder, VAE, DQN
      • 진화 학습 (유전 알고리즘)
      • 강화학습 (마르코프 결정과정)
      • 대칭가중치와 심층신뢰 네트워크
    • 최근접 이웃법 (KNN), 가우시안 혼합모델
    • 베이지안 분류
    • SVM
    • 판별분석
    • 사례기반 추론 (Case based reasoning)
  2. 비지도학습
    • 연관규칙학습 (패턴인식): 장바구니분석(Apriori, FP Growth, FPV, Eclat), 연관규칙, 서열분석 (순차패턴, 시차-연관분석; Sequence Analysis)
    • 주성분분석
      • Scree plot, 누적기여율, 주성분 별 가중치, Biplot
      • 요인분석
      • 차원축소, 특성추출, 매니폴드학습, PCA, NMF
    • 군집분석
      • 계층적군집: 합병형 Bottom-up 방식(최단연결법, 평균연결법, 와드연결법, 최장연결밥, 중심연결법), 분리형 top-down 방식 (다이아나 방법), 덴드로그램
      • 분할적 군집(비계층적군집): 프로토타입 centroid-based (K-centroid 군집, K-means 군집, K-median 군집, K-medoid 군집, Fuzzy 군집), 분포기반GMM(혼합분포군집; EM알고리즘, 로그-가능도 함수), 밀도기반(중심밀도군집, DBSCAN, OPTICS, DENCLUE), 격자기반(STING, WaveCluster, CLIQUE)
      • 거리: 유클리디안 거리, 마할라노비스 거리, 체비셰프 거리, 맨하탄 거리, 캔버라 거리, 민코우스키 거리, 자카드 거리, 코사인 거리 SOM
      • 타당성지표: 실루엣 계수, Dunn Index
    • 사회연결망분석 (Social network)
      • 네트워크 구조 파악: 중심성, 밀도, 구조적틈새, 집중도 등
      • 커뮤니티 발견: walk trap, edge-betweenness
      • Giraph 등
  3. 하이퍼파라이머 튜닝
    • 모델튜닝
    • 그리드서치
    • 기타기법
  4. 텍스트 마이닝
    • 말뭉치 전처리와 가공, 텍스트 벡터화와 변환 파이프라인, 텍스트 데이터 플래트닝, 필터링, 청킹 Tokenization, Pos Tagging, Stemming/Lemmazation, Remove Stopwords, One-hot encoding, N-Gram, TF-IDF, Cosine Similarity
    • 텍스트 분석을 위한 분류, 텍스트 유사성 군집화, 문맥인식 텍스트 분석
    • 텍스트 시각화, 텍스트 그래프 분석
    • 감성분석
    • 워드클라우드 분석
    • 텍스트마이닝 모델링
      • 나이브 베이지안 분류
      • LDA (Latent Dirichlet Allocation)
      • Word2Vec
      • Perplexity