데이터 사이언스
빅데이터 분석기사 실기 라이브러리 정리
차형준
2021. 11. 24.
빅데이터 분석기사 실기 키워드&라이브러리 정리
- 데이터 수집
- DBMS
- ETL
- 스쿱, 스크래파이, 플럼, 스크라이브
- 데이터 정제
- 이상값 : describe
- 결측값 : isna
- 원핫인코딩: get_dummies
- 교체: replace, apply(lambda x: x)
- 데이터 모형 구축
- 교차검증 sklearn.model_selection
- Hold-out: train_test_split
- K-fold: KFold, cross_val_score
- LOOCV, LpOCV, 부트스트랩
- GridSearchCV, RandomizedSearchCV
- 추출 방법
- 계통추출(systematic, shuffle=False)
- 층화추출(stratify)
- 데이터 정규화: sklearn.preprocessing
- MinMaxScaler
- StandardScaler
- 데이터 모형 구축
- 선형회귀 sklearn.linear_model
- LinearRegression
- LogisticRegression
- 릿지(L2)Ridge
- 라쏘(L1)Lasso
- 엘라스틱넷(L1,L2혼합) ElasticNet
- kNN
- 의사결정나무
- SVM(Support Vector Machine)
- 나이브 베이즈: sklearn.naive_bayes
- 가우시안 나이브 베이즈(정규분포): GaussianNB
- 인공신경망(ANN)
- 퍼셉트론
- DNN
- RNN
- CNN
- GAN
- 드롭아웃
- 앙상블 기법: sklearn.ensemble, xgboost (Classifier/Regressor)
- 랜덤 포레스트: RandomForest
- 보팅: Voting
- 배깅: Bagging
- 부스팅: AdaBoost, GredientBoosting, XGB
- 스태킹: Stacking
- 군집분석: sklearn.cluster
- KMeans
- DBSCAN
- 가우시안 혼합 모델(GMM)
- EM알고리즘
- 연관규칙분석: apyori.apriori, FP-Growth (시험에서 제공하지 않는 라이브러리)
- 지지도(교/전): min_support
- 신뢰도(교/대): min_confidence
- 향상도(신/P(Y)): min_lift
- 데이터 모형 평가: sklearn.metrics
- 분류모델
- 재현율=민감도=TPR, 정밀도, 특이도, 거짓긍정률=FPR, 정확도, F1
- 혼동행렬(오차행렬, 오류행렬) : confusion_matrix
- 예측 리포트 : classification_report
- ROC(TPR,FPR) : roc_curve
- ROC AUC : roc_auc_score
- Lift
- 예측모델
- RMSE, MSE: mean_squared_error
- MAE: mean_absolute_error
- MAPE: mean_absolute_percentage_error
- MPE(Mean Percentage Error): 직접 계산 np.mean((y_test-pred_test)/y_test)*100
- R^2 score: r2_score
시험 팁
- help()
- dir()
- pd.set_option("display.max_columns", 50)