목록분류 전체보기 (50)
코딜기
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/baM527/btrusNQ9iWn/Lyjw5u3ARkolvT3j7Sn2Xk/img.png)
데이터 전처리 과정에서 결측치 처리는 왜 해야 할까요?? 데이터의 결측은 모델 학습과정에서 문제를 일으킬 수 있습니다. (결측치를 고려하여 예측을 하는 모델도 있습니다.) 이를 해결하기 위해 여러 방법으로 결측치 처리를 해줘야 합니다. 결측치 처리 방법으로 크게 제거(Deletion)와 대치(Imputation)가 있습니다. 결측치 확인 1. isna() 사용 데이터 프레임 내에 결측 값을 확인하여 그 결과를 True / False로 반환합니다. isna()를 따로 사용하기보다 sum()을 같이 사용하여 주로 결측치의 개수를 파악합니다. import pandas as pd # 데이터 프레임 개별값들의 결측 여부(True/False)를 알고 싶을 때 사용 pd.isna(data) # 컬럼별로 결측치 갯수를..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bw1Cvz/btruKi5K7Ih/1kQQz0S7IASJSJteImQQl0/img.png)
데이터 전처리 과정에서 스케일링은 왜 해야 할까요?? 수치형 변수의 크기(단위)가 변수마다 다르다면 종속 변수에 미치는 영향력이 제대로 표현되지 않을 수 있습니다. 이를 해결하기 위해 모든 변수의 범위를 조절해주는 과정이 스케일링입니다. 스케일링은 분포의 모양을 바꿔주진 않습니다. Scikit-learn에서는 여러 종류의 스케일링 함수를 제공하고 있지만 가장 많이 쓰이는 Min-Max Scaling과 Standard Scaling을 다뤄보겠습니다. Min-Max Scaling 변수의 범위를 바꿔주는 정규화 스케일링 기법입니다. (기본값은 0~1입니다.) 이상 값 존재에 민감합니다. 분류 모델보다 회귀 모델에 적합합니다. 보통 이미지쪽에서 쓰입니다. Scaling은 값을 조정하는 과정이기 때문에 수치형 변..