II. 더 깊은 바다로: 결측치와 범주형 변수라는 두 가지 난관#
첫 항해를 마치고 이제 더 깊은 바다로 나아갑니다. 이 챕터에서는 승객의 성별과 탑승 항구라는 새로운 특성을 모델에 추가하면서, 카테고리형 데이터를 다루는 방법을 배웁니다. 레이블 인코딩과 원-핫 인코딩이라는 두 가지 기법을 통해 문자형 데이터를 숫자로 변환하는 과정을 상세히 살펴봅니다. 또한 현실 데이터에서 흔히 마주치는 결측치 문제를 다루면서, 이를 적절히 채우는 다양한 방법을 학습합니다. 특히 요금과 나이, 탑승 항구의 결측치를 채우는 과정에서 데이터를 더 깊이 이해하고, 데이터 사이의 숨겨진 관계를 발견하게 됩니다. 이러한 과정을 통해 모델의 예측 성능이 한층 향상되는 것을 확인할 수 있습니다.