I. 첫 항해: 데이터와의 첫 만남, 그리고 첫 예측#
데이터 과학 동아리의 첫 번째 프로젝트.
우리는 타이타닉 생존자 예측이라는 역사적 사건 속 데이터와 마주합니다.
이 장에서는 단순한 분석을 넘어, 실제 사람들의 생존 여부를 예측해보는 여정을 시작합니다. 엑셀처럼 보이는 표 속 숫자들이 어떻게 의미를 가지게 되는지, 그리고 우리가 만든 인공지능이 어떤 방식으로 그 의미를 배워가는지를 하나씩 확인해볼 수 있습니다.
첫 번째로, 데이터 파일들과의 첫 만남을 통해 분석의 시작점을 마련합니다. 모든 이야기는 세 개의 파일에서 시작됩니다. train.csv
, test.csv
, gender_submission.csv
—교재, 시험지, 그리고 예시 답안처럼 역할을 나눈 이 세 파일을 열어보며, 데이터 분석의 첫 관문을 통과합니다. 누가 살아남았는지, 어떤 정보가 담겨있는지, 어떤 정보가 빠져있는지를 살펴봅니다. 이 과정에서 프롬은 프롬프트로, 코더블은 코드로 분석을 시작하며, 독자는 두 사람의 방식 중 자신에게 맞는 방법을 선택할 수 있습니다.
두 번째로, 숫자 속에 숨은 생존의 패턴을 찾아갑니다. 나이, 요금, 객실 등급, 가족 동반 수 등 수치로 표현된 정보들이 생존과 어떤 관계를 가지는지를 분석합니다. 히트맵으로 상관관계를 시각화하고, 막대그래프와 파이그래프를 통해 직관적인 인사이트를 발견합니다. 1등석 승객의 생존율이 3등석보다 3배 가까이 높았다는 사실, 가장 비싼 티켓을 산 승객의 생존 이야기, 어린아이들의 생존율 등이 숫자를 통해 되살아납니다.
마지막으로, 첫 번째 예측 모델 구축에 도전합니다. 우리가 분석한 수치형 변수만을 사용하여 첫 번째 머신러닝 모델을 만들어봅니다. 성별이나 승선 항구 같은 정보는 일부러 제외한 이 모델은 ‘기본 예측 모델(baseline)’로, 이후 발전된 모델과 비교하기 위한 기준점 역할을 합니다. Random Forest라는 알고리즘을 사용하여 인공지능 모델을 학습시키고, test 데이터에 대한 생존 여부를 예측하여 캐글에 제출해봅니다. 검증 데이터 기준으로 약 73%의 정확도를 보였고, 캐글에서는 0.63397의 점수를 얻었습니다. 비록 성별 정보조차 사용하지 않은 모델이지만, 우리만의 첫 번째 결과를 만들었다는 사실만으로도 충분히 의미 있는 출발입니다.
이 장은 타이타닉 데이터 분석의 시작이자, 데이터 사이언스로 생각하는 법을 배우는 첫걸음입니다. 우리는 데이터 탐색에서 시작해, 수치형 데이터에 숨겨진 패턴을 발견하고, 마침내 그 패턴을 학습하는 모델을 만들어냈습니다. 이 과정에서 얻은 인사이트와 경험은 앞으로의 데이터 분석 여정에 중요한 토대가 될 것입니다.