책 소개
캐글 대회 참여 방법부터 캐글 그랜드마스터 인터뷰까지!
캐글은 세계적인 데이터 분석 경진대회 플랫폼으로, 전 세계의 데이터 분석가들이 많이 즐겨 사용한다. 캐글 경진대회에 참여하여 자신의 실력을 뽐낼 수 있으며, 캐글 마스터, 그랜드마스터 등 타이틀을 얻어 인지도를 쌓을 수도 있다. 더불어 개인적인 성취감도 느낄 수 있다.
이 책은 캐글 개요와 경진대회 참여 방법, 데이터 분석을 위한 기초 이론과 실습 환경 구축부터 설명한다. 초보자용 튜토리얼 경진대회인 타이타닉 생존자 예측하기, 주택 가격 예측하기 과제를 직접 해결하면서 데이터 분석 과정과 머신 러닝을 익히고, 실력을 향상시킬 수 있다. 마지막으로 캐글 마스터와 그랜드마스터의 경험과 조언을 들으며 캐글에 성공적으로 입문할 수 있다.
파이썬으로 세계적인 데이터 분석 경진대회 캐글에 성공적으로 입문하는 법!
캐글을 시작하는 데 필요한 모든 것을 다룬다!
캐글은 세계적인 데이터 분석 경진대회 플랫폼으로, 자신의 데이터 분석 능력을 측정하고 이를 향상시킬 수 있는 공간이면서 서로 논의하고 자신의 코드를 공유할 수 있는 커뮤니티의 장이기도 하다. 책에서는 캐글이 무엇인지 알아보고, 캐글 경진대회의 종류, 메달과 등급, 경진대회에 참가하는 방법 등을 소개한다. 또한, 경진대회 참가 전 데이터 분석을 어떻게 할 것인지 순서를 알아보고, 데이터 분석에 알맞은 환경을 구축한다. 입문자도 경진대회에 참가할 수 있도록 캐글 경진대회의 기본적인 절차와 데이터 분석에 필요한 지식을 모두 설명한다.
경진대회 과제를 해결하며 데이터 분석 과정을 익힌다!
캐글의 대표적인 초보자용 튜토리얼 경진대회에 참여하여 정확도가 높은 모델을 단계별로 구축하고, 같은 데이터에 다른 방법을 적용하여 문제에 접근하기도 한다. 실제 경진대회 과제를 해결하면서 데이터 분석 과정과 머신 러닝을 직접 체험하며 익힐 수 있다. 또한, 이 과정에서 데이터 분석 스킬을 습득해 업무에 활용하거나 캐글 상위권을 목표로 할 수 있는 밑바탕도 다질 수 있다.
캐글 마스터와 그랜드마스터의 경험담에서 평소 궁금했던 내용도 알아보자!
일본 캐글 마스터 2명과 국내 캐글 그랜드마스터 1명의 경험담을 실었다. 어떻게 캐글을 시작했으며, 캐글 마스터/그랜드마스터가 되기 위해 어떻게 공부했는지, 캐글과 업무를 연관시킬 수 있는지 등 캐글 마스터/그랜드마스터가 되기까지의 여정을 소개한다. 이들의 생생한 경험담을 통해 평소 캐글과 관련해 궁금했던 내용들과 다양한 팁도 알아보자.
작가 소개
지은이 : 시노다 히로유키
주식회사 하쿠호도 DY미디어 파트너즈 소속으로, 데이터 분석을 바탕으로 한 미디어 전략 기획, 상품 개발, 콘텐츠 제작을 한다. 데이터 분석 및 데이터 시각화에 관한 세미나에 참석하였고, 다수의 책을 집필하였다.
옮긴이 : 조태호
인디애나 대학교 의과대학 영상의학 및 영상과학과 교수
AI/딥러닝을 의료 분야에 접목하여, 특히 유전체, 다중오믹스, 영상 데이터를 활용한 알츠하이머병 조기 진단 연구에 집중하고 있다. 일본 도쿄의과치과대학에서 단백질 구조 예측으로 박사학위를 받고, 미국에서 딥러닝을 단백질 구조 예측에 도입하는 연구를 수행했다. 2018년부터 인디애나 대학교에서 딥러닝 기반 알츠하이머 진단(2019), 원인 단백질 추적(2020), 유전자 변이 예측(2021) 등 연구를 이끌고 있으며, 꾸준한 연구 활동과 더불어 집필과 번역에도 힘쓰고 있다. 저서로는 『모두의 딥러닝』(1-3판), 『당신의 이유는 무엇입니까』(제7회 브런치북 대상 수상작)가 있으며, 역서로는 『딥러닝 워크북』, 『쉽게 시작하는 캐글 데이터 분석』, 『그림으로 이해하는 인지과학』 등이 있다.
목 차
0장 캐글에서 실용적인 기술을 체험해 보자!
0.1 캐글 세계로 뛰어들어 보자!
__0.1.1 데이터, 데이터 분석으로 알 수 있는 것
__0.1.2 캐글: 세계 각국에서 이용하는 데이터 분석 경진대회 플랫폼
__0.1.3 이 책의 활용 방법
1장 캐글이란
1.1 전 세계 데이터 과학자가 경쟁하는 플랫폼
1.2 캐글의 메달과 등급
1.3 캐글 경진대회 참여 흐름
1.4 경진대회 종류
1.5 캐글 커뮤니티
2장 데이터 분석 절차, 데이터 분석 환경 구축
2.1 데이터 분석의 순서 및 개요
2.2 데이터 분석 환경
__2.2.1 파이썬을 이용한 데이터 분석 환경
__2.2.2 로컬 또는 클라우드에서 데이터 분석 환경
2.3 주피터 노트북을 이용한 대화형 데이터 분석 환경
__2.3.1 로컬 컴퓨터에서 데이터 분석 환경 구축
2.4 아나콘다의 가상 환경 이용(윈도)
2.5 pyenv 환경 이용(맥)
2.6 캐글 분석 도구 사용
3장 캐글 경진대회 도전 ①: 타이타닉 생존자 예측
3.1 캐글을 이용하여 실제 데이터 분석
3.2 타이타닉 생존자 예측 경진대회란
3.3 데이터 내려받기
3.4 데이터 분석을 위한 준비 작업
__3.4.1 [순서 1] 데이터 분석 환경 준비
__3.4.2 [순서 2] 새로운 파일 작성
__3.4.3 [순서 3] 디렉터리 구성 확인
__3.4.4 [순서 4] 라이브러리를 설치하고 가져오기
__3.4.5 [순서 5] 데이터 읽어 보기
__3.4.6 [순서 6] 랜덤 시드 설정
3.5 데이터 개요 파악
3.6 데이터의 시각화
__3.6.1 목적 변수 관련 데이터의 시각화
3.7 데이터 전처리와 특징 값 생성
3.8 머신 러닝 모델링
__3.8.1 검증 데이터로 예측 정확도 확인
__3.8.2 교차 검증을 이용한 학습
3.9 캐글에 결과 제출
3.10 정확도 이외의 여러 가지 분석
__3.10.1 추가 분석 ?: 타이타닉에는 어떤 사람이 승선하고 있었는가?
__3.10.2 추가 분석 ?: 특정 클러스터에 주목
4장 캐글 경진대회 도전 ②: 주택 가격 예측
4.1 더 상세하게 알아보는 데이터 분석
4.2 주택 가격 예측하기 경진대회란
4.3 데이터 내려받기
4.4 벤치마크용 베이스라인 작성
__4.4.1 LightGBM으로 예측
__4.4.2 교차 검증으로 모델 학습과 예측
__4.4.3 각 변수의 중요도 확인
4.5 목적 변수의 전처리: 목적 변수의 분포 확인
__4.5.1 SalePrice 데이터의 분포 확인
4.6 설명 변수의 전처리: 결측치 확인
__4.6.1 각 설명 변수의 결측치 확인
4.7 이상치 제외
__4.7.1 이상치란
__4.7.2 각 설명 변수의 데이터 분포 확인
4.8 설명 변수 확인: 특징 값 생성
4.9 하이퍼파라미터 최적화
__4.9.1 Optuna 구현
__4.9.2 캐글에 결과 제출
4.10 여러 가지 머신 러닝 방법을 이용한 앙상블
__4.10.1 랜덤 포레스트로 학습
__4.10.2 LotFrontage의 결측치 삭제
__4.10.3 XGBoost로 학습
__4.10.4 XGBoost와 LightGBM 결과 조합
4.11 추가 분석 ①: 통계 기법을 이용한 클러스터 분석
__4.11.1 통계 기법을 써서 주택 분류
__4.11.2 주성분 분석
4.12 추가 분석 ②: 고급 주택의 조건을 분석하고 시각화
__4.12.1 결정 트리로 시각화
5장 새로운 데이터 과학 능력 향상을 위한 팁
5.1 캐글 마스터와 특별 인터뷰
5.2 캐글에서 권장하는 스타터 노트북
__5.2.1 판매량 예측하기 경진대회
__5.2.2 PUBG 최종 순위 예측하기(커널만 해당) 경진대회
__5.2.3 IEEE- CIS 부정 거래 탐지하기 경진대회
5.3 GCP의 AI 플랫폼 분석 절차
__5.3.1 GCP의 AI 플랫폼에 관하여
__5.3.2 GCP 이용
__5.3.3 GCP에 데이터 업로드
__5.3.4 GCP의 AI 플랫폼 이용
__5.3.5 GCP의 AI 플랫폼에서 Storage 데이터 사용
__5.3.6 새로운 라이브러리 추가
__5.3.7 인스턴스 이용 중지
부록 A 캐글 마스터가 되다: 전업 캐글러로서 삶과 지진 예측 3위 솔루션
A.1 자기 소개
A.2 전업 캐글러로서 1년 반
__A.2.1 전업 캐글러가 된 이유
__A.2.2 전업 캐글러가 되고 난 후 1년간
__A.2.3 캐글 그랜드마스터를 목표로 한 반년
__A.2.4 전업 캐글러로서 1년 반을 회고하며
A.3 LANL 지진 예측 3위 솔루션
__A.3.1 경진대회의 개요
__A.3.2 학습 데이터
__A.3.3 테스트 데이터
__A.3.4 학습 방법
__A.3.5 상위 입상 열쇠
__A.3.6 리더보드 프로빙
__A.3.7 점수 변화
__A.3.8 공개 리더보드의 베스트 모델
__A.3.9 개최자 논문
__A.3.10 논문에 사용한 데이터와 대회 데이터는 동일한가?
__A.3.11 개최자의 논문 정보와 리더보드 프로빙 정보를 조합하다
부록 B 국내 캐글 그랜드마스터 인터뷰: 이유한
B.1 인터뷰 소개
B.2 인터뷰 내용
역자 소개
- 단순 변심인 경우 : 상품 수령 후 7일 이내 신청
- 상품 불량/오배송인 경우 : 상품 수령 후 3개월 이내, 혹은 그 사실을 알게 된 이후 30일 이내 반품 신청 가능
| 반품사유 | 반품 배송비 부담자 |
|---|---|
| 단순변심 | 고객 부담이며, 최초 배송비를 포함해 왕복 배송비가 발생합니다. 또한, 도서/산간지역이거나 설치 상품을 반품하는 경우에는 배송비가 추가될 수 있습니다. |
| 고객 부담이 아닙니다. |
| 진행 상태 | 결제완료 | 상품준비중 | 배송지시/배송중/배송완료 |
|---|---|---|---|
| 어떤 상태 | 주문 내역 확인 전 | 상품 발송 준비 중 | 상품이 택배사로 이미 발송 됨 |
| 환불 | 즉시환불 | 구매취소 의사전달 → 발송중지 → 환불 | 반품회수 → 반품상품 확인 → 환불 |
- 결제완료 또는 배송상품은 1:1 문의에 취소신청해 주셔야 합니다.
- 특정 상품의 경우 취소 수수료가 부과될 수 있습니다.
| 결제수단 | 환불시점 | 환불방법 |
|---|---|---|
| 신용카드 | 취소완료 후, 3~5일 내 카드사 승인취소(영업일 기준) | 신용카드 승인취소 |
| 계좌이체 |
실시간 계좌이체 또는 무통장입금 취소완료 후, 입력하신 환불계좌로 1~2일 내 환불금액 입금(영업일 기준) |
계좌입금 |
| 휴대폰 결제 |
당일 구매내역 취소시 취소 완료 후, 6시간 이내 승인취소 전월 구매내역 취소시 취소 완료 후, 1~2일 내 환불계좌로 입금(영업일 기준) |
당일취소 : 휴대폰 결제 승인취소 익월취소 : 계좌입금 |
| 포인트 | 취소 완료 후, 당일 포인트 적립 | 환불 포인트 적립 |
- 단순변심으로 인한 반품 시, 배송 완료 후 7일이 지나면 취소/반품 신청이 접수되지 않습니다.
- 주문/제작 상품의 경우, 상품의 제작이 이미 진행된 경우에는 취소가 불가합니다.
- 구성품을 분실하였거나 취급 부주의로 인한 파손/고장/오염된 경우에는 취소/반품이 제한됩니다.
- 제조사의 사정 (신모델 출시 등) 및 부품 가격변동 등에 의해 가격이 변동될 수 있으며, 이로 인한 반품 및 가격보상은 불가합니다.
- 뷰티 상품 이용 시 트러블(알러지, 붉은 반점, 가려움, 따가움)이 발생하는 경우 진료 확인서 및 소견서 등을 증빙하면 환불이 가능하지만 이 경우, 제반 비용은 고객님께서 부담하셔야 합니다.
- 각 상품별로 아래와 같은 사유로 취소/반품이 제한 될 수 있습니다.
| 상품군 | 취소/반품 불가사유 |
|---|---|
| 의류/잡화/수입명품 | 상품의 택(TAG) 제거/라벨 및 상품 훼손으로 상품의 가치가 현저히 감소된 경우 |
| 계절상품/식품/화장품 | 고객님의 사용, 시간경과, 일부 소비에 의하여 상품의 가치가 현저히 감소한 경우 |
| 가전/설치상품 | 전자제품 특성 상, 정품 스티커가 제거되었거나 설치 또는 사용 이후에 단순변심인 경우, 액정화면이 부착된 상품의 전원을 켠 경우 (상품불량으로 인한 교환/반품은 AS센터의 불량 판정을 받아야 합니다.) |
| 자동차용품 | 상품을 개봉하여 장착한 이후 단순변심의 경우 |
| CD/DVD/GAME/BOOK등 | 복제가 가능한 상품의 포장 등을 훼손한 경우 |
| 상품의 시리얼 넘버 유출로 내장된 소프트웨어의 가치가 감소한 경우 | |
| 노트북, 테스크탑 PC 등 | 홀로그램 등을 분리, 분실, 훼손하여 상품의 가치가 현저히 감소하여 재판매가 불가할 경우 |










