책 소개
통계로 거짓말하기는 쉬워도 통계 없이 진실을 말하기는 어렵다
불확실함만이 확실한 시대, 통계적 사고로 위험을 헷지(hedge)하라!
바야흐로 불확실성의 시대이다. 비 한 방울 내리지 않는 사하라사막에서 눈이 내리고, 한겨울에도 영상 10도 이하로 내려가지 않는 텍사스에 영하 20도의 한파가 몰아친다. 코로나19로 저점을 찍었던 주식시장은 최고점을 돌파하고, 2018년 열풍 후 대폭락을 겪은 비트코인은 연일 최고치를 경신하며 극적인 폭등세를 유지하고 있다. 이처럼 점점 불확실성이 급증하고 변동성이 최고조에 이른 오늘날, 불확실성은 이제 세계를 움직이는 법칙에 가깝다.
《데이터과학자의 사고법》은 점점 더 불확실해지고 있는 세상에서 통계와 확률로 구성된 데이터과학이라는 전문지식이 어떻게 우리 사회와 삶의 문제를 해결할 수 있는지를 보여준다. 세상과 인생은 우리가 생각한 것보다 훨씬 주사위놀이(확률)에 가깝다. 중요한 것은 불확실성을 없애려고 무모한 시도를 계속하는 것이 아니라 불확실성 자체를 받아들이고 대비하는 것이다. 데이터과학자가 알려주는 통계적 사고법은 인생에서 내리는 중요한 판단에서 찬반이 첨예하게 대립하는 사회적 문제까지 모든 사건에 내재된 불확실성을 이해하고 합리적 의사결정을 할 수 있도록 도와줄 것이다.
한 치 앞도 예측불가능한 상황을 돌파하는 가장 확실한 사고법
확률로 결정되는 세계를 탐험하기 위한 안내서
수학에서 통계 분야는 ‘수포자’를 양산하는 것으로 악명이 높다. 이처럼 확률과 통계가 어려운 까닭은 우리의 직관에 반하는 경우가 많기 때문이다. 안타깝게도 현실은 항상 우리 경험과 직관보다 통계의 손을 들어주기 때문에 우리의 많은 행동이 잘못된 선택이 되곤 한다. 저자 김용대 교수(서울대 통계학과)는 우리를 잘못된 판단으로 이끄는 여러 오류와 편향에 대해 사회 속 다양한 사례를 통해 ‘수포자’도 이해할 수 있게 설명해준다.
누구나 한 번쯤은 생각해봤을 법한 ‘내가 기다리는 버스만 늦게 오는 머피의 법칙’을 설명해주는 ‘길이 편이’부터 수많은 수학 천재들을 파산시킨 ‘극단값’, 2년차 징크스의 미스터리인 ‘평균으로의 회귀’, 행운의 로또번호를 맞추는 방법인 ‘다중비교의 오류’, 투자자들을 울리는 주식시장의 ‘임의보행’까지 책에 등장하는 통계의 핵심 개념들은 지적 자극과 새로운 통찰력을 선사하면서 우리를 확률의 세계로 인도해준다.
나아가 《데이터과학자의 사고법》은 수학교과서로만 접했던 통계와 확률이 얼마나 우리 일상 속에 얼마나 많이 사용되고 있으며 쓸모가 있는지 보여준다. 사실 우리는 일상에서 부동산이 오를지 내릴지 예측하면서 이미 ‘조건부확률’이라는 통계적 사고를 적용하고 있다. 단지 잘못된 데이터와 어림짐작에 근거해서 부정확한 분석을 할 뿐이다. 책에는 우리의 어림짐작과 실제 확률이 얼마나 다른지 보여주는 사례가 많이 등장하는데, 이를 통해 우리가 흔히 착각하는 확률에 대한 오해를 풀어준다. 97% 거짓말탐지기가 법원의 증거로 채택되지 못하는 이유, 한 반에 생일이 같은 두 사람이 있는 이유, 선거전문가들이 트럼프의 당선을 예측하지 못한 이유, 백신의 예방효과가 확률이 아닌 이유 같은 사회적으로 중요한 상황에서의 통계적 판단은 처음 접한다면 거짓말처럼 느껴진다. 그러나 설명을 따라가다 보면 우리의 직관과 경험이 틀렸으며 통계적 사고가 진실로 가는 가장 확실한 길임을 인정할 수밖에 없을 것이다.
데이터과학의 눈부신 활약과 그림자
그리고 이해와 협력의 기초로서 데이터과학
통계학은 현재 데이터과학으로 확장되어 ‘21세기의 석유’라고 불릴 정도로 주목받고 있다. 유튜브의 추천동영상, 인터넷쇼핑, 새벽배송 등 보이지 않지만 새롭게 일상이 된 서비스들이 모두 데이터과학을 기반으로 하기 때문이다. 동시에 데이터과학이 우리의 일상 속으로 깊숙이 스며들면서 이전에는 없었던 새로운 사회적 문제들도 발생하고 있다.
최근 벌어진 인공지능 챗봇 ‘이루다’ 사건은 이런 새로운 문제를 종합적으로 보여준다. 딥러닝을 통해 대화를 학습한 ‘이루다’는 자연스러운 반응으로 화제를 불러일으켰지만, 혐오 발언과 개인정보 유출로 결국 서비스는 중단되고 말았다. ‘이루다’ 사건은 인공지능의 윤리적 문제, 개인정보 유출과 데이터 익명화 문제를 모두 보여준다. 《데이터과학자의 사고법》은 각종 산업 현장에서 활약하고 있는 최첨단 데이터과학과 인공지능의 현재와 미래를 설명하는 동시에 이미 현실화하고 있는 데이터과학으로 인한 문제들에 대해서도 심도 있게 다룬다. 데이터 익명화의 난점을 비롯해 알고리즘 설계 시 편향으로 인한 인공지능 윤리 문제를 조명하고, 대안으로 평가받는 ‘설명해주는 인공지능’ 개념까지 설명해준다.
이처럼 김용대 교수는 데이터과학이 세계와 우리의 삶을 얼마나 바꿔나갈 수 있는지 이야기하는 동시에 데이터과학의 한계와 그 의미를 지적하는 것 역시 놓치지 않는다. 데이터는 왜곡과 조작에 매우 취약할 뿐 아니라 같은 데이터를 어떻게 분석하느냐에 따라 전혀 다른 해석이 나오기도 한다. 모든 통계에는 오류가 있을 수 있으며, 따라서 데이터를 통해 얻은 판단의 한계를 알아야 한다는 것이다. 설령 완벽한 데이터가 있다 해도 완벽한 선택을 보장할 수 없다. 불확실성이 세계를 움직이는 법칙이듯 불완전한 선택 역시 불가피한 것이다. 결국 자신의 판단에 내재된 불완전성을 이해할 때 비로소 타인의 판단에 대해 더 잘 이해할 수 있고 존중과 협력이 가능해진다. 의견 대립이 극단으로 치닫는 오늘날, 데이터과학자가 사회에 던지는 시사점이자 우리가 데이터과학을 더 많이 이해해야 하는 이유이다.
작가 소개
서울대학교 통계학과 및 데이터사이언스대학원 데이터사이언스학과 교수. 미국 오하이오주립대학교에서 통계학으로 박사학위를 받고, 미국보건연구소 연구원(1997~1999)을 지냈다. 한국외국어대학교(1999~2001), 이화여자대학교(2001~2004) 교수를 역임했으며, 2004년부터 서울대학교에 재직 중이다. 학생들을 가르치며 생존분석, 베이지안 방법론, 데이터마이닝, 기계학습, 딥러닝 등을 연구하고 있다.
2002년 IEEE 데이터마이닝 학술대회 최우수상, 2003년 연구재단 우수연구 30선, 2007년 서울대학교 연구력 향상 공로상, 2007년 품질경영학회 우수논문상, 2014년 한국데이터정보과학회 공로상, 2017년 ICCM 학술대회 최고논문상, 2018년 한국통계학회 한국갤럽학술상 등을 수상했다. 2019년 국제이론통계학회의 펠로Fellow로 선정되었으며 2020년부터 한국데이터마이닝학회장을 맡고 있다.
이 책은 우리 일상에 깊숙이 들어와 있지만 여전히 낯설고 어려운 데이터를 읽어내고 해석하며 활용하는 방법을 일상 속 사례를 통해 알기 쉽게 설명한다. 나아가 우리가 선택의 기로에서 주관적인 감에 의존하지 않고 합리적으로 판단하는 통계학적 사고법을 알려준다.
목 차
프롤로그: 데이터과학으로 들어가기
1부 데이터 리터러시: 숫자 없는 통계학
1장 역사 속의 데이터 ? 무지와 탐욕을 밝히는 열쇠
2장 불확실한 세상을 위한 언어 ?확률
3장 확률, 그 오묘함에 대하여 ?조건부 확률
4장 종 모양의 데이터 ?정규분포
5장 요약 본능과 변동의 이해 -표준편차
6장 합리적으로 판단하기 ?가설검정과 대립가설
7장 관계의 이해 ? 상관관계와 인과관계
8장 2년차 징크스는 왜 생길까? ? 평균으로의 회귀
9장 왜 내 차선만 막히나요? - 데이터 편이
10장 걱정은 팔자가 아니고 과학입니다 - 극단값
11장 술 취한 사람 이해하기 - 임의보행
12장 미래 예측하기 ? 차원의 저주와 과적합 문제
13장 너의 마음을 보여줘 - 표본조사
14장 로또에 당첨되는 법 - 다중비교
15장 목표 없는 정보의 허무함 ? 빅데이터와 세분화의 함정
벤포드의 법칙
2부 데이터의 활약상: 세상만사의 데이터과학
1장 데이터의 발자취 ? 인구 조사에서 빅데이터 시대까지
2장 네 번째 과학 ? 꿈의 촬영에서 중력파 검출까지
3장 건강한 사회를 위하여 - 질병과의 전쟁
4장 백신을 위한 과학 ? 임상시험과 데이터
5장 공동체를 위하여 ? 신뢰받는 통계의 중요성
6장 민주주의와 선거 ? 유권자의 마음을 읽어라
7장 금융과 신용 - 서민을 위한 데이터
8장 광고 속 데이터과학 ? 당신도 모르는 당신의 마음
9장 제조업을 위한 데이터과학 ? 좋은 제품의 비밀
10장 프라이버시 보호 ? 개인정보 유출과 데이터 익명화
백신개발을 위한 특별한 확률
3부 인공지능: 데이터과학의 새로운 도전
1장 인공지능의 역사
2장 알파고의 탄생
3장 인공지능의 활약과 부작용
4장 인공지능을 인간답게
알파고 vs 이세돌, 그 뒷이야기
에필로그: 불완전한 사회 속 더 나은 선택을 위한 데이터과학
주
참고문헌
- 단순 변심인 경우 : 상품 수령 후 7일 이내 신청
- 상품 불량/오배송인 경우 : 상품 수령 후 3개월 이내, 혹은 그 사실을 알게 된 이후 30일 이내 반품 신청 가능
반품사유 | 반품 배송비 부담자 |
---|---|
단순변심 | 고객 부담이며, 최초 배송비를 포함해 왕복 배송비가 발생합니다. 또한, 도서/산간지역이거나 설치 상품을 반품하는 경우에는 배송비가 추가될 수 있습니다. |
고객 부담이 아닙니다. |
진행 상태 | 결제완료 | 상품준비중 | 배송지시/배송중/배송완료 |
---|---|---|---|
어떤 상태 | 주문 내역 확인 전 | 상품 발송 준비 중 | 상품이 택배사로 이미 발송 됨 |
환불 | 즉시환불 | 구매취소 의사전달 → 발송중지 → 환불 | 반품회수 → 반품상품 확인 → 환불 |
- 결제완료 또는 배송상품은 1:1 문의에 취소신청해 주셔야 합니다.
- 특정 상품의 경우 취소 수수료가 부과될 수 있습니다.
결제수단 | 환불시점 | 환불방법 |
---|---|---|
신용카드 | 취소완료 후, 3~5일 내 카드사 승인취소(영업일 기준) | 신용카드 승인취소 |
계좌이체 |
실시간 계좌이체 또는 무통장입금 취소완료 후, 입력하신 환불계좌로 1~2일 내 환불금액 입금(영업일 기준) |
계좌입금 |
휴대폰 결제 |
당일 구매내역 취소시 취소 완료 후, 6시간 이내 승인취소 전월 구매내역 취소시 취소 완료 후, 1~2일 내 환불계좌로 입금(영업일 기준) |
당일취소 : 휴대폰 결제 승인취소 익월취소 : 계좌입금 |
포인트 | 취소 완료 후, 당일 포인트 적립 | 환불 포인트 적립 |
- 단순변심으로 인한 반품 시, 배송 완료 후 7일이 지나면 취소/반품 신청이 접수되지 않습니다.
- 주문/제작 상품의 경우, 상품의 제작이 이미 진행된 경우에는 취소가 불가합니다.
- 구성품을 분실하였거나 취급 부주의로 인한 파손/고장/오염된 경우에는 취소/반품이 제한됩니다.
- 제조사의 사정 (신모델 출시 등) 및 부품 가격변동 등에 의해 가격이 변동될 수 있으며, 이로 인한 반품 및 가격보상은 불가합니다.
- 뷰티 상품 이용 시 트러블(알러지, 붉은 반점, 가려움, 따가움)이 발생하는 경우 진료 확인서 및 소견서 등을 증빙하면 환불이 가능하지만 이 경우, 제반 비용은 고객님께서 부담하셔야 합니다.
- 각 상품별로 아래와 같은 사유로 취소/반품이 제한 될 수 있습니다.
상품군 | 취소/반품 불가사유 |
---|---|
의류/잡화/수입명품 | 상품의 택(TAG) 제거/라벨 및 상품 훼손으로 상품의 가치가 현저히 감소된 경우 |
계절상품/식품/화장품 | 고객님의 사용, 시간경과, 일부 소비에 의하여 상품의 가치가 현저히 감소한 경우 |
가전/설치상품 | 전자제품 특성 상, 정품 스티커가 제거되었거나 설치 또는 사용 이후에 단순변심인 경우, 액정화면이 부착된 상품의 전원을 켠 경우 (상품불량으로 인한 교환/반품은 AS센터의 불량 판정을 받아야 합니다.) |
자동차용품 | 상품을 개봉하여 장착한 이후 단순변심의 경우 |
CD/DVD/GAME/BOOK등 | 복제가 가능한 상품의 포장 등을 훼손한 경우 |
상품의 시리얼 넘버 유출로 내장된 소프트웨어의 가치가 감소한 경우 | |
노트북, 테스크탑 PC 등 | 홀로그램 등을 분리, 분실, 훼손하여 상품의 가치가 현저히 감소하여 재판매가 불가할 경우 |