책 소개
베스트셀러 《신은 주사위 놀이를 하지 않는다》저자의 후속작!
경제학자 팀 하포드, 앨런튜링연구소장 《네이처》 등 강력 추천!
우리가 ‘모르는’ 데이터는
왜 ‘아는’ 데이터보다 치명적인가?
“‘주어진 것’을 당연하게 받아들이는 위험에 눈을 뜨게 해주는 책.
‘가짜 뉴스’와 데이터의 폭발적 증가가 불가분의 관계인 이 시대에 모든 사람의 필독서다.”
_에이드리언 스미스, 앨런튜링연구소 소장
“데이비드 핸드는 통계라는 세계의 어두운 한구석에 밝은 빛을 비춘다.”
_팀 하포드, 경제학자, 《파이낸셜타임스》 수석 칼럼니스트
보이지 않는 데이터의 세계에서 올바른 결정을 내리기 위한 실용적 가이드
이른바 빅데이터 시대, 우리는 의사결정을 잘하는 데 필요한 정보는 다 가지고 있다고 생각하기 쉽다. 하지만 사실 우리가 가진 데이터가 ‘온전했던’ 적은 없었다. 손에 쥔 데이터는 빙산의 일각일지도 모른다. 우주의 상당 부분이 보이지는 않아도 엄연히 존재하는 암흑물질로 이루어져 있듯이, 정보의 우주 역시 우리가 위험천만하게 간과할 수 있는 ‘다크 데이터’로 가득하다.
영국 왕립통계학회장을 역임했으며 대영제국 훈장을 수여한 세계적인 통계학자 데이비드 핸드는 신작 《다크 데이터》에서 보이지 않는 데이터의 세계를 향한 흥미진진한 여정으로 우리를 인도한다.
의료 통계, 금융상품 설계, 인구조사, 실험 설계에서
금융사기 감지, 투자 예측, 질병 진단, 개인정보 보호까지
‘다크 데이터’의 함정을 피하고 위험을 기회로 만드는 법
《다크 데이터》는 우리가 누락된 데이터를 알아차리지 못하게 되는 과정들, 그리고 그로 인해 우리가 어떻게 잘못되고 위험하고 심지어 파국에 이를 수도 있는 결론과 행위에 이르게 되는지 다각도에서 탐사한다. 우주왕복선 챌린저호 폭발사고부터 복잡한 금융사기와 AI 알고리즘까지, 현실에서 만날 수 있는 다양한 사례를 면밀하게 파고든다. 데이비드 핸드는 우리가 다크 데이터를 분별하고 제어하는 법을 익힐 수 있도록, 세상에 존재하는 ‘다크 데이터’의 유형과 그것들이 발생하는 상황들에 대해 현실적인 분류법을 제시한다. 이로써 우리는 ‘우리가 모르는 것들’이 초래하는 문제들에 대해 경각심을 가질 뿐만 아니라, 다크 데이터를 이용해서 더 깊은 이해와 더 나은 결정을 하게 된다.
누락된 데이터의 바다에서
‘다크 데이터’를 만나다
개인의 삶에서든 전문분야에서든 우리는 무언가 결정할 때면 대개 어떤 형태로든 데이터를 가지고 시작한다. 그런데 우리는 미래를 알고 싶어하면서도 미래가 과거와 크게 다르지 않다고 추정하는 등의 무모한 판단을 무심코 계속하는 경향이 있다. 하지만 손에 쥔 데이터는 전부가 아니다. 빅데이터의 모멘텀이 점점 가속됨에 따라 우리가 놓치고 있는 다크 데이터의 위험성도 커지고 있다.
우리에게 없거나 우리가 모르는 데이터를 저자는 물리학의 ‘암흑물질dark matter’에 빗대어 ‘다크 데이터’라 부른다. 우리는 그 사실을 알 수도, 모를 수도 있다. ‘다크 데이터’는 쉽게 말해 ‘우리가 갖고 있지 않은’ 데이터다. 다크 데이터는 어디서든 생겨나며 모든 곳에 있다. 그리고 다크 데이터의 정의상 가장 큰 위험은 우리가 그 존재를 모를 수 있다는 점이다. 다크 데이터는 언제 어떻게 생겨나서 작동하며, 어느 순간에 우리의 뒤통수를 치는가? 다크 데이터를 역이용하여 틀리지 않고 이기는 결정을 내릴 방법은 없는가? 세계적인 통계학자 데이비드 핸드는 데이터 폭증의 시대에 더욱 ‘다크 데이터 관점’이 중요함을 역설하며, 어디에든 존재하는 다크 데이터의 속성과 그 원인 및 결과를 망라해나간다.
이 책은 우리가 ‘갖고 있지 않은’ 데이터를 다룬다. 그러니까 우리가 지금 갖고 싶거나, 이전에 가지고 싶었거나, 또는 가진 줄 알지만 실제로는 갖고 있지 ‘않은’ 데이터에 관한 책이다. (중략) 볼 수 없는 데이터는 우리를 잘못된 길로 이끌 잠재력이 있으며, 앞으로 살펴보겠지만 때로는 파국을 초래하기도 한다. 그런 일이 어떻게 그리고 왜 생기는지 알려주겠다. 또 파국을 어떻게 막을지, 파국을 피하려면 무엇을 찾아야 할지도 알려주겠다. 그다음에는 어쩌면 놀랍게도, 다크 데이터를 역이용하여 종래의 데이터 분석 방식을 어떻게 뒤집을 수 있는지도 알려주겠다. 다시 말해 (우리가 충분히 현명하다는 전제하에) 어떻게 하면 데이터를 숨기는 것이 더 깊은 지혜, 더 나은 결정, 더 나은 행동의 선택으로 이어질 수 있는지도 알아보자. _서문에서
세계적 통계학자 데이비드 핸드,
‘다크 데이터’를 간파하고 활용하는 법을 말하다
데이비드 핸드는 왕립통계학회 회장을 역임하고 대영제국 훈장을 받은 통계학계의 세계적인 권위자다. 그는 금융, 건강, 약학, 의료 분야 및 정부를 위해 대량의 데이터를 분석해오면서 오랜 세월에 걸쳐 ‘다크 데이터’의 정체에 눈을 떴다. 《다크 데이터》는 그 정수를 모은 것으로, 데이비드 핸드는 ‘누락된 데이터’ 분야의 전문가이자 선구자라 해도 과언이 아니다.
전작 《신은 주사위 놀이를 하지 않는다: 로또부터 진화까지, 우연한 일들의 법칙》에서 핸드는 ‘일어날 가능성이 거의 없는 사건들’의 법칙을 다뤄 세상의 시선을 끌었다. 이번 책에서는 전작의 맥을 이어 의료?제약?행정?사회정책?금융?제조업 등 각 분야의 다크 데이터 현상에 다가간다. ‘우리가 모른다는 것을 아는 데이터’와 ‘우리가 모른다는 것조차 모르는 데이터’들을 대상으로 삼아, 빅데이터 시대 문제 해결의 본질적 맹점을 확인하고 보완한다.
문제들의 근본적 해결책은, 데이터의 우주 속 알려지지 않은 어두운 영역들이 우리의 인식을 어떻게 왜곡하는지 파악하는 것이다. 그러면서 ‘데이터가 불완전할 수도 있다’는 것을 인식하지 못한다면, 또 무언가를 측정하는 것이 곧 모든 것을 측정하는 것을 뜻하지는 않으며 측정 절차와 측정 대상은 미묘하고도 비뚤어진 방식으로 상호작용할 수 있다는 것을 인식하지 못한다면, 우리는 지금 세상에 무슨 일이 벌어지고 있는지에 대해 심각한 오해만 얻을 것이라고 경고한다.
다크 데이터는 언제 어디서나 작동한다
우리에게는 ‘다크 데이터 관점’이 필요하다
데이터는 현실을 표상해주지만, 마치 캐리커처로 그린 만화와도 같다. 우리는 마치 만화가 사람의 얼굴이나 행동의 주요 특징을 포착하듯 데이터가 현실의 중요한 특징들을 포착하기를 바라지만, 누구도 그걸 보장해주지는 않는다. 실제로 데이터는 중요한 많은 것들을 쉽사리 빠뜨리고, 잘못된 결론과 끔찍한 의사결정을 낳곤 한다. 무시된 정보나 데이터는 회사나 경제를 무너뜨리고 인명을 앗아갈 수도 있다. 이 책은 마치 데이터의 세계를 둘러싸고 쫓고 쫓기는 추리소설처럼 현실 속 생생한 사례들을 심도 있게 해석해준다.
★ ‘다크 데이터’는 우리 주변 어디서나 작동하고 있다 ★
• 도로 침하나 재해 상황을 신고하는 스마트폰 앱이 놓친 것은?
• 챌린저호 폭발 사고에서 파국적인 결과를 낳은 다크 데이터의 정체는?
• 기존 대출 데이터로 미래 고객의 심사 모형을 설계할 때 만날 수 있는 문제는?
• 규제의 빈틈, 정보 비대칭 등을 이용하려는 시도는 어떤 현상을 낳는가?
• 나날이 진화하는 사기의 세계에서 데이터는 어떻게 숨겨지고 왜곡되어왔나?
• 학생들의 학점 인플레이션이 일어나는 원인에는 어떤 다크 데이터가 존재하는가?
• 반증 가능성과 자기수정이 본질인 과학은 과연 ‘재현 가능성’의 위기를 맞이했나?
‘서툰 범죄자들은 경찰에 잘 잡히지만, 진짜 영악한 사기꾼들은 발각되지 않고 빠져나가니까 결국 수많은 범죄자가 잡히지 않고 있는 것 아닌가?’ ‘증세가 뚜렷하지 않은 환자가 적절한 치료 타이밍을 놓치기 쉬운 이유는?’ ‘중고차 시장에는 왜 이렇게 형편없는 매물이 넘쳐날까?’ 같은 간단한 궁금증에서 시작해, 저자가 직접 금융기관으로부터 의뢰받아 대출심사 모델을 설계하면서 파악한 다크 데이터 문제, 오늘날 경제지표나 개인정보 암호화 등에 활용하는 첨단 기법 같은 사례들을 들어 실제 행정․비즈니스․IT․과학 연구 현장에서 데이터를 다룰 때 경계해야 할 지점들을 보여준다.
책의 1부에서는 다양한 사례를 통해 다크 데이터의 15가지 유형을 두루 살펴보고, 그것들을 간과한 것이 어떤 결과를 초래하는지 확인한다. 데이터 수집 과정과 더불어 다크 데이터가 생길 수 있는 몇 가지 방식을 따라, 설문조사, 의료 및 과학 연구, 학력 평가, 건강검진, 경제 정책 수립, 법령 개정, 심지어 현대인의 일상을 위협하는 각종 사기와 기만행위 등 현대 사회에서 다크 데이터가 존재할 수 있는 수많은 영역을 둘러본다. 그럼으로써 다크 데이터를 어떻게 감지할 것이며, 감지했거나 의심이 되면 어떤 조치를 취해야 하며 어떻게 다크 데이터를 방지하는 데이터 수집 전략을 설계해 다크 데이터를 제어할 수 있는지 보여준다.
이어서 책의 2부에서는 치명적 위험을 지닌 다크 데이터를 활용하는 법을 알려준다. 곧 (우리가 불확실성과 무지를 현명하게 제어할 줄 안다는 전제하에) ‘모른다는 것’을 최대한 역이용해서 좀 더 유용한 행동을 취하는 법을 알려준다. 크게 ‘다크 데이터를 명백하게 밝혀내는 방법(빠진 데이터를 보완하고 채워넣는 법)’ ‘다크 데이터를 참작하는 방법(오류에 대처하는 법)’ 그리고 더 들어가 ‘다크 데이터를 실제로 활용하는 방법(무작위 대조군 실험부터 시뮬레이션, 베이즈 사전확률 등)’ 등을 이야기한다.
◆◇◆
우리는 모두 환한 곳을 바라보는 데 익숙해져 있다. 하지만 데이터는 완전히 객관적이지도 않고 ‘진리’도 아니다. 어둠 속 보이지 않는 곳에 분명 ‘더 나은 결정’을 위한 결정적 세부 사항이 숨어 있다. 그러니 데이터가 주도하는 이 세상에서 우리에게 필요한 것은 ‘데이터를 의심할 줄 아는 것’, 건강한 회의주의자로 사는 기술이다. 그래서 우리에게는 ‘다크 데이터’ 관점이 필요하다. 이 책은 보통 사람들이 평소에는 쉽게 알아볼 수 없는 통계학적 분석의 관점을 보여주며, 또한 ‘데이터 관점’을 ‘다크 데이터 관점’으로 뒤집어서 더 나은 결정을 향한 또 다른 시야를 열어준다.
우리는 끊임없이 경계하며 자문해야 한다. “우리는 무엇을 놓치고 있는가?”
작가 소개
지은이 : 데이비드 핸드
옥스퍼드대학교를 졸업했으며 세계적인 이공계 명문 대학인 임페리얼칼리지런던의 수학과 명예교수 겸 선임연구원이다. 2002년 통계학계에서 가장 권위 있는 상인 가이 메달Guy Medal을 받았고, 2003년에는 영국 학사원의 연구원으로 선출되었다. 2008년부터 왕립통계학회 회장을 지냈으며 그동안의 연구 업적으로 2013년 대영제국 훈장을 받았다. 유럽에서 수익률이 가장 높은 알고리즘 매매 헤지펀드 중 하나인 윈턴캐피털매니지먼트Winton Capital Management의 고문이기도 하다.
‘우연한 일들’에 숨어 있는 법칙을 다룬 핸드의 대표작 《신은 주사위 놀이를 하지 않는다The Improbability Principle》는 통계학 서적으로는 이례적으로 출간 즉시 아마존과 《뉴욕타임스》 종합 베스트셀러가 되었으며, 《워싱턴포스트》 《허핑턴포스트》 등 유력 매체에서 크게 호평을 얻었다.
전작 《신은 주사위 놀이를 하지 않는다》에서 ‘일어날 가능성이 거의 없는 사건들’을 다뤘다면, 《다크 데이터》에서는 ‘우리가 모른다는 것을 아는 것’과 ‘우리가 모른다는 것조차 모르는 것’들을 대상으로 삼아, 빅데이터 시대 문제 해결의 본질적 맹점을 확인하고 또 보완한다.
데이비드 핸드는 이 밖에도 《정보 세대: 데이터는 어떻게 우리의 세계를 지배하는가Information Generation: How Data Rule Our World and Statistics》를 비롯해 7권의 책과 300편 넘는 논문을 발표했으며, 까다로운 통계학 지식을 우리 일상과 연관 지어 대중에게 알기 쉽게 전달하는 강연 활동에도 매진하고 있다.
옮긴이 : 노태복
한양대학교 전자공학과를 졸업했다. 과학과 인문의 경계에서 즐겁게 노니는 책들과 생태적 감수성을 일깨우는 책들에 관심이 많다. 신화를 오늘날의 시각에서 풀어내자는 생각으로 불핀치의 그리스 로마 신화집을 번역했다. 인간 정신과 문화의 원천인 신화를 지금 여기의 언어를 사용해 친근하면서도 품격 있게 재해석하려고 했다. 이 결과물이 우리 삶을 풍요롭게 해 주기를 소망한다. 옮긴 책으로 『19번째 아내』, 『얽힘의 시대』, 『꿀벌 없는 세상』, 『결실 없는 가을』 등이 있다.
목 차
1부
다크 데이터는 어떻게 생겨나고
어떤 결과를 초래하는가
1장.
다크 데이터: 보이지 않는 것이 이 세계를 만든다
보이지 않는 위험, 다크 데이터
데이터를 다 갖고 있다고 생각하는군요?
아무 일도 안 생겨서 무시해버릴 때 생기는 일
다크 데이터의 위력
다크 데이터는 언제 어디에나 있다
2장.
다크 데이터 찾아내기: 우리가 모은 것과 모으지 않은 것
데이터를 얻는 3가지 방식과 다크 데이터의 출현
데이터 잔해에서 얻는 다크 데이터
설문조사에서 생기는 다크 데이터
실험 데이터에도 다크 데이터가 끼어든다
인간적 취약점에 주의하시라
3장.
다크 데이터와 정의: 알고자 하는 것이 정확히 무엇인가?
엉뚱한 것을 측정해버렸다: 정의가 달라질 때
‘모든’ 것을 측정할 수는 없다: 심슨의 역설
질병 검진 프로그램의 취약성
과거 성과를 보고 선택할 때의 다크 데이터
4장.
의도하지 않은 다크 데이터: 말과 행동이 따로 놀 때
어디까지 정확해야 하지?
요약은 필연적으로 다크 데이터를 만든다
인간이니까 생기는 오류
측정 도구의 한계
데이터 세트를 통합할 때의 문제
5장.
전략적 다크 데이터: 게이밍, 피드백, 정보 비대칭
게이밍: 빈틈을 이용해 이득을 얻다
피드백: 피드백이 데이터를 왜곡시킬 때
정보 비대칭: 중고차 시장에서 무슨 일이 일어났나
다크 데이터가 알고리즘에 끼치는 영향
6장.
고의적 다크 데이터: 사기와 기만
사기의 세계: 핵심은 데이터 숨기기다
신원 도용과 인터넷 사기: ‘자칼의 날’
계속 진화하는 개인금융 사기
금융시장 사기와 내부자 거래
보험 사기: 고객을 속이거나 보험사를 속이거나
그 밖의 사기: 돈세탁, 다단계 사기, 횡령
7장.
다크 데이터와 과학: 발견의 본질
과학의 본질: 검증 체계로서의 과학
내가 그걸 알았더라면!: 과학자들의 흑역사
우연히 만난 다크 데이터: 과학자들의 행운
반복 실험을 통한 재현: 과학 연구의 다크 데이터
사실을 감추는 방법들
철회
출처와 신뢰성: “누가 그러던가요?”
2부
다크 데이터에 빛을 비추고 이용하는 법
8장.
다크 데이터 다루기: 빛을 비추기
희망은 있다
관측 데이터를 빠진 데이터와 연결하기
3가지 데이터 누락 메커니즘
이미 가진 데이터를 활용하는 법
생존분석 문제: 당신이 먼저 죽는다면?
대치법: 빠진 데이터를 채워넣기
반복: 최대가능도 모형과 EM 알고리즘
데이터 오류에 대처하는 방법
9장.
다크 데이터로 이득을 얻는 법: 질문을 바꿔보자
데이터를 숨기는 게 이득이 될 때
무작위 대조군 시험: 데이터를 모두에게 숨겨라
시뮬레이션: 일어났을 수도 있는 일
전략적으로 복제된 데이터
베이즈 사전확률: 가상의 데이터
사생활 보호와 기밀 유지
데이터를 다크 상태로 수집하기
10장.
다크 데이터 분류법: 미로 속으로 난 길
다크 데이터의 15가지 유형
새롭게 조명하기
역자 소개
null
- 단순 변심인 경우 : 상품 수령 후 7일 이내 신청
- 상품 불량/오배송인 경우 : 상품 수령 후 3개월 이내, 혹은 그 사실을 알게 된 이후 30일 이내 반품 신청 가능
반품사유 | 반품 배송비 부담자 |
---|---|
단순변심 | 고객 부담이며, 최초 배송비를 포함해 왕복 배송비가 발생합니다. 또한, 도서/산간지역이거나 설치 상품을 반품하는 경우에는 배송비가 추가될 수 있습니다. |
고객 부담이 아닙니다. |
진행 상태 | 결제완료 | 상품준비중 | 배송지시/배송중/배송완료 |
---|---|---|---|
어떤 상태 | 주문 내역 확인 전 | 상품 발송 준비 중 | 상품이 택배사로 이미 발송 됨 |
환불 | 즉시환불 | 구매취소 의사전달 → 발송중지 → 환불 | 반품회수 → 반품상품 확인 → 환불 |
- 결제완료 또는 배송상품은 1:1 문의에 취소신청해 주셔야 합니다.
- 특정 상품의 경우 취소 수수료가 부과될 수 있습니다.
결제수단 | 환불시점 | 환불방법 |
---|---|---|
신용카드 | 취소완료 후, 3~5일 내 카드사 승인취소(영업일 기준) | 신용카드 승인취소 |
계좌이체 |
실시간 계좌이체 또는 무통장입금 취소완료 후, 입력하신 환불계좌로 1~2일 내 환불금액 입금(영업일 기준) |
계좌입금 |
휴대폰 결제 |
당일 구매내역 취소시 취소 완료 후, 6시간 이내 승인취소 전월 구매내역 취소시 취소 완료 후, 1~2일 내 환불계좌로 입금(영업일 기준) |
당일취소 : 휴대폰 결제 승인취소 익월취소 : 계좌입금 |
포인트 | 취소 완료 후, 당일 포인트 적립 | 환불 포인트 적립 |
- 단순변심으로 인한 반품 시, 배송 완료 후 7일이 지나면 취소/반품 신청이 접수되지 않습니다.
- 주문/제작 상품의 경우, 상품의 제작이 이미 진행된 경우에는 취소가 불가합니다.
- 구성품을 분실하였거나 취급 부주의로 인한 파손/고장/오염된 경우에는 취소/반품이 제한됩니다.
- 제조사의 사정 (신모델 출시 등) 및 부품 가격변동 등에 의해 가격이 변동될 수 있으며, 이로 인한 반품 및 가격보상은 불가합니다.
- 뷰티 상품 이용 시 트러블(알러지, 붉은 반점, 가려움, 따가움)이 발생하는 경우 진료 확인서 및 소견서 등을 증빙하면 환불이 가능하지만 이 경우, 제반 비용은 고객님께서 부담하셔야 합니다.
- 각 상품별로 아래와 같은 사유로 취소/반품이 제한 될 수 있습니다.
상품군 | 취소/반품 불가사유 |
---|---|
의류/잡화/수입명품 | 상품의 택(TAG) 제거/라벨 및 상품 훼손으로 상품의 가치가 현저히 감소된 경우 |
계절상품/식품/화장품 | 고객님의 사용, 시간경과, 일부 소비에 의하여 상품의 가치가 현저히 감소한 경우 |
가전/설치상품 | 전자제품 특성 상, 정품 스티커가 제거되었거나 설치 또는 사용 이후에 단순변심인 경우, 액정화면이 부착된 상품의 전원을 켠 경우 (상품불량으로 인한 교환/반품은 AS센터의 불량 판정을 받아야 합니다.) |
자동차용품 | 상품을 개봉하여 장착한 이후 단순변심의 경우 |
CD/DVD/GAME/BOOK등 | 복제가 가능한 상품의 포장 등을 훼손한 경우 |
상품의 시리얼 넘버 유출로 내장된 소프트웨어의 가치가 감소한 경우 | |
노트북, 테스크탑 PC 등 | 홀로그램 등을 분리, 분실, 훼손하여 상품의 가치가 현저히 감소하여 재판매가 불가할 경우 |