책 소개
▣ 출판사서평
데이터의 우아한 곡선, 인문학을 가로지르다
2007년의 어느 날 하버드의 두 젊은 과학자가
구글이 구축한 디지털 바벨의 도서관으로 걸어 들어갔다
그들은 클릭 한 번으로 800만 권의 책을 검색하는 ‘구글 엔그램 뷰어’를 개발했다
검색창에 단어 하나를 입력하고, 엔터!
데이터가 그리는 아름다운 곡선이 전 세계 인문학계를 발칵 뒤집어놓았다
깜짝 놀랄 만큼 뛰어나고, 사랑스러울 정도로 겸손하며, 무한한 창의력을 지닌 두 젊은 과학자가 아이디어의 세계에서 지난 수십 년간 가장 흥미진진한 발전 가운데 하나를 위풍당당하게 내놓았다. _ 스티븐 핑커(하버드대학교 교수, 『타임』 선정 ‘가장 영향력 있는 100인’)
굉장히 잘된 스토리텔링이다. 무협지 같은 서사가 있다. 이 책이 시금석이 되어 인문학과 기술이 만난다면, 좀 더 높은 수준의 협업이 가능해질 것이다. _ 송길영((주)다음소프트 부사장)
빅데이터가 일으킬 인문학 혁명
오늘날 우리의 일거수일투족은 디지털 기록으로 남는다. 교통카드와 신용카드 사용 내역, 페이스북에서 누른 ‘좋아요’, 구글 검색, 이메일과 문자 메시지, 그리고 이 모든 것을 찍고 있는 CCTV. 이 기록들만으로도 우리의 하루를 재구성할 수 있을 만큼, 현대인은 수없이 많은 디지털 지문과 발자국을 남기며 살고 있다. 뿐만 아니라 도서관이나 박물관에서 잠자고 있던 옛 문헌들, 그림과 지도, 심지어 유물과 유적까지 과거인의 삶도 속속들이 디지털 세계로 진입하고 있다. 짧은 시간에 기하급수적으로 불어나는, 형태도 제각각이고 가치나 질도 제각각인 이 엄청난 양의 디지털 기록, 즉 빅데이터가 바로 인문학이 새롭게 맞닥뜨린 기록의 현장이다. 인간을 이해하기 위해서는 이제 책을 넘어서 데이터를 읽어야 하는 시대가 온 것이다. 디지털 시대의 인문학은 곧 데이터를 읽는 눈이다.
『빅데이터 인문학: 진격의 서막』은 지금까지 인간이 축적해온 기록 유산과는 규모 면에서 비교가 불가능한 어마어마한 양의 디지털 기록, 즉 빅데이터라는 새로운 환경에서 인문학이 맞이하게 될 혁명적인 변화를 보여주는 책이다. 30대 초반의 과학자인 두 저자는 첨단 과학기술이 제공하는 도구를 사용한다면, 인문학이 인간에 관해 지금껏 알지 못했던 새로운 사실들을 밝혀낼 수 있으리라 전망한다. 빅데이터는 그동안 물리적, 기술적 한계 때문에 접근할 수 없었던 많은 영역을 열어젖히며 인문학을 확장해나갈 것이다.
구글의 기원, 세상의 모든 책을 한 곳에!
이미 많은 연구자들이 빅데이터의 가능성에 눈뜨고 상아탑에서 빠져나와 페이스북, 구글, 아마존과 공동 작업을 시작했다. 이 책의 저자 에레즈 에이든과 장바티스트 미셸은 세상의 모든 책을 디지털화하겠다고 선언한 ‘구글 북스 라이브러리 프로젝트Google Books Library Project’의 빅데이터로 새로운 실험을 벌였다. 구글은 2004년부터 지금까지 3000만 권 이상의 책을 디지털화했다. 이는 구텐베르크 이후 출간된 책 네 권 가운데 한 권 꼴이다(2010년 추산 전 세계에는 1억 3천만 권의 책이 있다).
사이버 공간에 세상의 모든 책을 모아 자유롭게 검색하고, 책과 책 사이를 넘나들 수 있게 하자는 것은 구글의 모태가 된 아이디어였다. 1996년 스탠퍼드의 두 대학원생 래리 페이지와 세르게이 브린은 ‘스탠퍼드 디지털 도서관 테크놀로지 프로젝트’를 통해 책들의 세계를 통합하는 미래의 도서관을 구상하고 있었다. 그러나 디지털화된 책이 적었던 당시로서는 실현되기 어려운 일이었고, 결국 그들은 한 텍스트에서 다른 텍스트로 이동하게 해주는 아이디어와 테크놀로지를 작은 검색 엔진으로 전환했다. 이것이 바로 오늘날의 ‘구글’이다.
세상의 모든 책이 모여 있는 거대한 도서관은 구글의 두 설립자만 꾸었던 꿈이 아니다. 고대 이집트의 알렉산드리아 도서관에서부터 보르헤스가 상상한 ‘바벨의 도서관’, 인류의 모든 문화적 생산물을 디지털화하여 공유하는 자발적 활동인 ‘구텐베르크 프로젝트’, 유럽의 48개 공공도서관을 통합 검색할 수 있는 ‘유러피언 라이브러리’, 그리고 더 넓게는 ‘위키피디아’까지 세상의 모든 책, 모든 지식을 한 곳에 모으는 것은 인류의 오랜 꿈이었다. ‘전 세계의 정보를 조직화해 누구나 접근할 수 있는 유용한 것으로 만들겠다’는 구글의 사명에도 이런 생각이 반영되어 있다. 래리 페이지는 2004년 자신의 ‘첫사랑’인 도서관으로 돌아갔고, 그 후로 10년 동안 구글은 이 ‘보편 도서관universal library’의 꿈을 디지털 세계에 실현하기 위해 부지런히 책을 스캔해왔다.
이 책의 저자들은 외부에 쉽게 공개하지 않는 구글 북스의 데이터를 최초로 다룬 인물들로, 이들의 연구는 구글이 구축한 디지털 도서관이 단지 한 기업의 이익만을 위한 것이 아니라 인류의 지적 세계가 진일보하는 데 기여할 수 있다는 것을 보여주었다.
클릭 한 번으로 800만 권의 책을 읽는다면
2010년 12월 16일, 이 책의 두 저자와 스티븐 핑커, 마틴 노왁 등의 하버드 연구진, 구글, 아메리칸 헤리티지 사전, 브리태니커 백과사전의 전문가들이 모여 작성한 「수백만 권의 디지털화된 책들을 이용한 문화의 정량적 분석Quantitative analysis of culture using millions of digitized books」이라는 논문이 『사이언스』의 표지를 장식했다. 그와 동시에 두 저자가 개발한 구글 엔그램 뷰어 웹사이트books.google.com/ngrams가 공개되었다. 이 웹사이트는 24시간 동안 300만 명 이상이 방문하며 전 세계적인 화제가 되었다. 검색창에 단어를 입력하고 클릭 한 번이면, 순식간에 800만 권의 책을 검색해 그려내는 매끄러운 곡선의 그래프. 이는 책 읽기와 인문학 연구, 나아가 세상을 읽는 방식의 변화를 암시하는 매우 의미심장한 그림이었다. 이후 이들의 작업은 그 중요성을 인정받아 과학 전문 저널 『네이처』를 비롯해 『뉴욕 타임스』, 『보스턴 글로브』 등의 주요 매체에 커버 기사로 실리기도 했다.
‘구글 엔그램 뷰어Google Ngram Viewer’는 구글이 디지털화한 책들 가운데 800만 권(『사이언스』 발표 당시엔 500만 권이었으나 2012년 800만 권으로 업데이트됨)을 추려, 그 속의 8000억 개의 단어가 1520~2012년까지 사용된 빈도의 추이를 그래프로 보여주는 프로그램이다. 이 800만 권의 책은 전 세계 모든 책의 6퍼센트에 해당하는 양으로 영어, 프랑스어, 독일어, 스페인어, 중국어, 러시아어, 이탈리아어, 히브리어 등 8개 언어를 포함하고 있다. 저자들은 구글 엔그램 뷰어를 이용해 디지털화된 대량의 텍스트를 정량적으로 분석하는 연구 방법을 ‘컬처로믹스Culturomics’라고 명명했다. 이 용어는 유전체학geonomics에서 따온 것으로 생물학에서 DNA 염기 서열의 대규모 집합이 어떤 패턴을 드러내는 것처럼, 방대한 양의 어휘 데이터도 인간의 문화를 분석하는 데 도움을 줄 수 있다는 생각을 담고 있다.
어휘의 빈도를 통해 역사와 문화를 들여다보겠다는 아이디어는 의미의 해석을 추구해온 인문학에 데이터 과학이라는 방법론을 제안하는 것이다. 클릭 한 번으로 수백만 권의 책을 읽는 기술은 한 사람이 기껏해야 수십, 수백 권의 책을 읽으며 연구하던 방식으로는 발견할 수 없던 사실들을 새롭게 찾아낼 수 있을 것이다.
TED 강연: 500만 권의 책에서 배울 수 있는 것들
www.ted.com/talks/what_we_learned_from_5_million_books
빅데이터로 보는 문화사: 1800~2000
이 책의 부록 ‘빅데이터로 보는 문화사: 1800~2000(253~277쪽)’에 실려 있는 21개 분야, 48개의 그래프는 지난 200년간의 문화사를 문장 하나 없이, 매우 압축적이지만 풍부한 함의를 지닌, 완벽하게 새로운 방식으로 보여주고 있다. 가로축과 세로축 사이를 가르는 두 개의 곡선만으로도 우리는 인간의 역사와 문화에 대해 다양한 추론과 상상을 해볼 수 있다.
19세기 말 니체는 “신은 죽었다”라고 말했다. 정말 그럴까? 구글 엔그램 뷰어를 통해 확인해보자.
(상세 이미지 1번 그래프 참조)
19세기 초 1000단어 당 1회 정도 언급되던 ‘신God’은 19세기 말에 이르러 언급되는 횟수가 절반 이하로 줄었다. 그래도 여전히 적은 횟수는 아니다. 그러나 1973년을 기점으로, 등장한 지 얼마 되지도 않은 ‘데이터data’에게 우위를 내주었으니 한 시대를 지배했던 신으로서는 치욕스러운 일이 아닐 수 없다. 니체의 말을 위의 그래프에 맞게 조금 수정해본다면 “신은 죽지 않았다. 다만 우리에게 데이터보다 덜 중요할 뿐이다.”
‘사회주의socialism’와의 경쟁 끝에 세계를 제패한 ‘자본주의capitalism’, 구글의 800만 권의 책에서도 이를 확인할 수 있을까?
(상세 이미지 2번 그래프 참조)
초반에는 사회주의가 우위를 점했다. 1848년 마르크스와 엥겔스의 『공산당 선언』 출판 이후 점차 상승하기 시작한 사회주의는 1917년 러시아 혁명 직후 소폭 하락했다가 다시 상승세를 이어갔으나 1929년 대공황 무렵 자본주의에 추월당했다. 사람들이 책에서 자본주의에 대해 더 많이 쓰기 시작한 것이다. 그러다가 냉전이 시작되면서 다시 사회주의가 많이 언급되었으나, 1970년대 후반 자본주의가 다시 우세를 띄기 시작했고 1989년 베를린 장벽 붕괴 이후로는 그 간극이 더 벌어져 현재까지 자본주의의 현격한 우세가 지속되고 있다.
이 밖에도 언제부터 사람들은 ‘사랑을 나누는make love’ 대신 ‘섹스를 하기have sex’ 시작했는지, ‘금gold’보다 ‘석유oil’가 중요해졌는지, ‘프랑스France’보다 ‘중국China’에 대해 많이 말하기 시작했는지 등 지난 200년간 인류의 문화가 어떤 시기에 어떤 크기의 변화를 맞게 되었는지를 명쾌하게 확인해볼 수 있다. 더 매력적인 사실은 누구나 구글 엔그램 뷰어 사이트에 접속해 단어 한두 개만 입력하면, 이 거대한 변화를 손쉽게 확인해볼 수 있다는 것이다.
구글 엔그램 뷰어(구글 크롬에서 실행) books.google.com/ngrams
(상세 이미지 3번 그래프 참조)
인문학, 더 커지고 더 빨라진다
‘구글 엔그램 뷰어’가 공개되던 날, 스티븐 핑커는 『뉴욕 타임스』와의 인터뷰에서 이렇게 말했다. “인문학의 한 구석에서는 여전히 정량적 분석에 저항을 보이지만 엔그램 뷰어 및 그와 유사한 도구들이 보편적인 것이 되리라 확신한다.” 스탠퍼드대학교 영문과 교수이자 비교문학 연구자인 프랑코 모레티는 세계문학을 개별 텍스트에 지나치게 의존하기보다는 세계지도 위에서 대량의 텍스트를 놓고 시각화와 양적 분석을 통해 바라봐야 한다며 ‘꼼꼼히 읽기close reading’에서 ‘원거리 읽기distant reading’로의 전환을 주장했다. 이처럼 인문학의 최전선에서는 이와 같은 새로운 방식의 책 읽기와 연구가 한창 진행 중이다.
이 책의 저자들은 앞으로 인문학이 거대과학 스타일의 작업을 할 수 있는 전례 없는 기회를 맞을 것이라고 전망한다. 인류가 오랜 시간 축적해온 역사 기록이 빠른 속도로 디지털화되고 있고, 그 거대한 데이터를 신속하게 분석할 수 있는 기술 또한 눈부시게 발전하고 있다. 인문학과 과학이 만나 우리가 과거에 접근하는 방식, 과거를 관찰하고 이해하는 방식을 바꾸고 있다. 이 책의 원제처럼 ‘누구도 밟지 않은uncharted’ 미지의 영역이 열리고 있는 것이다. “곧 거대 인문학이 일어날 것이다.”
한국어판 특별 좌담 - 빅데이터 전문가와 인문학 연구자의 행복한 만남
그렇다면 우리나라에서는 빅데이터가 어떻게 이해되고, 활용되고 있을까? 빅데이터가 인문학 연구에 가져올 혁명적인 변화와 가능성에 대해 국내 인문학 연구자들은 어느 정도 공감하고 있을까? 사계절출판사에서는 한국 인문학의 빅데이터 활용 현황과 향후 전망을 담기 위해 한국어판 특별 좌담을 마련했다.
이 좌담에는 국내 최고의 빅데이터 전문가인 ㈜다음소프트의 송길영 부사장, 국내 인문학계에서 새로운 문제의식과 다양한 시도로 주목받아온 성균관대학교 국어국문학과의 천정환 교수, 근현대 신문과 잡지의 디지털 데이터의 양적 분석을 통해 개념사 연구의 새 장을 연 한림대학교 한림과학원의 허수 교수가 참여했다. 이 자리에서는 국내 산업계와 공공부문에서 빅데이터가 활용되는 양상, 인문학계의 데이터 구축 현황과 활용 정도, 데이터에 기반한 정량적 분석에 대한 국내 인문학계의 반응, 빅데이터가 인문학계와 사회 전반에 열어줄 가능성과 한계 등 다양한 주제에 관한 깊이 있는 대화가 오갔다. 데이터를 읽는 데 필요한 인문학적 통찰이 강조되는 시대지만, 실제로 빅데이터 전문가와 인문학 연구자가 만나 데이터를 가공하고 해석하는 작업에 대해 구체적인 대화를 나눈 예는 없었다. 이 좌담은 ‘빅데이터=마케팅 툴’이라는 인식에서 벗어나, 역사와 문화를 읽는 데도 빅데이터가 유용한 수단이 될 수 있음을 보여주는 인상적인 계기가 될 것이다.
좌담 이외에도 한국어판에서만 찾아볼 수 있는 특별한 요소가 하나 더 있다. 바로 최근 빅데이터와 짝을 이뤄 급부상한 인포그래픽이다. 인포그래픽은 숫자로 표현하기에도 벅찰 만큼 어마어마한 양의 데이터를 시각적으로 간명하게 전달해야 할 필요성 때문에 주목받게 되었다. 이 책에서도 정보의 직관적 이해를 돕고, 아울러 시각적 즐거움을 주기 위해 각 장의 별면에 인포그래픽을 배치했다. 간결하면서도 유머러스한 6개의 인포그래픽은 인문학과 과학기술이 만나는 지점에서 다소 낯선 메시지를 전하는 이 책을 독자들이 친근하게 받아들일 수 있게 도울 것이라 기대된다.
▣ 작가 소개
저자 : 에레즈 에이든
2010년 하버드와 MIT의 의학·공학 통합 프로그램인 HSTHealth Science and Technology에서 박사학위를 받았다. 그의 학위논문은 새로운 기술의 발명과 수학, 물리학 이론을 통합한 공로를 인정받아 ‘허츠Hertz 논문상’과 ‘미국 물리학회가 주는 최우수 박사학위 논문상’을 수상했다. 2011년에는 동료들과 함께 HI-C라는 신기술로 인간 게놈의 3차원적 구조를 규명해낸 논문이 『사이언스』의 표지를 장식했고, ‘젊은 과학자에게 수여하는 미국 대통령상’을 받았다.
수학, 분자생물학, 언어학, 웨어러블 컴퓨팅, 고분자물리학 등 여러 영역을 넘나들어 ‘과학계의 르네상스인’으로 불리는 그는 2009년 『MIT 테크놀로지 리뷰』에서 “전 세계 35세 이하 혁신가 TOP 35”로 선정되었고, 2010년에는 최고의 학생 발명가에게 주는 레멜슨-MIT 학생상을 수상했다. 수년간 하버드 명예 교우회의 특별 연구원과 구글의 방문 연구원을 지낸 뒤 현재 베일러 의과대학교의 조교수로 재직 중이다.
저자 : 장바티스트 미셸
2011년 『포브스』에서 선정하는 ‘30세 이하의 주목할 만한 30인’으로 뽑혔고, 2012년 전 세계 다양한 분야의 혁신가와 개척자들의 네트워크인 ‘테드 펠로우TED Fellow’로 선정되었다. 2012년 2월 TED에서 강연한 ‘역사의 수학The Mathematics of History’은 수학이 역사의 숨은 패턴을 드러내는 데 매우 유용한 도구가 될 수 있음을 보여주며 100만에 가까운 조회 수를 기록하고 있다.
2005년 프랑스 파리의 에콜 폴리테크니크를 졸업했고, 이후 하버드대학교에서 응용수학으로 석사학위를, 시스템생물학으로 박사학위를 받았다. 세계적 석학 마틴 노왁 하버드대 교수가 이끄는 ‘진화생물학의 기초적인 질문Foundational Questions in Evolutionary Biology’ 프로젝트의 참여 연구원이자 구글의 방문 연구원을 지냈다. 인간의 삶과 밀접한 관련이 있는 현상들을 수량화하는 데 관심이 있는 그는 데이터 과학을 기반으로 한 회사인 ‘Quantified Labs’를 설립해 과학자이자 기업가로 활동하고 있다.
역자 : 김재중
고려대학교 영어영문학과를 졸업하고, 국제정치 석사학위를 받았다. 2001년부터 경향신문 기자로 활동하고 있다. 지은 책으로 『세계 금융위기 이후』(공저), 옮긴 책으로 『당신의 계급 사다리는 안전합니까?』(공역)가 있다.
▣ 주요 목차
chapter 1 빅데이터가 일으킬 인문학 혁명 -8
역사적 변화를 측정하는 현미경이 있다면 | 디지털 지문 | 빅데이터 | 연구자들의 신대륙, 디지털 데이터 | 구글의 야심, 단 하나의 도서관 | 롱데이터 | 더 많은 데이터, 더 많은 문제들 | 컬처로믹스
Episode 1 그림 한 점은 단어 몇 개의 가치와 맞먹을까? -36
chapter 2 데이터 오디세이: 언어는 어떻게 진화하는가 -38
장기적 관점 | 문자언어, 빅데이터의 가장 오래된 조상 | 1937: 데이터 오디세이 | 멱법칙 | 언어 진화의 화석, 불규칙동사 | 2005: 또 다른 데이터 오디세이 | 불규칙동사의 반감기 | 존 하버드의 반들반들한 구두 | 색인은 죽지 않았다 | 장미를 분해해 꽃잎 세기
Episode 2 불규칙동사의 배신 -68
chapter 3 데이터로 사전 만들기 -70
29세 억만장자의 심리학 | 페이지의 페이지들 | 빅데이터와 저작권 문제 | 그림자 데이터 만들기 | 저작권 문제의 돌파구, 엔그램 | 단어란 무엇인가 | 사전편찬, 인간의 오래된 그러나 불완전한 기술 | DIY 사전 | 사전이 발견하지 못한 단어들 | 빅데이터로 보는 언어의 성장과 죽음
Episode 3 baby와 sitter가 만나기까지 -102
chapter 4 사람은 어떻게 유명해지는가 -104
데이터 청소하기 | 스티븐 핑커의 명성을 사다 | 명성은 어떻게 찾아오는가 | 라이트 형제의 바람터널 | 거의 유명하면 충분히 유명하다 | 명성을 질병처럼 다루기 | 명예의 전당 | 더 빨리, 더 많이 유명해지는 만큼 더 빨리 잊힌다 | 어떻게 유명해질 것인가: 직업 선택을 위한 가이드 | 지난 200년 동안 가장 유명한 사람
Episode 4 버즈 올드린을 아십니까? -150
chapter 5 침묵의 소리: 빅데이터가 말하는 억압과 검열의 역사 -152
샤갈의 명성 | 퇴폐 미술전 | 나치의 분서 정책 | 사라진 이름들 | 검열을 자동으로 추적할 수 있을까 | 억압과 검열을 넘어 백만 개의 통로로 스며들다 | 후기
Episode 5 권리는 또 다른 권리를 낳고 - 사상의 번식과 진화 -182
chapter 6 기억과 망각의 속도 -184
기억 실험 | 집단기억과 집단망각에 관한 연구 | 망각곡선 | 오래된 것들의 퇴장, 새로운 것들의 입장 | 큰 아이디어는 천천히 움직인다 | 누가 언제 발명했는가 | 발명품이 널리 확산되기까지 | 사회는 점점 더 빨리 배우고 있다 | 문화를 수량화할 수 있을까 | 데이터가 그리는 아름다운 곡선 | 엔그램 중독자들
Episode 6 화성인들은 화성에서 오지 않았다 -216
chapter 7 유토피아, 디스토피아, 데이터토피아 -220
과거의 디지털-책, 신문, 미출간 원고, 물건들 | 현재의 디지털 | 미래의 디지털 | 디지털 기록의 양면성 | 데이터는 권력이다 | 과학과 인문학, 지평을 공유하다 | 데이터는 사회과학의 오랜 꿈을 실현할 수 있을까
데이터의 우아한 곡선, 인문학을 가로지르다
2007년의 어느 날 하버드의 두 젊은 과학자가
구글이 구축한 디지털 바벨의 도서관으로 걸어 들어갔다
그들은 클릭 한 번으로 800만 권의 책을 검색하는 ‘구글 엔그램 뷰어’를 개발했다
검색창에 단어 하나를 입력하고, 엔터!
데이터가 그리는 아름다운 곡선이 전 세계 인문학계를 발칵 뒤집어놓았다
깜짝 놀랄 만큼 뛰어나고, 사랑스러울 정도로 겸손하며, 무한한 창의력을 지닌 두 젊은 과학자가 아이디어의 세계에서 지난 수십 년간 가장 흥미진진한 발전 가운데 하나를 위풍당당하게 내놓았다. _ 스티븐 핑커(하버드대학교 교수, 『타임』 선정 ‘가장 영향력 있는 100인’)
굉장히 잘된 스토리텔링이다. 무협지 같은 서사가 있다. 이 책이 시금석이 되어 인문학과 기술이 만난다면, 좀 더 높은 수준의 협업이 가능해질 것이다. _ 송길영((주)다음소프트 부사장)
빅데이터가 일으킬 인문학 혁명
오늘날 우리의 일거수일투족은 디지털 기록으로 남는다. 교통카드와 신용카드 사용 내역, 페이스북에서 누른 ‘좋아요’, 구글 검색, 이메일과 문자 메시지, 그리고 이 모든 것을 찍고 있는 CCTV. 이 기록들만으로도 우리의 하루를 재구성할 수 있을 만큼, 현대인은 수없이 많은 디지털 지문과 발자국을 남기며 살고 있다. 뿐만 아니라 도서관이나 박물관에서 잠자고 있던 옛 문헌들, 그림과 지도, 심지어 유물과 유적까지 과거인의 삶도 속속들이 디지털 세계로 진입하고 있다. 짧은 시간에 기하급수적으로 불어나는, 형태도 제각각이고 가치나 질도 제각각인 이 엄청난 양의 디지털 기록, 즉 빅데이터가 바로 인문학이 새롭게 맞닥뜨린 기록의 현장이다. 인간을 이해하기 위해서는 이제 책을 넘어서 데이터를 읽어야 하는 시대가 온 것이다. 디지털 시대의 인문학은 곧 데이터를 읽는 눈이다.
『빅데이터 인문학: 진격의 서막』은 지금까지 인간이 축적해온 기록 유산과는 규모 면에서 비교가 불가능한 어마어마한 양의 디지털 기록, 즉 빅데이터라는 새로운 환경에서 인문학이 맞이하게 될 혁명적인 변화를 보여주는 책이다. 30대 초반의 과학자인 두 저자는 첨단 과학기술이 제공하는 도구를 사용한다면, 인문학이 인간에 관해 지금껏 알지 못했던 새로운 사실들을 밝혀낼 수 있으리라 전망한다. 빅데이터는 그동안 물리적, 기술적 한계 때문에 접근할 수 없었던 많은 영역을 열어젖히며 인문학을 확장해나갈 것이다.
구글의 기원, 세상의 모든 책을 한 곳에!
이미 많은 연구자들이 빅데이터의 가능성에 눈뜨고 상아탑에서 빠져나와 페이스북, 구글, 아마존과 공동 작업을 시작했다. 이 책의 저자 에레즈 에이든과 장바티스트 미셸은 세상의 모든 책을 디지털화하겠다고 선언한 ‘구글 북스 라이브러리 프로젝트Google Books Library Project’의 빅데이터로 새로운 실험을 벌였다. 구글은 2004년부터 지금까지 3000만 권 이상의 책을 디지털화했다. 이는 구텐베르크 이후 출간된 책 네 권 가운데 한 권 꼴이다(2010년 추산 전 세계에는 1억 3천만 권의 책이 있다).
사이버 공간에 세상의 모든 책을 모아 자유롭게 검색하고, 책과 책 사이를 넘나들 수 있게 하자는 것은 구글의 모태가 된 아이디어였다. 1996년 스탠퍼드의 두 대학원생 래리 페이지와 세르게이 브린은 ‘스탠퍼드 디지털 도서관 테크놀로지 프로젝트’를 통해 책들의 세계를 통합하는 미래의 도서관을 구상하고 있었다. 그러나 디지털화된 책이 적었던 당시로서는 실현되기 어려운 일이었고, 결국 그들은 한 텍스트에서 다른 텍스트로 이동하게 해주는 아이디어와 테크놀로지를 작은 검색 엔진으로 전환했다. 이것이 바로 오늘날의 ‘구글’이다.
세상의 모든 책이 모여 있는 거대한 도서관은 구글의 두 설립자만 꾸었던 꿈이 아니다. 고대 이집트의 알렉산드리아 도서관에서부터 보르헤스가 상상한 ‘바벨의 도서관’, 인류의 모든 문화적 생산물을 디지털화하여 공유하는 자발적 활동인 ‘구텐베르크 프로젝트’, 유럽의 48개 공공도서관을 통합 검색할 수 있는 ‘유러피언 라이브러리’, 그리고 더 넓게는 ‘위키피디아’까지 세상의 모든 책, 모든 지식을 한 곳에 모으는 것은 인류의 오랜 꿈이었다. ‘전 세계의 정보를 조직화해 누구나 접근할 수 있는 유용한 것으로 만들겠다’는 구글의 사명에도 이런 생각이 반영되어 있다. 래리 페이지는 2004년 자신의 ‘첫사랑’인 도서관으로 돌아갔고, 그 후로 10년 동안 구글은 이 ‘보편 도서관universal library’의 꿈을 디지털 세계에 실현하기 위해 부지런히 책을 스캔해왔다.
이 책의 저자들은 외부에 쉽게 공개하지 않는 구글 북스의 데이터를 최초로 다룬 인물들로, 이들의 연구는 구글이 구축한 디지털 도서관이 단지 한 기업의 이익만을 위한 것이 아니라 인류의 지적 세계가 진일보하는 데 기여할 수 있다는 것을 보여주었다.
클릭 한 번으로 800만 권의 책을 읽는다면
2010년 12월 16일, 이 책의 두 저자와 스티븐 핑커, 마틴 노왁 등의 하버드 연구진, 구글, 아메리칸 헤리티지 사전, 브리태니커 백과사전의 전문가들이 모여 작성한 「수백만 권의 디지털화된 책들을 이용한 문화의 정량적 분석Quantitative analysis of culture using millions of digitized books」이라는 논문이 『사이언스』의 표지를 장식했다. 그와 동시에 두 저자가 개발한 구글 엔그램 뷰어 웹사이트books.google.com/ngrams가 공개되었다. 이 웹사이트는 24시간 동안 300만 명 이상이 방문하며 전 세계적인 화제가 되었다. 검색창에 단어를 입력하고 클릭 한 번이면, 순식간에 800만 권의 책을 검색해 그려내는 매끄러운 곡선의 그래프. 이는 책 읽기와 인문학 연구, 나아가 세상을 읽는 방식의 변화를 암시하는 매우 의미심장한 그림이었다. 이후 이들의 작업은 그 중요성을 인정받아 과학 전문 저널 『네이처』를 비롯해 『뉴욕 타임스』, 『보스턴 글로브』 등의 주요 매체에 커버 기사로 실리기도 했다.
‘구글 엔그램 뷰어Google Ngram Viewer’는 구글이 디지털화한 책들 가운데 800만 권(『사이언스』 발표 당시엔 500만 권이었으나 2012년 800만 권으로 업데이트됨)을 추려, 그 속의 8000억 개의 단어가 1520~2012년까지 사용된 빈도의 추이를 그래프로 보여주는 프로그램이다. 이 800만 권의 책은 전 세계 모든 책의 6퍼센트에 해당하는 양으로 영어, 프랑스어, 독일어, 스페인어, 중국어, 러시아어, 이탈리아어, 히브리어 등 8개 언어를 포함하고 있다. 저자들은 구글 엔그램 뷰어를 이용해 디지털화된 대량의 텍스트를 정량적으로 분석하는 연구 방법을 ‘컬처로믹스Culturomics’라고 명명했다. 이 용어는 유전체학geonomics에서 따온 것으로 생물학에서 DNA 염기 서열의 대규모 집합이 어떤 패턴을 드러내는 것처럼, 방대한 양의 어휘 데이터도 인간의 문화를 분석하는 데 도움을 줄 수 있다는 생각을 담고 있다.
어휘의 빈도를 통해 역사와 문화를 들여다보겠다는 아이디어는 의미의 해석을 추구해온 인문학에 데이터 과학이라는 방법론을 제안하는 것이다. 클릭 한 번으로 수백만 권의 책을 읽는 기술은 한 사람이 기껏해야 수십, 수백 권의 책을 읽으며 연구하던 방식으로는 발견할 수 없던 사실들을 새롭게 찾아낼 수 있을 것이다.
TED 강연: 500만 권의 책에서 배울 수 있는 것들
www.ted.com/talks/what_we_learned_from_5_million_books
빅데이터로 보는 문화사: 1800~2000
이 책의 부록 ‘빅데이터로 보는 문화사: 1800~2000(253~277쪽)’에 실려 있는 21개 분야, 48개의 그래프는 지난 200년간의 문화사를 문장 하나 없이, 매우 압축적이지만 풍부한 함의를 지닌, 완벽하게 새로운 방식으로 보여주고 있다. 가로축과 세로축 사이를 가르는 두 개의 곡선만으로도 우리는 인간의 역사와 문화에 대해 다양한 추론과 상상을 해볼 수 있다.
19세기 말 니체는 “신은 죽었다”라고 말했다. 정말 그럴까? 구글 엔그램 뷰어를 통해 확인해보자.
(상세 이미지 1번 그래프 참조)
19세기 초 1000단어 당 1회 정도 언급되던 ‘신God’은 19세기 말에 이르러 언급되는 횟수가 절반 이하로 줄었다. 그래도 여전히 적은 횟수는 아니다. 그러나 1973년을 기점으로, 등장한 지 얼마 되지도 않은 ‘데이터data’에게 우위를 내주었으니 한 시대를 지배했던 신으로서는 치욕스러운 일이 아닐 수 없다. 니체의 말을 위의 그래프에 맞게 조금 수정해본다면 “신은 죽지 않았다. 다만 우리에게 데이터보다 덜 중요할 뿐이다.”
‘사회주의socialism’와의 경쟁 끝에 세계를 제패한 ‘자본주의capitalism’, 구글의 800만 권의 책에서도 이를 확인할 수 있을까?
(상세 이미지 2번 그래프 참조)
초반에는 사회주의가 우위를 점했다. 1848년 마르크스와 엥겔스의 『공산당 선언』 출판 이후 점차 상승하기 시작한 사회주의는 1917년 러시아 혁명 직후 소폭 하락했다가 다시 상승세를 이어갔으나 1929년 대공황 무렵 자본주의에 추월당했다. 사람들이 책에서 자본주의에 대해 더 많이 쓰기 시작한 것이다. 그러다가 냉전이 시작되면서 다시 사회주의가 많이 언급되었으나, 1970년대 후반 자본주의가 다시 우세를 띄기 시작했고 1989년 베를린 장벽 붕괴 이후로는 그 간극이 더 벌어져 현재까지 자본주의의 현격한 우세가 지속되고 있다.
이 밖에도 언제부터 사람들은 ‘사랑을 나누는make love’ 대신 ‘섹스를 하기have sex’ 시작했는지, ‘금gold’보다 ‘석유oil’가 중요해졌는지, ‘프랑스France’보다 ‘중국China’에 대해 많이 말하기 시작했는지 등 지난 200년간 인류의 문화가 어떤 시기에 어떤 크기의 변화를 맞게 되었는지를 명쾌하게 확인해볼 수 있다. 더 매력적인 사실은 누구나 구글 엔그램 뷰어 사이트에 접속해 단어 한두 개만 입력하면, 이 거대한 변화를 손쉽게 확인해볼 수 있다는 것이다.
구글 엔그램 뷰어(구글 크롬에서 실행) books.google.com/ngrams
(상세 이미지 3번 그래프 참조)
인문학, 더 커지고 더 빨라진다
‘구글 엔그램 뷰어’가 공개되던 날, 스티븐 핑커는 『뉴욕 타임스』와의 인터뷰에서 이렇게 말했다. “인문학의 한 구석에서는 여전히 정량적 분석에 저항을 보이지만 엔그램 뷰어 및 그와 유사한 도구들이 보편적인 것이 되리라 확신한다.” 스탠퍼드대학교 영문과 교수이자 비교문학 연구자인 프랑코 모레티는 세계문학을 개별 텍스트에 지나치게 의존하기보다는 세계지도 위에서 대량의 텍스트를 놓고 시각화와 양적 분석을 통해 바라봐야 한다며 ‘꼼꼼히 읽기close reading’에서 ‘원거리 읽기distant reading’로의 전환을 주장했다. 이처럼 인문학의 최전선에서는 이와 같은 새로운 방식의 책 읽기와 연구가 한창 진행 중이다.
이 책의 저자들은 앞으로 인문학이 거대과학 스타일의 작업을 할 수 있는 전례 없는 기회를 맞을 것이라고 전망한다. 인류가 오랜 시간 축적해온 역사 기록이 빠른 속도로 디지털화되고 있고, 그 거대한 데이터를 신속하게 분석할 수 있는 기술 또한 눈부시게 발전하고 있다. 인문학과 과학이 만나 우리가 과거에 접근하는 방식, 과거를 관찰하고 이해하는 방식을 바꾸고 있다. 이 책의 원제처럼 ‘누구도 밟지 않은uncharted’ 미지의 영역이 열리고 있는 것이다. “곧 거대 인문학이 일어날 것이다.”
한국어판 특별 좌담 - 빅데이터 전문가와 인문학 연구자의 행복한 만남
그렇다면 우리나라에서는 빅데이터가 어떻게 이해되고, 활용되고 있을까? 빅데이터가 인문학 연구에 가져올 혁명적인 변화와 가능성에 대해 국내 인문학 연구자들은 어느 정도 공감하고 있을까? 사계절출판사에서는 한국 인문학의 빅데이터 활용 현황과 향후 전망을 담기 위해 한국어판 특별 좌담을 마련했다.
이 좌담에는 국내 최고의 빅데이터 전문가인 ㈜다음소프트의 송길영 부사장, 국내 인문학계에서 새로운 문제의식과 다양한 시도로 주목받아온 성균관대학교 국어국문학과의 천정환 교수, 근현대 신문과 잡지의 디지털 데이터의 양적 분석을 통해 개념사 연구의 새 장을 연 한림대학교 한림과학원의 허수 교수가 참여했다. 이 자리에서는 국내 산업계와 공공부문에서 빅데이터가 활용되는 양상, 인문학계의 데이터 구축 현황과 활용 정도, 데이터에 기반한 정량적 분석에 대한 국내 인문학계의 반응, 빅데이터가 인문학계와 사회 전반에 열어줄 가능성과 한계 등 다양한 주제에 관한 깊이 있는 대화가 오갔다. 데이터를 읽는 데 필요한 인문학적 통찰이 강조되는 시대지만, 실제로 빅데이터 전문가와 인문학 연구자가 만나 데이터를 가공하고 해석하는 작업에 대해 구체적인 대화를 나눈 예는 없었다. 이 좌담은 ‘빅데이터=마케팅 툴’이라는 인식에서 벗어나, 역사와 문화를 읽는 데도 빅데이터가 유용한 수단이 될 수 있음을 보여주는 인상적인 계기가 될 것이다.
좌담 이외에도 한국어판에서만 찾아볼 수 있는 특별한 요소가 하나 더 있다. 바로 최근 빅데이터와 짝을 이뤄 급부상한 인포그래픽이다. 인포그래픽은 숫자로 표현하기에도 벅찰 만큼 어마어마한 양의 데이터를 시각적으로 간명하게 전달해야 할 필요성 때문에 주목받게 되었다. 이 책에서도 정보의 직관적 이해를 돕고, 아울러 시각적 즐거움을 주기 위해 각 장의 별면에 인포그래픽을 배치했다. 간결하면서도 유머러스한 6개의 인포그래픽은 인문학과 과학기술이 만나는 지점에서 다소 낯선 메시지를 전하는 이 책을 독자들이 친근하게 받아들일 수 있게 도울 것이라 기대된다.
▣ 작가 소개
저자 : 에레즈 에이든
2010년 하버드와 MIT의 의학·공학 통합 프로그램인 HSTHealth Science and Technology에서 박사학위를 받았다. 그의 학위논문은 새로운 기술의 발명과 수학, 물리학 이론을 통합한 공로를 인정받아 ‘허츠Hertz 논문상’과 ‘미국 물리학회가 주는 최우수 박사학위 논문상’을 수상했다. 2011년에는 동료들과 함께 HI-C라는 신기술로 인간 게놈의 3차원적 구조를 규명해낸 논문이 『사이언스』의 표지를 장식했고, ‘젊은 과학자에게 수여하는 미국 대통령상’을 받았다.
수학, 분자생물학, 언어학, 웨어러블 컴퓨팅, 고분자물리학 등 여러 영역을 넘나들어 ‘과학계의 르네상스인’으로 불리는 그는 2009년 『MIT 테크놀로지 리뷰』에서 “전 세계 35세 이하 혁신가 TOP 35”로 선정되었고, 2010년에는 최고의 학생 발명가에게 주는 레멜슨-MIT 학생상을 수상했다. 수년간 하버드 명예 교우회의 특별 연구원과 구글의 방문 연구원을 지낸 뒤 현재 베일러 의과대학교의 조교수로 재직 중이다.
저자 : 장바티스트 미셸
2011년 『포브스』에서 선정하는 ‘30세 이하의 주목할 만한 30인’으로 뽑혔고, 2012년 전 세계 다양한 분야의 혁신가와 개척자들의 네트워크인 ‘테드 펠로우TED Fellow’로 선정되었다. 2012년 2월 TED에서 강연한 ‘역사의 수학The Mathematics of History’은 수학이 역사의 숨은 패턴을 드러내는 데 매우 유용한 도구가 될 수 있음을 보여주며 100만에 가까운 조회 수를 기록하고 있다.
2005년 프랑스 파리의 에콜 폴리테크니크를 졸업했고, 이후 하버드대학교에서 응용수학으로 석사학위를, 시스템생물학으로 박사학위를 받았다. 세계적 석학 마틴 노왁 하버드대 교수가 이끄는 ‘진화생물학의 기초적인 질문Foundational Questions in Evolutionary Biology’ 프로젝트의 참여 연구원이자 구글의 방문 연구원을 지냈다. 인간의 삶과 밀접한 관련이 있는 현상들을 수량화하는 데 관심이 있는 그는 데이터 과학을 기반으로 한 회사인 ‘Quantified Labs’를 설립해 과학자이자 기업가로 활동하고 있다.
역자 : 김재중
고려대학교 영어영문학과를 졸업하고, 국제정치 석사학위를 받았다. 2001년부터 경향신문 기자로 활동하고 있다. 지은 책으로 『세계 금융위기 이후』(공저), 옮긴 책으로 『당신의 계급 사다리는 안전합니까?』(공역)가 있다.
▣ 주요 목차
chapter 1 빅데이터가 일으킬 인문학 혁명 -8
역사적 변화를 측정하는 현미경이 있다면 | 디지털 지문 | 빅데이터 | 연구자들의 신대륙, 디지털 데이터 | 구글의 야심, 단 하나의 도서관 | 롱데이터 | 더 많은 데이터, 더 많은 문제들 | 컬처로믹스
Episode 1 그림 한 점은 단어 몇 개의 가치와 맞먹을까? -36
chapter 2 데이터 오디세이: 언어는 어떻게 진화하는가 -38
장기적 관점 | 문자언어, 빅데이터의 가장 오래된 조상 | 1937: 데이터 오디세이 | 멱법칙 | 언어 진화의 화석, 불규칙동사 | 2005: 또 다른 데이터 오디세이 | 불규칙동사의 반감기 | 존 하버드의 반들반들한 구두 | 색인은 죽지 않았다 | 장미를 분해해 꽃잎 세기
Episode 2 불규칙동사의 배신 -68
chapter 3 데이터로 사전 만들기 -70
29세 억만장자의 심리학 | 페이지의 페이지들 | 빅데이터와 저작권 문제 | 그림자 데이터 만들기 | 저작권 문제의 돌파구, 엔그램 | 단어란 무엇인가 | 사전편찬, 인간의 오래된 그러나 불완전한 기술 | DIY 사전 | 사전이 발견하지 못한 단어들 | 빅데이터로 보는 언어의 성장과 죽음
Episode 3 baby와 sitter가 만나기까지 -102
chapter 4 사람은 어떻게 유명해지는가 -104
데이터 청소하기 | 스티븐 핑커의 명성을 사다 | 명성은 어떻게 찾아오는가 | 라이트 형제의 바람터널 | 거의 유명하면 충분히 유명하다 | 명성을 질병처럼 다루기 | 명예의 전당 | 더 빨리, 더 많이 유명해지는 만큼 더 빨리 잊힌다 | 어떻게 유명해질 것인가: 직업 선택을 위한 가이드 | 지난 200년 동안 가장 유명한 사람
Episode 4 버즈 올드린을 아십니까? -150
chapter 5 침묵의 소리: 빅데이터가 말하는 억압과 검열의 역사 -152
샤갈의 명성 | 퇴폐 미술전 | 나치의 분서 정책 | 사라진 이름들 | 검열을 자동으로 추적할 수 있을까 | 억압과 검열을 넘어 백만 개의 통로로 스며들다 | 후기
Episode 5 권리는 또 다른 권리를 낳고 - 사상의 번식과 진화 -182
chapter 6 기억과 망각의 속도 -184
기억 실험 | 집단기억과 집단망각에 관한 연구 | 망각곡선 | 오래된 것들의 퇴장, 새로운 것들의 입장 | 큰 아이디어는 천천히 움직인다 | 누가 언제 발명했는가 | 발명품이 널리 확산되기까지 | 사회는 점점 더 빨리 배우고 있다 | 문화를 수량화할 수 있을까 | 데이터가 그리는 아름다운 곡선 | 엔그램 중독자들
Episode 6 화성인들은 화성에서 오지 않았다 -216
chapter 7 유토피아, 디스토피아, 데이터토피아 -220
과거의 디지털-책, 신문, 미출간 원고, 물건들 | 현재의 디지털 | 미래의 디지털 | 디지털 기록의 양면성 | 데이터는 권력이다 | 과학과 인문학, 지평을 공유하다 | 데이터는 사회과학의 오랜 꿈을 실현할 수 있을까
01. 반품기한
- 단순 변심인 경우 : 상품 수령 후 7일 이내 신청
- 상품 불량/오배송인 경우 : 상품 수령 후 3개월 이내, 혹은 그 사실을 알게 된 이후 30일 이내 반품 신청 가능
02. 반품 배송비
| 반품사유 | 반품 배송비 부담자 |
|---|---|
| 단순변심 | 고객 부담이며, 최초 배송비를 포함해 왕복 배송비가 발생합니다. 또한, 도서/산간지역이거나 설치 상품을 반품하는 경우에는 배송비가 추가될 수 있습니다. |
| 고객 부담이 아닙니다. |
03. 배송상태에 따른 환불안내
| 진행 상태 | 결제완료 | 상품준비중 | 배송지시/배송중/배송완료 |
|---|---|---|---|
| 어떤 상태 | 주문 내역 확인 전 | 상품 발송 준비 중 | 상품이 택배사로 이미 발송 됨 |
| 환불 | 즉시환불 | 구매취소 의사전달 → 발송중지 → 환불 | 반품회수 → 반품상품 확인 → 환불 |
04. 취소방법
- 결제완료 또는 배송상품은 1:1 문의에 취소신청해 주셔야 합니다.
- 특정 상품의 경우 취소 수수료가 부과될 수 있습니다.
05. 환불시점
| 결제수단 | 환불시점 | 환불방법 |
|---|---|---|
| 신용카드 | 취소완료 후, 3~5일 내 카드사 승인취소(영업일 기준) | 신용카드 승인취소 |
| 계좌이체 |
실시간 계좌이체 또는 무통장입금 취소완료 후, 입력하신 환불계좌로 1~2일 내 환불금액 입금(영업일 기준) |
계좌입금 |
| 휴대폰 결제 |
당일 구매내역 취소시 취소 완료 후, 6시간 이내 승인취소 전월 구매내역 취소시 취소 완료 후, 1~2일 내 환불계좌로 입금(영업일 기준) |
당일취소 : 휴대폰 결제 승인취소 익월취소 : 계좌입금 |
| 포인트 | 취소 완료 후, 당일 포인트 적립 | 환불 포인트 적립 |
06. 취소반품 불가 사유
- 단순변심으로 인한 반품 시, 배송 완료 후 7일이 지나면 취소/반품 신청이 접수되지 않습니다.
- 주문/제작 상품의 경우, 상품의 제작이 이미 진행된 경우에는 취소가 불가합니다.
- 구성품을 분실하였거나 취급 부주의로 인한 파손/고장/오염된 경우에는 취소/반품이 제한됩니다.
- 제조사의 사정 (신모델 출시 등) 및 부품 가격변동 등에 의해 가격이 변동될 수 있으며, 이로 인한 반품 및 가격보상은 불가합니다.
- 뷰티 상품 이용 시 트러블(알러지, 붉은 반점, 가려움, 따가움)이 발생하는 경우 진료 확인서 및 소견서 등을 증빙하면 환불이 가능하지만 이 경우, 제반 비용은 고객님께서 부담하셔야 합니다.
- 각 상품별로 아래와 같은 사유로 취소/반품이 제한 될 수 있습니다.
| 상품군 | 취소/반품 불가사유 |
|---|---|
| 의류/잡화/수입명품 | 상품의 택(TAG) 제거/라벨 및 상품 훼손으로 상품의 가치가 현저히 감소된 경우 |
| 계절상품/식품/화장품 | 고객님의 사용, 시간경과, 일부 소비에 의하여 상품의 가치가 현저히 감소한 경우 |
| 가전/설치상품 | 전자제품 특성 상, 정품 스티커가 제거되었거나 설치 또는 사용 이후에 단순변심인 경우, 액정화면이 부착된 상품의 전원을 켠 경우 (상품불량으로 인한 교환/반품은 AS센터의 불량 판정을 받아야 합니다.) |
| 자동차용품 | 상품을 개봉하여 장착한 이후 단순변심의 경우 |
| CD/DVD/GAME/BOOK등 | 복제가 가능한 상품의 포장 등을 훼손한 경우 |
| 상품의 시리얼 넘버 유출로 내장된 소프트웨어의 가치가 감소한 경우 | |
| 노트북, 테스크탑 PC 등 | 홀로그램 등을 분리, 분실, 훼손하여 상품의 가치가 현저히 감소하여 재판매가 불가할 경우 |










