SCIENCE LIFE

빅 데이터가 만들어가는 미래 세상

페이지 정보

본문

미래 예측하고, 문제점 해결하는 ‘도깨비방망이’인가


글 | 강영옥 교수( 이화여자대학교)


최근 들어 가장 이슈가 되고 있는 것이 빅데이터(Big Date) 기술이다. 빅데이터란 기존의 분석도구 및 관리체계로는 감당할 수 없는 엄청난 양의 데이터를 말한다. 특히 디지털 환경에서 생성되는 데이터로 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터뿐 아니라 문자와 영상까지 포함한다. 이처럼 엄청나게 생성되는 데이터를 기업이나 정부는 기존의 체계 및 관리 방법으로 관리할 수 없다고 판단하였으며, 이러한 빅데이터를 어떻게 관리하고 다룰 수 있을지 현재 많은 논의가 이루어지고 있다.


새로운 디지털 기기의 등장과 함께 규모를 가늠할 수 없는 방대한 데이터가 생산되면서 이를 활용하고자 하는 관심이 높아졌다. 다양하고 방대한 규모의 데이터를 분석하여 가치 있는 의미를 찾아내는 것이 새로운 ‘자원’으로 인식되기 시작했으며, 기술의 발달로 이전에는 불가능했던 많은 것들이 가능해지고 있다.


빅데이터는 글자 그대로 크고, 방대한(Big) 자료(Data)를 의미하며, 위키피디아에 따르면 “기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 세트 및 데이터로부터 가치를 추출하고 결과를 분석하는 기술”을 의미한다고 정의하고 있다. 빅데이터의 특징은 크게 3가지 V로 설명하는데, 데이터의 규모(Volume), 데이터의 생성 주기(Velocity), 데이터의 다양성(Variety)으로 언급하고 있다. 소셜 서비스의 이용과 스마트폰의 보급으로 데이터는 과거에 비해 더 방대하게 늘어나고, 더 다양한 형태를 가지며, 실시간에 가까운 속도로 생성되고 있는데, 빅데이터 분석 기술들이 발달하면서 이러한 빅데이터를 저장하고 분석하는 것이 가능해 지고 있다.


빅데이타가 만들어지는 근간은 바로 SNS(소셜네트워크)


빅데이타를 이용한 분석은 민간영역에서 마케팅의 일환으로 적극적으로 활용되고 있다. 예를 들면 ZARA라는 글로벌 패션브랜드는 전 세계 매장의 판매데이터를 활용하여 글로벌 트렌드의 실시간 탐지 및 상품 유통 프로세스 개선에 활용하고 있다. 아마존은 소비자 기호 및 구매 패턴을 분석하여 개인의 취향에 맞는 물건을 추천한다. 월마트의 경우 판매지역에 따른 고객 선호도를 파악하고 수요에 따라 물류를 조절하거나 재고를 예측하고 있다. 이 외에도 공공부분에서 빅데이타를 활용한 사례는 다양하다.


빅데이타가 만들어지는 자료원은 여러 가지이나 가장 대표적인 것이 소셜네트워크서비스 (SNS : Social Network Service)에서 만들어 지는 정보라 할 수 있다. SNS의 데이터는 그 양이 하루에도 엄청나게 생산되지만, 언뜻 보면 가치 있는 내용을 찾기란 힘들다. 그럼에도 불구하고 SNS 데이터로부터 숨겨진 패턴을 찾으려고 하는 많은 연구가 진행되고 있는데 이는 SNS 분석을 통해 의미 있는 결과를 끌어낼 수 있는 잠재력이 있기 때문이다. 해외의 많은 연구들이 SNS분석을 통해 경향을 파악하고, 패턴을 찾아냄으로써 SNS 데이터가 실세계를 반영하고 있다는 것을 증명해보이고 있다. SNS의 경우 사람들은 일반적인 설문조사보다 본인의 일상에 대해 더 솔직하게 토로하는 경향이 있다. 블로그 등을 통해 자신의 글을 올리거나 트위터 등을 통해 개개인의 소소한 일상이나 평소 머릿속에서 떠오르는 생각이나 느낌, 감정, 소식 등을 공유하거나 기타 정보들을 실시간으로 교류하게 된다. 따라서 이러한 기록들은 그 사람의 관심사와 느낌을 파악할 수 있게 한다.


SNS의 한 유형인 트위터의 경우 재해, 재난 정보 또는 위기 상황 감지와 관련하여 공공부분 활용의 가능성을 검증한 연구들이 다수 진행되고 있다. 실제로 중동 지역의‘아랍의 봄’혁명이나, 일본의 대지진 발생 시 기존의 미디어보다 트위터를 통해 관련 정보가 빠르게 전파되었음을 분석하였다. 구글은 감기 관련 검색어의 지역 분포를 통해 보건당국보다 먼저 감기의 전파를 예측할 수 있음을 제시하였다. 구글 검색 사이트에서 감기 증상과 관련하여 검색한 검색어의 빈도와 IP주소를 통해 위치 정보를 표시하여 독감 바이러스의 확산 정보를 미국 보건 당국보다 앞서 제공할 수 있었다.


좋은 세상 구현 위해 가능성 열어가는 빅데이터 기술


이외에도 트위터에서 독감 관련 증상을 언급한 사람들의 트윗 분포가 실제 보건당국의 통계와 상관있음을 분석한 연구, 트위터 분석을 통해 건강 관련 이슈의 관심과 전염병의 전파 경로를 파악한 연구 등이 있다. 트위터 연구가 주목받는 또 다른 분야로는 정치 부분을 들 수 있는데 선거 예측과 관련된 트위터 분석이 많이 진행되었다. 후보의 이름이 언급된 트윗의 수치를 비교하여 지역별로 후보에 대한 관심도를 파악한 연구로 부터 실제 선거 결과와의 상관성을 비교한 연구, 후보자들의 토론방송 동안 발생한 트윗이 포함하는 단어를 추출하여 여론의 반응을 살핀 연구 등이 있었다. 트위터 이용자들이 올린 일상 생활에 대한 기록을 통해 사람들의 행동 패턴을 발견하고자 하는 연구들도 있는데, 영국에서 발생한 트윗 내용 분석을 통해 시간대별 이용자의 기분 패턴을 분석한 연구, 트위터에 나타나는 대중의 기분을 감지하여 주가를 예측하는 연구 등도 있다.(Bollen, Mao and Zeng (2011)



이처럼 트위터 등 SNS데이터를 이용하여 재해 감지나 이슈를 탐지하는데 활용하는 연구로 부터 정치, 보건, 현재의 이슈 등 이용자의 관심을 파악하고자 하는 연구, 개인의 이동 패턴을 파악하고자 하는 연구 등이 이루어지고 있다. 국내에서도 한국정보화진흥원 (2012)에서 SNS데이터를 활용하여 사회 현안을 파악하고 정책적 함의를 찾고자 ‘청소년 자살, 영유아 보육정책, 청년 일자리’의 3가지 주제에 대한 연구를 진행한 바 있다.


2001년 한국의 자살사망률은 인구 10만 명당 17.3명이었으며, 2011년에는 31.7명으로 전 세계적으로 매우 높은 편이며, 특히 10대의 사망 원인 1위가 자살로 분석되고 있다. 이 연구에서는 2012년 1월 1일∼10월 18일까지 자살이 언급된 50만 6,766건을 뉴스, 블로그, 카페, SNS, 게시판에서 찾았다. 이 중에서 청소년이 작성했다고 추정되는 키워드를 중심으로 6만9,886건을 다시 추렸다. 분석 결과 청소년이 자살을 긍정적으로 생각하는 특징이 보였다. 인터넷에 올린 글의 감정표현을 분석했더니 ‘문제가 해결된다’, ‘자유롭다’, ‘행복해진다’ 등의 긍정적 내용이 45%였으며, 트위터를 기준으로 보면 주말이 끝난 월요일부터가 위험한 것으로 분석되었다. 전문가들은 청소년의 심리 상태와 행동 방식을 토대로 민관이 함께 운용하는 자살예방체계를 구축하며, 자살상담센터의 인력을 청소년이 가장 많이 고민하는 시간대에 집중 배치할 필요가 있으며, 빅데이터 분석 결과를 토대로 자살과 관련된 글을 위험정도에 따라 분류하는 알고리즘을 만들어 인터넷에 위험한 글이 올라왔을 때, 상담기관이 바로 알고 대응하는 시스템을 만들 필요가 있다고 제안하였다.


이와 같이 빅데이타는 민간부분의 다양한 마케팅 영역뿐 아니라 공공의 업무효율, 그리고 보다 나은 사회구현을 위해 다양한 활용가능성을 열고 있다. 그러나 빅 데이터 분석은 여러 첨단 기술들이 통합 적용되어야 하는 매우 복잡하고, 섬세한 작업으로 대규모 데이터의 실시간 처리를 위한 클라우드 컴퓨팅 기술, 자연언어처리, 텍스트마이닝, 기계학습, 시맨틱 기술과 같은 인공지능 기술이 폭넓게 활용되기 때문에 관련분야의 연구가 보다 심도있게 진행되어야 하며, 관련분야의 융합연구 또한 심도있게 진행되어야 하는 분야이다.


글 | 강영옥 교수( 이화여자대학교)
강영옥 교수는 이화여자대학교에서 학사와 석사과정을 마치고, 미국 오하이오 주립대학교에서 도시지리를 전공하여 박사학위를 받았다. 서울시정개발연구원 연구위원을 거쳐, 현재 이화여대 시범대학 사회과교육과 교수로 재직하고 있다. 한국지도학회 회장과 한국공간정보학회에서 부회장 및 편집위원장을 맡고 있다.