내일은 비가 올까? 간밤에 사람이 많았던 장소는 홍대일까, 목동일까? 우리는 이런 시시콜콜한 정보로도 미래를 예측할 수 있게 됐다. 거대한 자료의 집합, ‘빅데이터’ 덕분이다. 심야시간 유동인구부터 차기 대통령까지 예측하는 빅데이터. 이에 부대신문은 이 거대한 자료 집합에 주목하여 빅데이터의 활용에 대해 알아봤다. -편집자 주

얼마 전 경영학과 학생에게서 빅데이터를 공부하는 방법에 대해 문의를 받았다. 그 학생의 고민은‘ 최근 빅데이터에 관한 관심이 생겨 관련 분야에 대해 공부해보고 싶으나 어떻게 해야 하는지 막연하다’는 것이었다. 경영 마케팅 분야에서 빅데이터를 사용하면 기업 내·외부에 쌓여있는 수많은 정형 비정형 데이터를 분석하여 변화 예측을 할 수 있고, 의사결정에 필요한 가치 있는 지식을 구할 수 있다.

▲ 일러스트=신희연

빅데이터란 무엇인가

빅데이터(Big Data)란 일반적으로 데이터베이스(DB) 소프트웨어로 분석할 수 있는 범위를 넘어선 대규모 데이터로서, 종류도 다양하고 복잡한 정형 비정형 데이터가 엄청나게 빠른 속도로 생성되는 특징이 있다. 빅데이터는 대략 1000 페타(Peta) 바이트 이상의 거대한 자료 집합을 말한다. 1테라 바이트는 영화 한 편이 1기가 바이트라고 할 때 영화 1000편의 용량으로, 1페타 바이트는 무려 영화 100만 편에 해당하는 엄청난 데이터 양이다.

데이터를 통계적으로 분석하기 위한 방법들은 이미 많이 나와 있다. 그렇다면 기존에 존재하는 통계 분석 기법들을 빅데이터에 적용하면 변화 추세도 분석하고, 미래도 예측할 수 있지 않느냐? 정답은“ 아니다”이다. 빅데이터를 처리하기 위한 도구를 활용해야 한다. 대표적인 도구로 하둡(Hadoop), R 등이있다.

그렇다면 지금 이 시점에서 빅데이터가 폭발적인 관심을 끌고 있는 이유는 무엇인가? 지금까지 쌓아두지 않고 버렸던 데이터들을 모아 분석하면, 전에는 가능하지 않았던 변화 추세를 분석하고 미래를 예측할 수 있다. 때문에 새로운 비지니스 가치를 창출할 수 있게 되면서 빅데이터에 대한 관심이 높아지고 있는 것이다. 빅데이터에 대한 관심이 높아지면서 빅데이터 전문가 또한 새로운 유망 직종으로 각광을 받고 있다.

과거의 데이터로 미래를 예측하다

과연 빅데이터 처리와 분석은 무엇을 하길래 큰 주목을 받는가? 대표적인 사례로는 ‘구글의 독감 예보’를 들 수 있다. 구글은 미국 보건 당국보다 더 빠르고 정확하게 예측했다. 빅데이터 분석을 활용한 기업의 마케팅 서비스는 기업 운영의 새로운 패러다임으로 자리 잡고 있다. 아마존, 이베이와 같은 인터넷 쇼핑몰, 포털 사이트는 방문자들의 이용 또는 정보 조회 패턴을 분석해 개별 사용자에게 맞는 상품이나 정보를 추천하는 맞춤형 서비스를 제공하고 있다. 자동차 업계에서는 자동차 운행 기록과 운전자의 운전 패턴 정보를 수집하여 운전자의 운전 습관 및 심리를 분석했다. 이후 사고 위험이 높은 도로 구간을 찾아내, 급 브레이크를 밟거나 과속하는 지점을 분석하여 연료 낭비를 줄이고, 사고 위험도 를 낮추기 위한 서비스를 제공한다. 이처럼 빅데이터 활용 분야는 사회 전 분야에 걸쳐 무궁무진하다.

국내 빅데이터 도입의 좋은 예로는 서울시의 심야버스 노선 조정이 있다. 서울시는 서울 지역의 심야에 가장 많은 유동인구가 있는 곳은 홍대 입구이며 이들 중 상당수는 목동에서 온다는 유동인구통계를 바탕으로 심야버스 노선을 조정했다. 유동인구 통계는 서울 전역을 1km 반경의 육각형 모양의 셀 단위로 구획화 했다. 이후 약 30억 건의 핸드폰 통화량의 유동인구, 교통 수요량을 셀에 표시하고 노선, 시간, 요일별 패턴을 분석해 지역별 시간별 통계를 산출하는 것이다. 도로 교통 운전자는 실시간 교통 정보에 만족하지 않고, 지·정체가 발생하면 언제 풀리는지, 목표 지점까지 소요 시간이 1시간 뒤에 3시간 뒤에 얼마나 걸릴 것인지를 예측해 주길 원하고 있다. 이러한 지·정체 분석은 과거 교통 이력 정보를 분석하면 해답을 찾을 수 있다.

▲ 빅데이터 처리 과정

데이터 분석 도구를 이용하여 과거 교통 지·정체의 패턴을 저장하고, 현재의 패턴을 비교하면 지·정체가 언제 풀릴 것인지를 판별할 수 있다. 만약 지·정체가 풀린다면 몇분 후에 풀릴 것인가를 과거 지·정체 패턴과 비교 분석하여 답을 찾을 수 있다. 이러한 문제는 수집된 과거 교통 지·정체 데이터들을 모두 하둡의 저장소인‘ 하둡의 분산파일시스템’에 저장하고 그것들을 시공간의 그래프로 저장된다. 그리고 실시간으로 들어오는 지·정체 데이터도 시·공간 그래프로 표현돼, 두 그래프 사이의 영역 크기, 기울기 변화 등을 비교하여 가장 유사한 패턴을 추출해 그 구간에서의 정체 해소 시간을 알려 준다.

그리고 기상청의 날씨 쾌청 지수처럼 교통혼잡도나 소통 또한 수치로 분석할 수 있다. 부산의 교차로, 도로, 각 자치구 중에서 가장 혼잡한 곳이 어디이며, 요일별지역별 혼잡도도 계산할 수 있다. 그리고 이러한 교통 혼잡도는 주정차 위반 단속과 어떤 상관관계가 있는지 분석하여 효율적인 단속 계획을 수립할 수 있다. 다시 말하면 빅데이터 분석은 데이터 기반의 과학적 행정을 수립하는데 매우 유용하다. 여기에다 교통에 관한 소셜 네트워크 서비스 데이터를 통합 및 분석하면, 시민들의 가장 큰 불만이 있는 교통 혼잡 지역을 파악할 수 있다. 이는 교차로 신호 주기 개선, 가변 차선제 도입, 차선 확장과 같은 데이터 기반 교통 정책을 수립하는데 도움을 준다.

교통 빅데이터 분석의 또 다른 응용으로 물류 배송 차량을 위한 출발 시간 추천, 도로 변에 설치하는 광고판, 상점의 입지 분석 등은 좋은 본보기다. 최근 크나큰 사회적 문제로 대두되고 있는 조류 독감의 예측, 수산물 먹거리 보장을 위한 방사능기름유출의 피해분석과 비브리오 패혈증 예측, 부산대학교 관련 모든 소셜 네트워크 서비스 데이터 분석에 의한 평판도 예측, 부산대학교 관련 홈페이지 방문 기록과 포털 사이트의 검색어 분석에 의한 신입생 자원의 변화 분석이 가능하다. 이상과 같이 무궁무진한 빅데이터 활용을 위해 꼭 필요한 것이 빅데이터 전문가다.

미래의 유망직종 빅데이터 전문가

빅데이터 전문가, 즉 데이터 분석가 또는 데이터 과학자는 기존의 수많은 데이터를 수집하고 분석하여 새로운 가치를 찾아내는 직업이다. 데이터 과학자는 대량의 데이터에 대한 통계학적 분석, 그리고 데이터로부터 새로운 지식을 뽑아내는 창의적인 아이디어를 갖고 변화 분석 및 예측을 시각적으로 가시화 방안을 만드는 전문가를 말한다. 데이터 과학자란 데이터를 이해하는 통찰력과 데이터 분석 결과를 통하여 복잡한 것을 간단하게 보여줄 수 있는, 가시적인 방안까지 창의적으로 생각하는 새로운 유형의 유망 직종이다.

빅데이터 전문가가 되려면 무엇을 공부해야 하나? IT 전공이 아니더라도 빅데이터 전문가가 되는 것이 가능한 것인가? 데이터 과학자가 갖춰야 하는 역량은 무엇인가? 가장 중요한 것은 해당 산업 영역에 대한 전문 지식이다. 그 다음으로 중요한 것은 통계 및 통계학적 모델링에 대한 지식이고, 마지막으로 데이터에 대한 구조, 품질, 모델, 의미 분석에 관한 지식을 필요로 한다. 데이터 분석 결과를 시각적으로 가시화하기 위한 창의성으로 전자지도, 각종 그래프 차트, 새로운 감각의 그래픽 디자인도 없어서는 안 될 요소다. 보다 전문적인 데이터 과학자가 되려면 자바프로그래밍, 알고리즘, 데이터 마이닝, 데이터베이스, SQL 언어의 구사 능력을 갖춰야한다.

빅데이터는 IT 분야만의 전문가 영역이 아니다. 기존 학문 영역에 빅데이터 기술을 도입하여 새로운 가치를 창출하는 전문적인 직종이 탄생하고 있는 것이다. 문제는 누가 먼저 선점하여 전문가로서 활동할 것인가의 속도 경쟁 싸움만 남아 있다.

▲ 홍봉희(정보컴퓨터공) 교수

<도움말>

하둡(Hadoop):
오픈소스(open source) 분산처리 기술 프로젝트로서 현재 정형·비정형 빅데이터 분석에 가장 선호되는 솔루션이라고 할 수 있다. 주요 구성요소로 분산파일시스템 (HDFS)과 병렬처리 프로그래밍 모델(Map Reduce)이 포함된다.

R:
통계 계산 및 시각화를 위한 언어 및 개발환경을 제공하는 오픈소스이다. 기본적인 통계 기법부터 모델링, 데이터 마이닝 기법까지 구현이 가능하다.

 

저작권자 © 채널PNU 무단전재 및 재배포 금지