빅 데이터
빅 데이터(big data)
빅 데이터(big data)란 지금까지 통상적으로 사용되어 온 데이터 관리나 처리 방식의 수용 한계를 넘어서는 방대하고 복잡한 데이터의 집합을 의미하며, 그 크기가 끊임없이 변화하는 것이 특징입니다.
또한, 근래에는 이러한 데이터로부터 다양한 가치를 추출하고 분석하는 기술까지도 함께 가리키고 있습니다.
다양한 종류의 데이터로부터 가치있는 정보를 찾을 수 있는 가능성이 제시되면서, 세계 경제 포럼에서는 2012년 10대 유망 기술의 하나로 빅 데이터를 선정하는 등 전 세계적으로 많은 관심을 받고 있습니다.
빅 데이터의 분석 기술
빅 데이터의 특징은 데이터의 규모(Volume), 다양성(Variety), 속도(Velocity), 정확성(Veracity) 등으로 구분하여 살펴볼 수 있습니다.
이러한 특징을 가지는 빅 데이터를 분석하기 위한 기술은 다음과 같습니다.
1. 데이터 마이닝(data mining)
: 빅 데이터 안에서 통계학, 패턴 인식, 인공지능 등의 데이터 분석 기법을 총망라하여 지식을 추출하는 기술을 의미합니다.
2. 머신 러닝(machine learning)
: 인공 지능 연구 과제 중 하나로, 인간이 자연스럽게 수행하는 학습이라는 능력을 컴퓨터로 구현하는 기술을 의미합니다.
머신 러닝에 대한 더 자세한 사항은 딥 러닝 과목의 머신 러닝 수업에서 확인할 수 있습니다.
3. 자연어 처리(natural-language processing, NLP)
: 인간이 사용하는 언어를 분석하여 컴퓨터가 이해할 수 있는 형태로 만들거나 그러한 형태에서 다시 인간이 이해할 수 있는 언어로 표현하는 기술을 의미합니다.
위와 같은 분석 기술들을 사용하여 빅 데이터를 처리하기 위한 프레임워크에는 아파치의 하둡(Apache Hadoop)이 대표적이며, 이렇게 분석된 데이터를 시각적으로 표현하기 위한 프로그램에는 R언어가 많이 사용되고 있습니다.
빅 데이터 사례 - 구글의 맞춤형 광고
구글에서는 사용자 개개인의 검색 트래픽과 함께 사진, 동영상과 같은 미디어 데이터의 사용 내역을 바탕으로 사용자의 기호에 맞는 맞춤형 광고를 자동으로 생성하여 보여줍니다.
빅 데이터 사례 - 독일 축구 대표팀의 월드컵 우승
독일 축구 대표팀은 2014년 브라질 월드컵을 준비하면서 선수별로 4개의 센서를 몸에 부착하고 경기 중 그들의 호흡수, 맥박 등을 측정하여 경기당 약 4,968만 개씩의 데이터를 수집하여 저장합니다.
이 데이터를 바탕으로 선수들의 움직임을 경기장 화면에 색의 진하기로 표시하는 히트맵(heat map)으로 작성하고, 이를 바탕으로 선수들의 활동 반경과 활동량을 한눈에 파악하여 좀 더 과학적인 전략을 수립할 수 있게 되었습니다.
그 결과 2014년 브라질 월드컵에서 독일 축구 대표팀은 무패로 우승을 차지할 수 있었습니다.
빅 데이터 사례 - 인간 게놈 프로젝트
인간 게놈 프로젝트(Human Genome Project, HGP)의 완성을 위한 그 모든 과정에 약 10년 정도의 시간이 걸렸지만, 지금은 그 모든 과정을 일주일이 안되서 완료할 수 있습니다.
DNA 시퀀서(DNA sequencer)는 DNA 배열 순서 규명(sequencing)을 자동화한 기구로 빅 데이터 분석 기법을 응용하여 과거 10년간의 배열 순서 규명에 걸리는 비용을 약 1/10000로 줄여주었습니다.
By Flickr user jurvetson - Flickr, CC BY 2.0, Link