[4차산업 iot분석65] “사물인터넷”… 빅데이터 기술
빅 데이터의 특성 빅 데이터 분석 결과 한눈에 쉽게 3D 이미지 등 정보 표현 기술 발전
[디비털비즈온 김맹근 기자] 사물인터넷은 기존에 연결되지 않은 새로운 99%가 연결되어 사람과 사물 간의 모든 활 동 및 연계 기록이 데이터로 수집 가능한 환경으로 빅 데이터를 가치 있는 정보로 가공 후 삶의 질을 향상시키는데 그 목적이 있다. 빅 데이터는 Public Cloud, Social Data 그리고 수많은 센서들이 생성하는 스트리밍 데이터를 분석하여 아주 짧은 시간에 의사 결정을 가능하게 해 각종 비즈니스 프로세스와 다채널 실시간 마케팅과 같이 시간에 민 감한 프로세스에서 중요 하게 활용되고 있다.
현재 가장 널리 사용하는 빅 데이터의 속성을 3V, 규모(Volume), 다양성(Variety), 속도(Velocity) 등 세 가지로 정의했다. 이것으로 의사 결정 및 통찰 발견, 프로세스 최적 화를 향상시키려면 새로운 형태의 처리 방식이 필요하다. IBM은 여기에 정확성 (Veracity)요소를 더해 4V로 정의했고, 최근에 가치(Value)를 포함하여 5V로 정의한다.
빅 데이터의 특성
첫째 빅 데이터에서 규모는 미디어나 위치 정보, 동영상 등과 같이 다루어야 할 데이터의 크기를 의미하며, 기술의 발달에 따라 KB(킬로바이트, 1000b), MB(메가바이트,1000kb), GB(기가바이트,1000mb), TB(테라 바이트,1000gb), ZB(요타바이트,1000tb)까지를 빅 데이터로 통칭한다.
둘째 다양성은 빅 데이터는 형식이 정해져 있는 정형 데이터 뿐만 아니라 감시 카메라에서 생성되는 동영상, 개인이 디지털 카메라로 생성하여 웹 사이트에 올리는 사진, 소셜 네트워크 서비스 로 전달되는 메시지, 물건에 부착되거나 주변에 설치된 센서에서 발생하는 RFID 태그나 센서 값 등 다양한 종류의 데이터를 수용한다.
셋째 빅 데이터의 속도는 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 속성으로 데이터를 자동으로 생성하는 센서, 스마트폰 등 데이터 생성 속도가 빨라지기 때문에 처리 속도 또한 가속화를 요구된다.
넷째 빅 데이터에서는 데이터에 부여할 수 있는 신뢰 수준에 따라 데이터의 정확성을 필요로 한다. 최상의 데이터 정제 기법을 사용해도 날씨나 경제, 고객의 미래 구매 결정 같은 일부 데이터의 본격적인 불확실성은 제거할 수 없다. 소셜 네트워크 같은 인간 환경에서도 생산되는 데이터는 신뢰하기가 어렵고 미래를 예측하기 어려우며, 사람과 자연, 보이지 않는 시장의 힘 등이 빅 데이터의 다양한 불확실성 형태로 나타나기도 한다.
마지막으로 빅 데이터에서 가치는 빅 데이터를 저장하려고 IT 인프라 구조 시스템을 구현하는 비용을 의미한다.
빅 데이터의 규모는 엄청나며 비정형적인 텍스트와 이미지 등으로 구성되어 있다. 이 데이터는 시간이 지남에 따라 빠르게 전파하면서 변하므로 그 전체를 파악하고 일정한 패턴을 발견하기가 쉽지 않아 가치의 중요성이 강조된다.
과거에는 형식이 정해져 있는 텍스트 위주의 데이터가 많았던 반면 최근에는 그림, 동영상, 음성 위주의 비정형 데이터가 급속히 증가하였다. 과거 빅 데이터는 천문·항공·우주정보, 인간게놈 정보 등 특수 분야에 한정됐으나 정보 통신기술의 발달로 전 분야로 확산되고 있다. 빅 데이터는 기존 데이터와 속성이 달라 데이터 수집·저장·처리·분석·표현하는 데 새로운 기술이 요구된다.
빅 데이터에서 의미 있는 정보를 추출하려면 효율적으로 저장 관리하는 기술이 필요하다. 빅 데이터는 대용량, 비정형, 실시간성 속성을 수용할 수 있는 저장 방식이 필요하며, 특히 대량의 데이터를 파일 형태로 저장할 수 있는 기술과 비정형 데이터를 정형화된 데이터 형태로 저장하는 기술이 중요하다.
빅 데이터 처리 기술로는 정형, 비정형 빅 데이터 분석에 가장 선호되는 솔루션인 하둡, R 언어와 개발 환경으로 기본적인 통계 기법부터 모델링, 최신 데이터 마이닝 기법까지 구현 및 개선이 가증한 R, 관계형 데이터베이스와는 다르게 설계된 비관계형 데이터베이스인 NoSQL 등이 있다.
대표적인 빅 데이터 처리 기술로 맵리듀스가 있으며, 현재는 오픈 소스인 하둡의 성공으로 분산 병렬 데이터 처리 기술의 표준이 되었으며, 빅 데이터는 일괄처리 또는 실시간 처리 기술을 이용한다.
빅 데이터 분석에 사용되는 기술은 대부분 통계학과 전산학, 기계학습과 데이터 마이닝 분야에서 사용한 기술들을 대규모 데이터 처리에 맞게 개선하여 빅 데이터 처리에 적용시키고 있다. 빅 데이터 분석 결과를 효과적으로 전달하려고 어렵고 복잡한 정보를 한눈에 쉽게 이해할 수 있도록 간단한 도표나 3D 이미지 등으로 표현하는 정보 표현 기술이 발전하였다.