[디지털비즈온 김맹근 기자] 최근 빅데이터를 통해 민간 부문과 공공 부문 등 사회 전 부문에 걸쳐 새로운 가치창출의 기회가 제공되고 있다. 또한 빅데이터 적용으로 인한 경쟁력 상승과 효율성이 제고되고 있다. 그러나 데이터 오남용, 개인정보 유출, 관련 기술적 오류 등 빅데이터로 인한 위험도 기하급수적으로 증대하고 있다.
그럼에도 빅데이터의 위험성에 대한 인지와 대비가 미비하다. 현재까지 이론적 연구도 빅데이터의 위험에 관한 체계적인 위험 요인분석이 이루어지지 않고 있으며, 위험의 분류에 초점을 맞추고 있을 뿐이다. 또한 빅데이터 처리 프로세스별 발생 위험요인에 대해서 구체적 연구가 되어 있지 않다.
빅데이터 처리 프로세스는 크게 데이터 수집과 통합, 데이터 저장과 관리, 데이터 분석과 처리, 데이터 분석 가시화 프로세스로 나뉜다.
첫 번째 프로세스인 데이터 수집과 통합 단계에서 형태와 소재에 무관한 다양한 데이터를 수집하고, 데이터 저장과 관리 단계에서 수집된 대량의 데이터를 실시간으로 저장하고 관리할 수 있는 분산 컴퓨팅을 한다.
데이터 분석과 처리 단계에서 데이터에 내재된 가치를 추출하기 위한 분석을 수 행한다. 마지막 프로세스인 데이터 분석 가시화 단계에서 IT 비전문가가 데이터 분석을 수행할 수 있는 환경을 제공하고 분석결과를 가시적으로 제공한다.
위험요인 분류 프로세스
빅데이터의 데이터 처리 프로세스를 데이터 수집, 데이터 저장, 데이터 분석, 분석 데이터 가시화로 구분하여 위험요인을 분류한다. 빅데이터 처리 프로세스에 공통적으로 적용 가능한 위험요인은 살펴보자.
첫째, 데이터 수집은 데이터 수집에서는 빅데이터 시스템 구축을 위한 첫 번째 프로세스이다. 이 단계에서 대용량의 원천 데이터를 광범위한 영역에서 형태와 무관하게 수집한다. 그리고 수집한 데이터를 저장하기 위해 데이터를 통합하는 역할을 한다.
둘째, 데이터 저장은 데이터 저장 프로세스에서 수집된 데이터를 분산 저장하고, 축적된 데이터의 변형이나 유실 등을 대비해 보안을 유지한다. 필요시에 데이터를 수정하거나 삭제하고, 데이터를 읽기 위해 접근 방법을 제공한다.
셋째, 데이터 분석은 데이터 분석 프로세스에서 저장되어있는 다양한 데이터를 목적에 따라 분석하여 내재된 가치를 추출하고 효율적인 처리를 위해 대규모의 심층적 통계처리를 한다.
넷째, 분석 데이터 가시화 및 활용 빅데이터 처리의 마지막 프로세스인 분석 데이터 가시화 및 활용 단계에서는 빅데이터를 이해하거나 수행할 수 있는 환경이 제공되며, 분석된 데이터의 결과를 함축적이고 직관적인 정보를 제공한다. 또한 분석된 데이터가 실질적으로 현실에 적용 및 활용되는 프로세스이다.
위험요인 분석 결과
정보보안 측면의 변수는 프라이버시 침해, 정보 이용범위 불명시, 정보공개 기준 모호와 같다. 즉, 데이터 수집시 개인정보보호가 미흡함을 나타낸다. 원천 데이터 측면의 변수는 데이터 소유권 분쟁, 데이터 수집 범위 기준 모호, 원천 데이터 신뢰성 부족 이다.
데이터 분석 프로세스에서 7개의 변수, 분석방법 기준의 다양성, 내부 접근권한 통제 미흡, 데이터 분석조작, 분석 전문인력 부족, 분석기술 부족, 불필요한 데이터 존재, 분석 타겟팅 오류는 하 나의 성분으로 추출되어, 해당 프로세스에서 발생 가능한 위험요인으로 분석된다.
결론적으로 빅데이터 처리 프로세스에 따라 순차적으로 발생 가능한 위험요인을 파악하여 사전 대비를 통해 위험을 회피할 수 있다. 또한 각 프로세스의 위험이 발생 시 위험도에 따라 요인 별로 체계적으로 위험에 대응하여 효율적이고 효과적인 빅데이터 시스템에 적용이 가능할 것이다.