“합성 데이터(Synthetic data)”… 부상
인공지능 기술 데이터가 중요, 데이터 확보 어려움 존재 합성 데이터 개인정보 보호 불충분한 인공지능 모델 문제 극복 대안 부상 합성 데이터 학습용 데이터로 다양한 활용 기대, 시장 성장 예상 산업별, 업무별 합성데이터 활용사례가 존재
[디지털비즈온 김맹근 기자] 머신러닝에서 불충분한 데이터 이슈를 해소하는 대안으로 합성 데이터 (Synthetic data)가 부상하고 있다. 인공지능 기술 발전과 함께 데이터의 중요성이 증가하고 있으나, 개인정보 위험이 낮으면서 충분한 양의 고품질의 데이터를 확보하는 데에 어려움이 존재한다. 데이터 이슈 해소를 위해 합성 데이터가 대안의 일환으로 주목받고 있다.
인공지능 기술 데이터가 중요, 데이터 확보 어려움 존재
데이터는 원유에 비유(Data is a new oil)될 정도로 인공지능 기술을 통한 혁신을 달성하기 위해서는 데이터가 중요하다. 그러나 실제 활용 가능한 빅데이터를 확보하는 데에 제약요인이 존재한다. 데이터 접근성은 개인정보 보호 등의 이유로 데이터 접근 제한된다.
데이터 품질 측면은 데이터 정제(노이즈 제거)에 시간과 노력이 소요되며, 정확성, 완전성, 일관성, 적시성, 유효성 측면에서 고품질의 데이터 수집에 어려움이 있다. 불충분한 데이터는 인공지능 예측 모델의 부정확성을 초래할 수 있다.
합성 데이터 개인정보 보호 불충분한 데이터로 인공지능 모델 문제 극복 대안 부상
실제 데이터 세트에 존재하는 통계패턴을 모방하여 인공적으로 만들어진 가짜 데이터이다. 실제 세계에서 수집되거나 측정되는 것이 아니라 디지털 세계에서 생성하는 것으로, 수학적으로 또는 통계적으로 실제 데이터를 반영한다. 유럽데이터 보호 감독기구(EDPS)는 “원래 데이터 소스를 가져와 유사한 통계 속성을 가진 새로운 인공데이터를 생성하는 것”으로 정의한다.
생성 방법으로 실제 데이터 없이 합성하는 방법과 실제 데이터로 합성하는 방법으로 구분되며 실제 데이터 기반 합성 데이터 생성에도 다양한 세부 방법이 존재한다. 실제 데이터 없이 합성은 기존 모델(통계적 모델, 설문조사나 그 외 데이터 수집 메커니즘을 통해 개발된 것 등)이나 분석가의 지식을 이용해 생성한다. 실제 데이터 기반 합성은 데이터를 설명하는 생성 모델을 사용해 합성 데이터를 생성한다.
합성 데이터 학습용 데이터로 다양한 활용 기대, 시장 성장 예상
합성 데이터는 인공지능에서 사용되는 주요한 데이터 형태가 될 수 있다. MIT 테크놀로지 리뷰는 합성 데이터를 2022년 10대 미래 기술 중의 하나로 선정되었다. 또한 2024년까지 합성 데이터가 인공지능 학습용 데이터의 60%를 차지, 2030년까지 실제 데이터의 대부분을 대체할 것으로 예상된다.
합성 데이터 산업 현황은 합성 데이터를 제공하는 스타트업이 주목을 끌고 있으며, 글로벌 플랫폼 기업은 합성데이터 기업과 M&A 시도한다. 글로벌 합성 데이터 기업은 신세시스 AI(Synthesis AI), 데이터젠(Datagen) 등의 스타트업이 주목을 받고 있으며, 글로벌 플랫폼 기업의 관련 기업 M&A가 이루어진다. 국내 합성 데이터 현황은 국내 AI 합성 데이터 생성 시장 규모는 2024년까지 약 5,752억원 규모로 성장할 전망한다.
산업별, 업무별 합성데이터 활용사례가 존재
합성 데이터는 의료, 보험, 금융 분야 등에 활용되어 연구 향상, 서비스 고도화, 고객 정보 보호 효과를 기대된다. 의료 및 제약 분야는 실제 데이터를 사용할 수 없거나 데이터가 부족한 경우 합성 데이터를 사용 가능하다. 보험 분야는 서비스 개선에 있어 청구 데이터, 판매 및 이탈 데이터, 시장 및 설문 조사 데이터 등의 합성 데이터 사용 가능하다. 금융 분야는 데이터 프라이버시를 보호하면서 사기탐지 고도화 등에 합성 데이터 사용 가능하다.
업무별 합성 데이터 활용 사례는 기계 학습, 내부 소프트웨어 테스트, 교육, 훈련 및 해커톤, 데이터 보존, 공급업체 평가 및 타사 서비스와 데이터 공유, 내부 2차 사용, 외부 공유 등에 사용 가능하다. 머신러닝은 기계학습 기술 평가 및 비교, 데이터 증대, 사이버 공격으로 인한 학습 데이터의 복구(재식별) 위험 감소한다.
내부 소프트웨어 테스트는 개인 데이터 사용 없이 현실적인 개별 고객/환자 수준의 데이터 테스트 가능하다. 교육, 훈련, 해커톤은 개인 데이터 처리 방법을 이해해야 하는 직원에게 개인 정보 접속 없이도 효과적인 교육 도구로 활용 가능하다.
데이터 보존은 데이터 유용성이 높고 재사용이 증가하는 경우 개인정보 보호 문제 없이 데이터 유용성을 유지하기 위해 합성 기술 적용 가능하다. 공급업체 평가는 공급업체 및 타사 서비스와 데이터 공유 시 데이터 제공 프로세스를 가속화 하고 개인 데이터 사용에 따른 불필요한 작업을 피할 수 있다. 내부 2차 이용은 기본 목적 이외 추가 연구를 수행하기 용이하다. 외부 공유는 외부 데이터 접근을 가속화할 수 있다.
결과적으로 인공지능 기술 활용에 있어 개인 정보 보호 문제와 스몰 데이터 한계를 넘어서기 위한 다양한 방안이 고려되었다. 개인 정보 보호 문제를 해소 방안으로 동형암호, 차분 프라이버시 등이, 스몰 데이터 제약 극복 방안으로 전이 학습(Transfer learning), 앙상블 학습 등이 논의되어 왔다.
합성 데이터는 개인 정보 보호 문제를 줄이면서 적은 노력과 비용으로 무제한 데이터를 생성할 수 있다는 장점을 가지고 중요한 인공지능 학습 데이터로 부상한다. 합성 데이터는 원래 데이터 소스와 유사한 통계 속성을 가진 새로운 인공데이터를 생성하는 것으로, 개인 정보 보호와 데이터 유용성을 모두 확보하는 데에 용이하다. 인공지능 학습에의 주요 데이터로 논의되고 있으며, 관련 시장도 꾸준히 성장할 것으로 전망한다.