[디지털비즈온 김맹근 기자] 누구도 예상 할 수 없는 기술 혁명을 통해 이제 정보화 및 공장 자동화로 일컬어지는 3차 산업혁명에서 기술이 융합되고 데이터가 힘을 갖는 초지능·초연결의 시대인 4차 산업혁명 사회로 나아가고 있다. 이러한 제4차 산업혁명의 시대에 무엇보다도 가장 중요한 자원은 정보나 데이터라고 볼 수 있다. 과거 3차 산업혁명 때보다도 더욱 방대한 양의 정보가 실시간으로 활용, 공유 그리고 전달되면서 이러한 정보의 관리 및 보안의 중요성이 커지고 있다고 볼 수 있다.
영상, 음성, 언어 데이터 등을 딥러닝 기술을 바탕으로 처리하는 인공지능(AI)이 여러 분야에서 활용되고 있다. 활용 효과는 적용 분야에 따라 논란이 있지만 앞으로 더욱 많은 분야에서 더욱 많이 활용되라는 점에는 이견이 없는 듯하다. 이에 따라 AI의 보안과 신뢰성, 역기능에 대한 관심이 고조되고 있다.
AI의 보안은 AI기술을 활용해 악성코드탐지, 침입탐지 같은 기존의 보안 문제를 해결하는 ‘AI를 이용한 보안(AI for security)’과 시스템 보안이나 소프트웨어 보안과 별개로 AI 모델이 갖는 별도의 취약점을 방어하기 위한 ‘AI를 위한 보안(security for AI)’으로 나눌 수 있다.
AI의 신뢰성 분야는 특정 데이터 집합으로 학습된 AI가 도메인이나 시점 등이 다른 데이터 환경에서 성능을 유지하는 문제와, AI의 판단 이유를 분석하여 AI 오동작 등의 원인을 파악하기 위한 설명 가능한 AI를 포함한다. AI의 역기능에는 딥페이크와 같이 AI를 이용해 사람을 속이는 문제와, 학습데이터 편향에 의한 인종차별과 같은 AI 오동작 등이 포함된다. 한편, 자율주행 자동차의 오동작 같은 문제는 AI 안전성(Safety) 분야에서 따로 다뤄지고 있다.
AI를 위한 보안은 AI 모델이 구동되는 OS 등 시스템 보안과 소프트웨어 보안과 별개로 AI 모델은 고유의 보안 취약점을 갖고 있다. 2014년 AI 모델에 대한 기만공격이 알려진 이래 공격자 측면에서 여러 가지 공격이 가능하다는 것이 연구되어 왔다.
AI 모델에 대한 공격은 AI의 학습단계와 활용단계에 따라 나눌 수 있는데, 학습단계에서는 학습데이터에 오염데이터를 주입하여 모델의 정확도를 떨어뜨리는 오염 공격과 특정 패턴을 포함한 이미지를 특정 클래스로 분류하는 백도어 공격이 가능하다. 학습된 AI 모델을 활용하는 단계에서는 데이터를 변조하여 모델의 오분류를 유도하는 기만 공격, 학습에 사용된 데이터 복원이나 멤버십 추론, 모델 복제 등의 공격이 가능하다.
오염 공격(Poisoning atack)은 학습데이터 중 개 사진에 고양이 레이블을 붙이는 것 같은 오염데이터를 포함하여 학습된 모델의 정확도를 떨어뜨리는 공격이다. 공격자의 목표는 최소한의 오염데이터 비율로 최대한 정확도 저하를 유도하는 것이다.
백도어 공격(backdoor atack)은 학습데이터에 트리거(trigger)라고 불리는 특정한 패턴을 포함하여 학습하고, 활용단계에서 트리거를 포함한 입력 데이터에 대해 특정 클래스로 분류하도록 하는 공격을 의미한다. 다른 방식으로, 학습데이터에 트리거를 포함하지 않고 모델의 특정 파라미터를 수정하여 트리거가 포함된 입력 데이터에 반응하게 할 수도 있다.
이러한 백도어 공격은 오염 공격과 마찬가지로 아웃소싱 개발이나 전이학습 때 발생할 수 있다. 트리거의 종류는 특정 위치에 특정 패턴을 고정적으로 포함하는 정적(static) 트리거와 객체의 경계선 역영에 특정 색상을 주입하는 식으로 이미지에 따라 트리거가 달라지는 동적(dynamic) 트리거가 있다.
AI 모델 보안은 앞 절에서 언급한 다양한 적대적 공격들에 대한 방어를 의미한다. 다른 보안 이슈와 마찬가지로 AI 모델 보안 방안도 기술적 방안과 절차적 방안으로 나눌 수 있다. 기술적 방안은 학습데이터 오염 공격에 대해서는 학습데이터 자체를 정제하거나, 오염된 데이터를 학습하여도 오분류를 하지 않는 강건한 모델이 되도록 반복적으로 재 훈련하는 것이다.
절차적 대응은 아웃소싱이나 전이학습 등에 대한 보안 및 신뢰관리를 통해 보안을 확보하는 것이다. 백도어 공격에 대한 방어에는 학습된 모델의 백도어 포함 여부에 대한 분석과 입력된 데이터의 트리거 포함 여부 탐지, 백도어의 영향을 무력화하기 위한 데이터 변환, 백도어가 포함되어도 영향을 미치지 않도록 하기 위한 모델 재학습 등의 방법이 있다. 절차적 대응 방안은 같은 학습 단계 공격인 학습데이터 오염공격의 경우와 같다.
AI 프라이버시 문제는 AI 학습에 쓰이는 많은 데이터는 개인들이 금융이나 의료 등 어떤 서비스를 이용한 결과 생성된 것이다. 이러한 데이터는 개인정보이므로 AI 학습에 활용하기 위해서는 AI의 목적과 기능을 명확히 하고 정보 주체의 동의를 받아야 한다. 하지만 많은 사용자에게 동의를 받는 것은 용이하지 않다. 개인정보보호법 등 데이터3법이 개정되면서 가명 처리된 데이터는 제한된 목적에 한해 정보 주체의 동의를 받지 않고 사용할 수 있는 법적 근거가 생겼다. 또한 재 식별이 불가능하게 만든 익명 처리된 데이터는 더 이상 개인정보가 아니므로 제한 없이 활용할 수 있게 되었다.
결론적으로 AI에 대한 여러 가지 보안 공격들은 근본적인 해결 방안이 없는 창과 방패의 경주라고 할 수 있다. 그렇지만, AI 활용이 확대될수록 AI보안 문제는 더욱 큰 이슈가 될 것이기 때문에 지속적인 관심과 대비가 필요하다. AI 학습을 위해 사용되는 데이터의 프라이버시도 지속적으로 이슈가 될 것이다. 기존의 가명 및 익명처리 이외에도 비정형 데이터를 위한 프라이버시 보존형 머신러닝에 대한 집중적 연구가 필요한 실정이다.