상단영역

본문영역

저작권 침해 '프로파일링' 이란?

불법 복제물 탐지, Noise Filtering 기술
블룸필터(Bloom Filter)기반 고속의 불법저작물 탐지
헤비 업로더(heavy uploader) 프로파일링

  • Editor. 이호선 기자
  • 입력 2023.01.31 19:30
  • 댓글 0
이 기사를 공유합니다
​한국저작권보호원은 저작권 침해 우려 또한 확대되고 있는 환경에서 효과적인 불법저작물 탐지 및 ‘프로파일링’ 기술을 소개했다. (자료=한국저작권보호원)​
​한국저작권보호원은 저작권 침해 우려 또한 확대되고 있는 환경에서 효과적인 불법저작물 탐지 및 ‘프로파일링’ 기술을 소개했다. (자료=한국저작권보호원)​

[디지털비즈온 이호선 기자] 한국저작권보호원의 불법복제물 추적관리시스템은 온라인 불법복제물 모니터링 정보와 긴급대응저작물과의 검색기술을 결합하여 불법복제물을 차단한다고 밝혔다.

보호원은 1인 미디어 사용과 모바일 영상 이용이 급증하면서 저작권 침해 우려 또한 확대되고 있는 환경에서 효과적인 불법저작물 탐지 및 ‘프로파일링’ 기술소개했다.

프로파일링은 어떤 개인의 심리적, 행동적 특성을 분석함으로써 특정 상황이나 영역에서의 행동을 예상하는 것을 가리킨다. 또한 사회인구학적 특성을 포함한 여러 변수에 의해 특정한 하위 그룹으로 분류하는 것을 가리킨다.

보호원은 “불법복제물 게시자들은 불법저작물 추적시스템(ICOP)를 우회하기 위해 형태소 파괴, 특수문자 삽입 등 텍스트 제목을 변형하는 다양한 노이즈를 삽입한다.” 고 설명하면서 주요 상용 웹하드, P2P 사이트에서 수집된 저작물 제목을 분석한 노이즈 유형을 제시했다.

특수문자 삽입은 제거하면 되지만 문자 변형, 영문 혼합, 발음 변형은 대부분 한글 자음과 모음, 영문, 숫자 등 다양한 문자를 활용하여 변형하기 때문에 영문과 숫자를 한글 자음과 모음으로 변형하면 노이즈가 없는 영문과 숫자도 변형되는 이슈가 있고, 제거하면 실제 저작물 제목이 손상된다.

자료에서는 기존 필터링 기반의 저작권 보호 기술을 우회하는 웹하드, P2P 사이트에서의 데이터 유형을 분석하여, 변형된 게시물 제목을 정규화과정을 통해 노이즈를 제거하고, 키워드(keyword) 기반 블룸필터(bloom filter) 검색기술을 통해 불법복제물 추적관리시스템(illegal content obstruction program)의 성능을 개선을 위한 방법론을 제시하고 검증했다.

또한, 불법복제물을 다량으로 유포하는 동일 헤비 업로더(heavy uploader) 프로파일링을 위한 온라인 서비스 제공자(online service provider, OSP)/게시자(ID)별 유포저작물 전반에 대한 정보가 담기도록 특징 공학(Feature Engineering)을 통해 유사한 기능세트(feature set)을 생성하고, 클러스터링 기반 동일인으로 추정되는 헤비 업로더 분석기술도 소개했다.

◇불법 복제물 탐지, Noise Filtering 기술

자료에서는, 불법복제물 게시자들은 문자열 매칭 방식의 불법복제물 추적관리시스템을 우회하기 위해 해당 콘텐츠 제목에 노이즈를 삽입한다.

최근 자연어 처리, AI 딥러닝 기술을 이용한 네이버(Naver) 검색어 오타변환 기술은 단어 단위로 오타를 인식해 동작하고그림과 같은 모음이 변형된 데이터는 인식할 수 없다. 예를 들어, Naver 검색어 오타변환 기술은 ‘떠미네이터’를 ‘터미네이터’로 정규화하나 ‘신ㅂl ㅇrㅍr트’는 인식할 수 없다고 했다.

Noise Filtering 절차. (자료=한국저작권보호원)​
Noise Filtering 절차. (자료=한국저작권보호원)​

자료에서는, 그림과 같이 특수문자 제거, 영문 정규화, 한글정규화, 불용어 조정 등의 단계를 거쳐 분석이 가능한 형태로 Noise Filtering을 수행했다.

◇블룸필터(Bloom Filter)기반 고속의 불법저작물 탐지

블룸필터를 한줄로 설명하면"어떤 값이 집합에 속해 있는가?를 검사하는 필터 및 이를 구성하는 자료형"을 칭한다.

Noise가 제거된 후에도 불법저작물 탐지는 정확한검색(Exact Search) 이나 대략적인 검색(Approximate Search)은 아니라고 했다.

본래 저작물에 다양한 수식어가 포함되므로, 유의미한 키워드의 포함관계를 중심으로 고속분석이 가능해야 한다고 했다.

이를 위해, 공공데이터의 비트배열(bit-array/비트 배열은 비트를 압축하여 저장하는 배열 데이터 구조)의 bit가 수집 데이터 비트배열의 bit에 일치하는지 검색 과정에 블룸필터 알고리즘을 사용하여 검색 효율을 증가시킨다고 했다.

블룸필터는 원소가 집합에 속하는지 아닌지를 판별하는 확률적 자료구조로, 블룸필터 특성상 어떤 원소가 집합에 속한다고 판단된 경우 실제로는 원소가 집합에 속하지 않는 긍정 오류(false positive)가 발생하는 것이 가능하지만, 반대로 원소가 집합에 속하지 않는 것으로 판단되었는데 실제로는 원소가 집합에 속하는 부정 오류(false negative)는 절대로 발생하지 않는다는 특성을 이용하여 고속검색이 가능하다고 했다.

◇헤비 업로더(heavy uploader) 프로파일링

'헤비 업로더(heavy uploader)'는 '웹하드, 피투피(P2P) 등 온라인을 통해 영리적 목적으로 불법 저작물을 전송해 이득을 챙기는 사람'을 가리켜 이르는 말이다.

자료에서는, 불법복제물을 다량으로 유포하는 헤비 업로더는 동일 불법복제물을 약간의 제목만 변경하여 여러 온라인 서비스 제공자를 통해 유포하고, 다수의 전혀 다른 ID를 사용하거나 약간 변형하여 유포하기도 한다.

동일 공격자에 의한 불법저작물 유포 예시.(자료=한국저작권보호원)​
동일 공격자에 의한 불법저작물 유포 예시.(자료=한국저작권보호원)​

이에 적합한 시간 흐름에 따른 헤비 업로더 대상 유포 관계를 분석하기 위해 웹하드, P2P 데이터에서 수집한 온라인 서비스 제공자/게시자(ID)별 유포저작물 전반에 대한 정보가 담긴 저작물을 피처링(featuring)하고, 클러스터링(Clustering)하여, 온라인 서비스 제공자/ID가 다른 게시자의 경우에도 동일 공격자로 프로파일링을 할 수 있게 된다.

 헤비 업로더 프로파일링 결과 예시.(자료=한국저작권보호원)​
헤비 업로더 프로파일링 결과 예시.(자료=한국저작권보호원)​

​자료에서는, 불법저작물 유포자 행위분석 유형에서 다른 온라인 서비스 제공자에 유포하며 다른 ID인 경우의 예시로 표3과 같다. 5-1의 경우, 각각 다른 온라인 서비스 제공자/ID를 통해, 불법저작물을 1303회, 1321회 유포했는데, 이는 동일인임을 확인할 수 있다고 설명했다.

작권보호원은 식별된 불법저작물과 유포저작물을 사용하여 대량 유포자를 식별 및 추적하여 해당 온라인 서비스 제공자/ID를 탐지하였다고 하면서, 이를 통해, 식별된 단일/동일 대량 유포자의 온라인 서비스 제공자/ID로 차단한다면 저작권 피해가 대폭 감소할 것으로 예상했다.

관련기사

저작권자 © 디지털비즈온 무단전재 및 재배포 금지

개의 댓글

0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400

내 댓글 모음

하단영역