"스팸 메일 자동으로 감지하고 필터링되는 프로그램 개발"

알고리즘의 적응형 Capsule 네트워크를 이메일 스팸 탐지 인도연구원, 국제저널 ‘지능형 로봇공학및응용’ (WJCRP)에 발표

2022-03-21     이호선 기자


스팸메일은 많은 무작위 사용자에게 대량으로 전송되는 원치 않는 메시지이다. 이러한 메시지에는 광고뿐 아니라 피싱 링크 또는 맬웨어가 포함될 수 있다. 이메일 자동 필터링 및 스팸 메시지 식별은 피싱 공격의 위험을 줄이고 사용자가 계정을 더 쉽게 탐색할 수 있도록 개발되었다.

지난 몇 년 동안 컴퓨터 과학자들은 스팸 이메일을 자동으로 탐지하기 위해 점점 더 발전된 계산 모델을 개발했다. 그러나 잘 수행하려면 이러한 모델의 대부분은 사람이 수동으로 레이블을 지정한 대규모 이메일 데이터 세트에 대해 학습해야 하는 번거러운 과정이 필요했다.

인도의 신가드 공과대학 (Sinhgad Institute of Technology Lonavala)의 연구원들은 최근 스팸 이메일을 자동으로 탐지하는 새로운 기술을 개발했다. 국제저널 '지능형 로봇공학및응용' (Worldwide Journal of Clever Robotics and Purposes)에 발표된 이 논문은 사용자의 보안을 개선하는 동시에 관련성이 없거나 원하지 않는 이메일을 훑어보는데 매우 유익하다고 발표 되었다.

연구원 인 카담(Vikas Samarthrao Kadam)은 it 전문지에 "우리 모델은 또한 훈련 속도를 줄이고 분류 효율성을 높입니다. "다른 모델과 달리 스팸 이메일 탐지의 수렴율을 높여 더 나은 결과를 얻습니다."

카담이 개발한 모델은 다중 목표 기능 선택과 새롭고 매우 유망한 딥 러닝 기술인 적응형 캡슐 네트워크를 기반으로 했다. 이전에 개발된 다른 방법과 달리 이 모델은 이미지 및 텍스트 데이터 세트 모두에 대해 학습된다.

텍스트 데이터 세트를 사용하는 동안 Term Variance(TV) 및 TF-IDF(Term Frequency-Inverse Document Frequency)와 같은 두 가지 기능 추출 기술이 사용되는 반면 Fisher Discriminate Analysis(FDA), Walsh-Hadamard Transform(WHT) 및 컬러 코렐로그램은 이미지 데이터 세트를 처리하기 위한 특징 추출 기술로 사용된다.

특징의 길이가 긴 것처럼 보이고 훈련 복잡성을 줄이기 위해 다중 목표 특징 선택은 하이브리드 메타 휴리스틱 알고리즘 G-SFO(Gray-Sail Fish Optimization) 알고리즘에 의해 수행되며 또한 제안된 G-SFO 알고리즘의 개선 사항을 기반으로 새로운 적응형 Capsule 네트워크를 이메일 스팸 탐지에 사용된다.

카담은 "우리 모델은 새로운 하이브리드 휴리스틱 알고리즘을 도입하고 다중 목표 기능을 통해 최적의 기능 선택을 달성한다"고 설명했다. "우리 작업은 딥 러닝 알고리즘을 기반으로 하는 새롭고 향상된 탐지 모델의 가능성을 확인합니다. 스팸 이메일의 자동 탐지는 단순하기 때문에 필요합니다."

카담은 "스팸 ??탐지는 판매자에게 정의를 보장하고 온라인 상점에서 구매자의 신뢰를 유지할 수 있기 때문에 필수적입니다." "다른 방법과 달리 훈련 속도와 분류 효율성이 향상됩니다.“ 우리 모델은 많은 양의 이메일을 받는 사람들의 삶의 질을 향상시켜 이메일을 원활하게 탐색하고 자신의 계정만 사용할 수 있도록 만들었다고 말했다.

카담은 그의 동료들이 만든 스팸 필터링 기술이 대규모로 구현되어 이메일 서비스의 보안과 효율성이 향상될 수 있으며, 이 모델 은 Gmail, Yahoo 메일, Outlook을 비롯한 다양한 기존 서비스에 적용할 수 있다.