메타, 유네스코와 협력해 AI 언어 데이터 수집 프로그램 발표

누나부트 정부 등 다양한 파트너와 협력… 데이터 오픈 소스화 예정

2025-02-13     송민경 기자
(사진=게티이미지)

[디지털비즈온 송민경 기자] 메타(Meta)는 유네스코(UNESCO)와 협력해 미래의 AI 개발을 위한 음성 녹음 및 전사 데이터를 수집하는 새로운 프로그램을 발표해서 이를 야후, 테크크런치 등 외신이 보도했다.

이번 프로그램인 언어 기술 파트너 프로그램(Language Technology Partner Program)은 10시간 이상의 음성 녹음 및 전사 데이터, 대량의 텍스트 데이터, 번역 문장 세트를 제공할 수 있는 협력자를 찾고 있다고 메타는 전했다. 이 파트너들은 메타의 AI 팀과 협력해 다양한 언어를 음성 인식 및 번역 모델에 통합할 예정이다.

언어 기술 파트너 프로그램 가입 신청은 2025년 3월 7일까지 가능하며, 다음 단계는 2025년 4월 15일까지 논의될 예정이다.

이 프로그램의 결과로 완성된 모델들은 오픈 소스(Open Source) 형태로 공개될 예정이다. 메타는 이 프로그램이 특히 소외된 언어에 중점을 두어 유네스코의 목표를 지원하는 것이라고 강조했다.

테크크런치의 보도에 따르면 현재까지 파트너로 참여한 기관 중 하나는 캐나다 누나부트(Nunavut) 정부로, 해당 지역의 일부 주민들은 이누크툿(Inuktut)으로 알려진 언어를 사용한다고 전달했다.

메타는 이번 프로그램과 더불어 언어 번역 모델 성능을 평가하기 위한 오픈 소스 기계 번역 벤치마크도 발표했다. 이 벤치마크는 언어학자들이 구성한 문장으로 이루어져 있으며, 허깅 페이스(Hugging Face) 플랫폼을 통해 접근하고 기여할 수 있다고 덧붙였다.

메타는 음성, 번역과 관련해서 구글이 가장 보편적으로 알려져 있지만 지난 1월, 메타 AI 연구 부서에서 101개 언어 음성을 번역할 수 있는 새로운 AI 모델을 시연한 것과 같이 많은 관심을 기울이고 있다고 전했다.

메타는 AI 기반 비서인 메타 AI(Meta AI)가 지원하는 언어 수를 계속 확장하고 있으며, 자동 번역 기능과 같은 파일럿 기능을 지속적으로 실험하고 있다고 설명했다. 지난해 9월에는 인스타그램 릴스(Instagram Reels)에서 음성을 번역하고 자동 립싱크 기능을 제공하는 도구 테스트를 시작한다고 발표한 바 있다.