국내최다 7억4000만개 빅테이터 '코요' 공개

카카오브레인, 이미지-텍스트 데이터셋 공개

2022-08-31     이호선 기자
카카오브레인은  AI 연구개발 저변 확대를 위해 국내 최대 규모의 이미지-텍스트 데이터셋을 공개하기로 했다. (사진=PIXABAY 이미지합성)

[디지털비즈온 이호선 기자] 카카오브레인이 금일부터 약 7억4000만개 이미지-텍스트 데이터셋인 '코요(Coyo)'를 홈페이지를 통해 전격 공개한다.

코요는 데이터 는 품질이 좋은 데이터만 자동으로 선별해 모아논 데이터셋이다. 데이터셋은 초거대 AI 모델이 정교한 결과값을 구현하는 데 필요한 핵심요소 중 하나다.

카카오브레인은 초거대 AI 연구개발 저변 확대를 위해 핵심 자산인 국내 최대 규모의 이미지-텍스트 데이터셋을 공개하기로 했다.

많은 기업들은 수작업으로 이미지-텍스트를 쌍으로 맞춰 데이터셋을 수집한다. 이때 많은 비용과 시간이 투입된다. 카카오브레인은 코요 개발 시 온라인에서 이미지-텍스트를 독자 개발 기술로 자동 수집해 투입되는 비용과 시간을 줄였다.

동시에 양질에 데이터를 선별해 고성능을 구현했다. 글로벌 AI 기업의 초거대 AI 모델 재현로 교차 검증해 데이터 품질도 확인했다.

코요는 카카오브레인이 앞서 공개한 초거대 AI 이미지 생성 모델 'RQ-트랜스포머'와 AI 아티스트 '칼로'(Karlo) 개발에 적용됐다.

카카오브레인은 지난 6월 세계적 학술대회 CVPR 2022에서 RQ-트랜스포머는 논문을 발표할 정도로 기술력을 인정받았다. 칼로 역시 현대미술가 고상우, 삼성전자 '갤럭시 북 아트 프로젝트' 협업으로 AI 아티스트 가능성을 입증했다.

카카오브레인은 멕시코 대표 화가 프리다 칼로의 고향인 멕시코시티 '코요아칸'의 앞글자를 따 이번 데이터셋을 코요로 지었다.

카카오브레인은 코요를 세계 최대 수준으로 확대하기 위해 한국어를 비롯한 다양한 언어로 개발해 나갈 계획이다. 내년 상반기 중 코요 데이터셋을 활용한 초거대 AI 모델을 추가 공개할 예정이다.

김일두 카카오브레인 대표는 "이번 데이터셋 공개는 초거대 AI 기술 개발에 박차를 가할 중요한 근간이자 이정표가 될 것"이라며 "앞으로도 카카오브레인은 다방면으로 기술 리더십을 선도하고 AI 커뮤니티와 협력하며 AI 생태계 발전에 이바지할 것"이라고 말했다.