상단영역

본문영역

“생성형 AI”… 기술 진화 및 언어 모델

생성형 언어 모델
전형적인 사용 예시는 사용자가 원하는 문제를 제로샷, 원샷, 퓨샷 예제를 자연어 프롬프트를 제공

  • Editor. 김맹근 기자
  • 입력 2023.09.18 07:30
  • 댓글 0
이 기사를 공유합니다
사진 : pixabay
사진 : pixabay

[디지털비즈온 김맹근 기자] 인공지능 기술의 발전은 현대 사회에 큰 파급력을 가져오고 있다. 2016년 이세돌 프로 9단과의 대국에서 승리한 알파고(AlphaGo)의 등장은 인공지능이 실험실 수준의 문제만이 아니라 일부 고수준의 지적 문제를 해결할 수 있다는 것을 보여주었다.

2021년에는 단백질 구조 예측 분야에서 혁신을 가져온 알파폴드(AlphaFold2)가 등장하여 인공지능이 인류의 난제를 해결할 수 있는 잠재력을 보여주었다. 2022년 11월 출시된 ChatGPT는 채팅형 인터페이스를 통해 사용자의 명령형 프롬프트에 대해 응답을 생성해주는 서비스이다. 출시 후 약 2달만에 월간 활성 이용자 수(MAU) 1억명을 돌파하여 역사상 가장 빠른 성장세를 기록하였다.

생성형 언어 모델

트랜스포머는 (A. Vaswani et al. 2017)은 인공지능의 가장 저명한 학회중 하나인 NeurIPS에서 “Attention is All You Need”라는 기념비적인 알고리즘을 제안했다. 문서 이해, 본문 요약 및 번역 등 다양한 자연어 문제를 해결하기 위한 범용 아키텍처 및 학습 방법론을 제안한 것이다.

트랜스포머 이전까지 번역 등에서 널리 사용된 방법론은 순환 신경망(Recurrent Neural Network, RNN) 계열의 알고리즘이었다(S. Hochreiter and J. Schmidhuber 1997, K. Cho et al. 2014). 기존 신경망 구조가 고정된 길이의 입력만을 다룰 수 있었지만, RNN은 이전 스텝의 출력을 현재 스텝의 입력에 포함시킬 수 있는 RNN 셀(RNN cell) 이 라는 아키텍처 선택으로 인해 가변 길이의 시퀀스를 자연스럽게 처리할 수 있는 구조이다.

디코더 기반의 GPT-3 모델 GPT-3는 디코더 기반 트랜스포머로서 GPT-1과 거의 동일한 아키텍처를 사용한다. 그러나 아키텍처 규모를 크게 확장하고 대규모 언어 데이터셋을 학습하여 이전에 없던 성능을 달성했다(T. B. Brown et al. 2020). GPT-1는 약 1억개(117M)의 모델 파라미터를 가지 며, GPT-2는 약 15억개 (1.5B)의 모델 파라미터로 구성된다(A. Radford et al. 2018, 2019). GPT-3는 GPT-2의 100배 이상 큰 약 1,750억 개(175B)의 모델 파라미터를 가진다.

OpenAI의 다른 논문에서는 GPT-3와 같은 생성형 언어 모델의 테스트 성능이 모델 규모와 멱법칙 관계를 따른다는 것을 실험적으로 밝혀냈다(J. Kaplan et al. 2020). 다시 말해, 모델 사이즈를 제곱만큼 증가시키면 성능도 제곱만큼 향상된다.

GPT-3에서는 다음과 같은 대규모 훈련 데이터셋을 구축하고 활용하였다. 먼저 500B 개의 토큰에 해당하는 말뭉치를 준비하였다. 이중 가장 큰 비중인 401B 개는 웹 크롤링을 통해 수집한 Common Crawl 데이터셋이고, 나머지는 웹기반의 WebText2 데이터셋, 공개된 도서 데이터셋인 Books1, Books2, 그리고 위키피디아 데이터셋으로 구성되었다.

OpenAI는 2020년 6월부터 GPT-3 API 서비스를 제공하고 있다. 전형적인 사용 예시는 사용자가 원하는 문제를 제로샷, 원샷, 퓨샷 예제를 자연어 프롬프트를 제공하면, 모델은 프롬프트를 문장의 앞부분에 대한 조건으로 하여 이후 내용을 생성하는 방식으로 작동한다. 이를 통해 소설 시놉시스 생성, 마케팅 문구 제작, 뉴스 요약 등 다양한 응용 문제에 적용할 수 있게 되었다.

관련기사

저작권자 © 디지털비즈온 무단전재 및 재배포 금지

개의 댓글

0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400

내 댓글 모음

하단영역