[디지털비즈온 송민경 기자] 오픈AI의 달리2(DALL-E 2)가 2022년 봄에 등장하면서 AI 기반의 텍스트-이미지 생성 기술이 본격적으로 대중에게 공개되었고, 이를 통해 시각적 창작 과정이 자동화되는 혁신이 이루어졌다. 이미지 생성 기술은 많은 관심과 함께 저작권, 인권 침해 등 다양한 논란이 대두되고 있다.
초기 AI와 마찬가지로 달리2(DALL-E 2)는 텍스트 렌더링에서 한계를 보였고, 생성된 이미지 속의 글자가 뒤틀리거나 알아볼 수 없게 나타나는 경우가 많았다. 또한 복잡한 프롬프트를 완벽하게 따르지 못해 중요한 요소를 놓치거나 잘못 해석하는 문제도 있었다. 이러한 단점들은 2023년에 발표된 DALL-E 3를 통해 일부 해결되었지만, 여전히 개선할 부분이 있다는 평이 존재한다.
2025년 2월 20일, 오픈AI는 새로운 다중 모달 이미지 생성 기능을 발표했다. 이 기능은 최신 GPT-4o AI 언어 모델에 직접 통합되었으며, 챗GPT 인터페이스에서 기본 이미지 생성기로 자리 잡았다. 오픈AI는 이를 "4o Image Generation"(이하 "4o IG")이라 명명했으며, 달리3(DALL-E 3)보다 향상된 텍스트 렌더링 성능을 제공하고, 대화 맥락을 반영하여 이미지 수정 요청에도 더 정확하게 대응할 수 있도록 했다.
이미지 생성 기능은 25일(현지시간)부터 챗GPT 무료 버전, 플러스(Plus), 프로(Pro), 팀(Team) 사용자에게 배포되었으며, 엔터프라이즈(Enterprise) 및 교육(Education) 버전에서는 추후 제공될 예정이라고 공개됐다.
오픈AI는 GPT-4o 환경에서 이미지 생성을 선택하면 GPT-4.5에서도 동일한 4o 기반 이미지 생성 모델이 사용된다고 밝혀 이를 테크크런치, 포브스 등 외신이 보도했다.
4o IG의 가장 큰 특징은 "네이티브 멀티모달 이미지 생성" 방식으로, 대형 언어 모델(LLM)이 이미지 데이터를 직접 토큰으로 처리하고 출력하는 방식이다. 이는 텍스트와 이미지가 동일한 신경망에서 처리되는 방식으로 이미지 생성과 수정 기능의 유연성을 크게 향상시켰다고 밝혀졌다.
달리2(DALL-E 2)가 처음 등장했을 때처럼, 4o IG 역시 미디어 조작 기술과 관련한 논란을 불러일으킬 가능성이 크다. 단순한 텍스트 입력만으로 복잡한 이미지를 생성할 수 있는 기능은 예술적 창작과 저작권 문제가 생길 우려가 있다.
이미지 생성 기능 업데이트 이후 4o IG로 생성한 미야자키 스타일(지브리)에 대한 열풍이 불며, 과거 스튜디오 지브리의 공동 설립자 미야자키 하야오(Hayao Miyazaki)가 AI가 생성한 애니메이션이 "삶 자체에 대한 모욕"이라고 말한 영상이 눈길을 끌고 있다.
오픈AI는 2024년 5월 GPT-4o를 발표하면서 이 모델이 텍스트, 이미지, 오디오를 모두 이해하고 생성할 수 있는 "옴니(Omni)" 기능을 갖추고 있다고 설명했지만, 정작 실제 사용자들에게 해당 기능을 제공하는 데 10개월이 걸렸다. 오픈nAI의 사장 그렉 브록먼(Greg Brockman)이 지난해 X(구 트위터)에서 옴니 기능의 출시를 예고했지만, 구체적인 일정이 밝혀지지 않았다.
이번 발표는 구글의 멀티모달 LLM 기반 이미지 생성 모델인 "Gemini 2.0 Flash (Image Generation) Experimental"이 출시된 지 불과 일주일 만에 이루어졌으며, 오픈AI가 구글의 도전에 대응하기 위해 서둘러 4o IG를 공개한 것으로 예상된다.