상단영역

본문영역

“텍스트만 변경하면 AI가 스스로 이미지 변경” 기술

프롬프트 투 프롬프트 이미지 편집.
AI가 텍스트에서 단어를 변경하면 이미지에 수정을 가할 수 있는 기술.

  • Editor. 이호선 기자
  • 입력 2022.08.09 18:22
  • 댓글 0
이 기사를 공유합니다
"자전거를 타는 고양이" 를 "차를 타는 고양이"로 다시 쓰면, 풍경이나 고양이의 위치는 그대로, 자전거만이 차로 바뀐다. (자료=구글 리서치/ 텔아비브 대학)
"자전거를 타는 고양이" 를 "차를 타는 고양이"로 다시 쓰면, 풍경이나 고양이의 위치는 그대로, 자전거만이 차로 바뀐다. (자료=구글 리서치/ 텔아비브 대학)

[디지털비즈온 이호선 기자] 'AI가 텍스트에서 단어를 변경하면 이미지에 수정을 변경해주는 기술' 을 IT 매체인 AI플러스뉴스가 소개했다.

미국 Google Research와 이스라엘의 Tel Aviv University 연구팀이 개발한 '교차주의 제어를 통한 프롬프트 표시 이미지편집(Prompt-to-Prompt Image Editing with Cross Attention Control)' 기술은 AI가 문장에서 생성한 이미지에 수정을 가할 수 있는 기술이다.

문장입력에 사용한 단어의 일부를 수정하는 것으로 화상 전체를 대폭으로 바꾸지 않고, 그 부분만을 핀 포인트로 바꿀 수 있는 기술이다.

"자전거를 타는 고양이" 를 "차를 타는 고양이"로 다시 쓰면, 풍경이나 고양이의 위치는 그대로, 자전거만이 차로 바뀐다. 그 밖에도 풍경화를 아이가 그린 스타일로 바꾸거나 홀 케이크를 장식하고 있는 디자인를 특정 메이커의 디자인으로 바꾸거나 등 다양한 편집이 가능하다.

 (자료=구글 리서치/ 텔아비브 대학)
(자료=구글 리서치/ 텔아비브 대학)

구글이 발표한 Imagen 기술, 이미지 생성 AI시스템인 DALL-E 2 , 텍스트-이미지 생성을 기계 번역과 유사한 Parti 기술 등의 대규모 언어 이미지(Large-scale language-image, LLI) 모델이 경이적인 인공지능기술이 적용된 출력 결과를 나타내고 있다.

이러한 LLI 모델은 대규모 언어-이미지 데이터 세트에서 학습되며, 자기 회귀 모델 및 확산 모델을 포함한 최첨단 이미지 생성 모델이 사용된다.

이러한 모델은 0에서 이미지를 생성하는 데 적합하지만 중간에서 간단한 이미지 편집은 불가능하며 단지 약간의 변경으로 완전히 다른 출력 이미지가 변경된다.

이를 회피하기 위해 LLI 모델을 이용한 수법에서는, 유저가 화상의 일부를 마스크하고 원 화상의 배경과 일치시키면서 마스크한 부분만을 편집 화상으로서 변화시키는 수법이 도입되고 있다.

이번에는 입력에 사용한 문장을 일부 텍스트 수정하는 방법으로 한번 생성한 이미지의 그 부분만을 수정하는 방법이 'Prompt-to-Prompt' 기술이다.

이 접근법은 Cross attention 레이어에서 발생하는 픽셀과 텍스트의 상호 작용을 수정하여 로컬 이미지 편집을 변경할수있다. 구체적으로는, 프롬프트 텍스트의 확산 단계에서 Cross attention 맵을 주입하고, 어느 화소가 어느 확산 단계에서 어느 토큰에 주목하는지를 제어함으로써, 화상 편집을 가능하게 한다.

이 방법으로 출력 된 화상은 원본 화상의 많은 구조를 유지하면서 편집 내용에 따라 부분적으로 변경되어 화상을 마무리한다. 일단 생성된 마음에 드는 화상 구조를 남기면서, 여기만 바꾸고 싶은 등의 요구에 간단하게 입력하면 수정된다.

이번 논문은 코넬대학 컴퓨터과학 ‘컴퓨터 비전 및 패턴 인식’ 제목으로 8월 2일에 게재되었다.

관련기사

저작권자 © 디지털비즈온 무단전재 및 재배포 금지

개의 댓글

0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400

내 댓글 모음

하단영역