한국 ETRI 2초만에 이미지 생성하는 코알라AI(Koala AI) 공개!

한국 ETRI 2초만에 이미지 생성하는 코알라AI(Koala AI) 공개!

부루퉁의AI

한국전자통신연구원(ETRI)이 이미지 생성 AI와 시각지능 기술을 결합해 프롬프트 입력 후 2초 만에 이미지를 생성하는 모델을 공개했습니다. ETRI는 OpenAI의 DALL-E3보다 이미지 생성 속도가 5배 빠른 '코알라(KOALA)'를 26일 허깅페이스에 공유했습니다.

ETRI의 코알라(KOALA) 모델 소개

이미지 생성 AI로 유명한 DALL-E와 Stable Diffusion이 모델 성능과 해상도가 크게 향상되면서, 이미지 생성 시간이 길어졌습니다. (DALL-E3 & SDXL) 그래서 ETRI는 이 문제를 해결하기 위해 U-Net 디자인과 Self-attention을 적극활용해 모델의 크기와 노이즈를 줄이고, 생성 속도를 높여 이미지의 품질을 유지하는 코알라 모델을 개발했습니다.

KOALA 모델 작동 구조

U-Net이란?

U-Net은 이미지에서 특정 객체나 특징을 정확하게 식별하고 분리하는 영상 분석과 같은 분야에서 사용되는 컴퓨터 비전 모델입니다. 예를 들어, 의료 영상에서 종양이나 조직의 경계를 찾아내는 데 사용될 수 있습니다.

Self-Attention이란?

직역했을 때 '자기 주의'라는 뜻에서 알 수 있듯이, 하나의 데이터(예: 문장, 이미지) 내부에서 중요한 부분에 주의를 기울이는 것을 말합니다. 이미지 처리에서는 이미지의 특정 부분이 전체 이미지 내에서 어떤 역할을 하는지 이해하는 데 사용됩니다. 이 과정을 통해 이미지의 중요한 특징을 더 잘 파악하고, 결과적으로 이미지 인식이나 분류 작업의 정확도를 높일 수 있습니다.

ETRI 코알라(KOALA) 모델의 성능

KOALA 모델의 메모리 사용량 및 생성 시간 비교표

위 이미지 표는 GPU와 모델에 따른 이미지 생성 시간과 메모리 사용량을 나타내고 있습니다. 코알라 모델이 메모리 사용량은 높지만 SDXL, SDM에 비해 빠른 속도를 보여주고 있습니다. 코알라는 GPU RTX-4090 기준으로 1024*1024의 이미지를 1.5초 만에 생성할 수 있습니다. 그리고 GPU 메모리 8GB에서 정상적으로 이미지 생성이 가능합니다. 아래는 DALLE-2, SDM, SDXL과 코알라 모델이 동일한 프롬프트로 생성한 이미지 결과물입니다.

코알라 모델의 결과물은 개인적으로 SDXL 1.5 정도의 수준으로 보입니다. 살짝 아쉽지만 생성속도가 대폭 줄어들었다는 점을 감안하면 충분히 납득할 수 있는 결과입니다. 현재 코알라(KOALA) 모델은 허깅 페이스에서 공유되고 있으며, 사이트에서 코랩 DEMO 체험을 할 수 있습니다. 링크는 하단에 남겨두도록 하겠습니다.

KOALA DEMO 사이트

KOALA: Self-Attention Matters in Knowledge Distillation of Latent Diffusion Models for Memory-Efficient and Fast Image Synthesis

KOALA 허깅 페이스

etri-vilab/koala-1b-llava-cap · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

부루퉁의AI 네이버 블로그: https://blog.naver.com/ldlquddnr

부루퉁 인스타그램: https://www.instagram.com/boorutung/

Comments