지푸AI 영상 생성 오픈 소스 Cog Video X 공개, 데모 사용방법

부루퉁의AI 03 Sep 2024

지푸AI(Zhipu AI)의 영상 생성 AI가 오픈소스로 공개되었습니다. 런웨이의 Gen-3, Luma ai의 드림머신, 오픈AI의 SORA 등 독점 영역이었던 영상 생성 모델을 이제 누구나 활용할 수 있게 되었습니다.

중국의 대표 AI 스타트 기업 중 하나인 지푸AI(Zhipu AI)는 앞서 '코그비디오'와 '릴레이 디퓨전' 등 자체 기술을 기반으로 '잉' 모델을 출시했었습니다. 이 모델은 30초 만에 6초짜리 영상을 생성할 수 있는 모델로 준수한 수준의 퀄리티를 보여줬습니다.

이 잉 모델을 바탕으로 업그레이드한 모델이 '코그비디오X' 입니다. 이외에도 지푸AI가 지난해 출시한 '챗GLM'은 바이두, 바이트댄스, 텐센트 등의 빅테크 챗봇보다 뛰어나다는 평가를 받았으며, 텐센트와 알리바바 등으로부터 4600억 원을 투자받아 중국의 오픈AI라고 불리고 있습니다.

Cog Video X의 성능 및 구조

지푸AI와 칭화대학교 연구진이 아카이브에 개재한 Cog Video X에 대한 논문을 살펴보면, 초기 OpenAI Sora와 Gen-2, Pika 보다 우수한 성능을 보였다고 밝혔습니다. 논문에서는 영상을 효율적으로 압축하기 위해 '3D 변분 오토인코더(VEA)'를 구현했고, 텍스트 프롬프트에 대한 이해와 정확한 해석, 영상 생성이 가능하도록 '전문가 변환기(expert transformer)'를 개발했습니다. 이 내용을 아래 이미지와 함께 조금 더 쉽게 설명해 드리겠습니다.

영상(비디오)은 일반 이미지보다 훨씬 더 많은 데이터를 포함하고 있습니다. 시간의 흐름에 따라 여러 장의 이미지를 연속적으로 보여주기 때문입니다.(초당 프레임 개념) 그래서 영상 데이터를 효율적으로 처리하고 압축하는 것이 아주 중요합니다.

3D 변분 오토인코더(VEA), 말이 어렵습니다만, 그냥 비디오 데이터를 압축하면서도 중요한 정보를 유지할 수 있게 도와주는 기술이라고 생각하면 됩니다. 3D VEA 기술은 영상의 공간적 정보(화면에 무엇이 있는지)뿐만 아니라 시각적 정보(시간에 따라 화면이 어떻게 변하는지)도 포함해 데이터를 압축합니다.

그림에서 보여주는 구조는 영상 데이터를 처리하는 과정을 설명합니다. 비디오에서 중요한 정보를 추출하고, 그 정보를 기반으로 새로운 영상을 생성하거나 압축할 수 있게 해줍니다.

Cog Video X 데모 사용방법

허깅페이스에서 데모버전을 사용할 수 있습니다. 단, 해당 데모 버전은 연구, 학습 목적으로만 사용가능합니다. 링크 주소는 뉴스레터 하단에 남겨두겠습니다.

허깅페이스 사이트 하단을 보면 Video Gallery가 있어 생성된 샘플 영상과 프롬프트를 확인할 수 있습니다. Gen-3나 Luma AI보다 긴 프롬프트를 사용할 수 있는 것 같습니다.

프롬프트 향상 기능과 영상의 품질을 올리는 기능이 있습니다. 저는 일단 제가 입력한 프롬프트와 프레임만 더 높여서 생성해 보겠습니다.

0:00

/0:06

기존에 입력한 프롬프트와 프레임 향상 기능을 선택했을 때 오류가 반복적으로 발생해서 샘플 프롬프트를 활용해 영상을 다시 생성했습니다. 대략 5분이내로 생성이 됩니다. 오류가 있을 경우 아무리 기다려도 생성되지 않으니, 이때는 새로고침을 하고 다시 시작해 주세요. 사용자가 많을 경우 생성 속도도 많이 느려집니다.

결과물을 보면 아직 Gen-3나 SORA에 비교할 정도는 아니지만, 오픈소스로 공개된 모델이라는 점에서 중요한 전환점이라 생각됩니다. CogVideoX를 통해 영상 생성 AI 분야가 빠르게 발전하는 것을 기대해 볼 수 있겠습니다.

지푸AI 아카이브 논문 링크: https://arxiv.org/pdf/2408.06072