지푸AI 영상 생성 오픈 소스 Cog Video X 공개, 데모 사용방법

지푸AI 영상 생성 오픈 소스 Cog Video X 공개, 데모 사용방법

부루퉁의AI

지푸AI(Zhipu AI)의 영상 생성 AI가 오픈소스로 공개되었습니다. 런웨이의 Gen-3, Luma ai의 드림머신, 오픈AI의 SORA 등 독점 영역이었던 영상 생성 모델을 이제 누구나 활용할 수 있게 되었습니다.

중국의 대표 AI 스타트 기업 중 하나인 지푸AI(Zhipu AI)는 앞서 '코그비디오'와 '릴레이 디퓨전' 등 자체 기술을 기반으로 '잉' 모델을 출시했었습니다. 이 모델은 30초 만에 6초짜리 영상을 생성할 수 있는 모델로 준수한 수준의 퀄리티를 보여줬습니다.

지푸AI가 7월에 공개한 영상(잉 모델 생성)

이 잉 모델을 바탕으로 업그레이드한 모델이 '코그비디오X' 입니다. 이외에도 지푸AI가 지난해 출시한 '챗GLM'은 바이두, 바이트댄스, 텐센트 등의 빅테크 챗봇보다 뛰어나다는 평가를 받았으며, 텐센트와 알리바바 등으로부터 4600억 원을 투자받아 중국의 오픈AI라고 불리고 있습니다.

Cog Video X의 성능 및 구조

아카이브 논문 발췌

지푸AI와 칭화대학교 연구진이 아카이브에 개재한 Cog Video X에 대한 논문을 살펴보면, 초기 OpenAI Sora와 Gen-2, Pika 보다 우수한 성능을 보였다고 밝혔습니다. 논문에서는 영상을 효율적으로 압축하기 위해 '3D 변분 오토인코더(VEA)'를 구현했고, 텍스트 프롬프트에 대한 이해와 정확한 해석, 영상 생성이 가능하도록 '전문가 변환기(expert transformer)'를 개발했습니다. 이 내용을 아래 이미지와 함께 조금 더 쉽게 설명해 드리겠습니다.

영상(비디오)은 일반 이미지보다 훨씬 더 많은 데이터를 포함하고 있습니다. 시간의 흐름에 따라 여러 장의 이미지를 연속적으로 보여주기 때문입니다.(초당 프레임 개념) 그래서 영상 데이터를 효율적으로 처리하고 압축하는 것이 아주 중요합니다.

3D 변분 오토인코더(VEA), 말이 어렵습니다만, 그냥 비디오 데이터를 압축하면서도 중요한 정보를 유지할 수 있게 도와주는 기술이라고 생각하면 됩니다. 3D VEA 기술은 영상의 공간적 정보(화면에 무엇이 있는지)뿐만 아니라 시각적 정보(시간에 따라 화면이 어떻게 변하는지)도 포함해 데이터를 압축합니다.

그림에서 보여주는 구조는 영상 데이터를 처리하는 과정을 설명합니다. 비디오에서 중요한 정보를 추출하고, 그 정보를 기반으로 새로운 영상을 생성하거나 압축할 수 있게 해줍니다.

Cog Video X 데모 사용방법

CogVideoX 데모 허깅페이스

허깅페이스에서 데모버전을 사용할 수 있습니다. 단, 해당 데모 버전은 연구, 학습 목적으로만 사용가능합니다. 링크 주소는 뉴스레터 하단에 남겨두겠습니다.

허깅페이스 사이트 하단을 보면 Video Gallery가 있어 생성된 샘플 영상과 프롬프트를 확인할 수 있습니다. Gen-3나 Luma AI보다 긴 프롬프트를 사용할 수 있는 것 같습니다.

프롬프트 향상 기능과 영상의 품질을 올리는 기능이 있습니다. 저는 일단 제가 입력한 프롬프트와 프레임만 더 높여서 생성해 보겠습니다.

0:00
/0:06

기존에 입력한 프롬프트와 프레임 향상 기능을 선택했을 때 오류가 반복적으로 발생해서 샘플 프롬프트를 활용해 영상을 다시 생성했습니다. 대략 5분이내로 생성이 됩니다. 오류가 있을 경우 아무리 기다려도 생성되지 않으니, 이때는 새로고침을 하고 다시 시작해 주세요. 사용자가 많을 경우 생성 속도도 많이 느려집니다.

결과물을 보면 아직 Gen-3나 SORA에 비교할 정도는 아니지만, 오픈소스로 공개된 모델이라는 점에서 중요한 전환점이라 생각됩니다. CogVideoX를 통해 영상 생성 AI 분야가 빠르게 발전하는 것을 기대해 볼 수 있겠습니다.

지푸AI 아카이브 논문 링크: https://arxiv.org/pdf/2408.06072

CogVideoX 허깅페이스 링크: https://huggingface.co/spaces/THUDM/CogVideoX-5B-Space

부루퉁의AI 네이버 블로그: https://blog.naver.com/ldlquddnr

부루퉁의 업데이트되는 챗GPT 전자책: https://vo.la/blbLY 


GenAI Innovation Korea 2024 컨퍼런스!

  • 일정: 10월 4일
  • 장소: 서울 양재 aT 센터
  • 해외 기업(프리픽, 매그니픽AI) 국내 AI 유명 연사들 강연 예정, 참가형 컨퍼런스로서 뮤직 비디오, 이미지 생성 대회
  • 자세한 내용은 아래 페이지 참고하세요!
  • 해외 AI 트렌드 및 앞으로의 방향 어려운 기술 컨퍼런스가 아닌 정말 대중적인 컨퍼런스로서 실질적인 정보를 원하시면 꼭 참여하세요!
AI 컨퍼런스 | Generative AI Innovation Korea | GenAI 참여형 컨퍼런스!
AI 코리아 커뮤니티와 국제 인공지능 윤리 협회 IAAE에서 개최하는 Generative AI Innovation Korea 는 생성형 AI 컨퍼런스로서 챗GPT, Claude, 미드저니, 스테이블디퓨전, AI 아트 영상등 다양한 생성형 AI 회사들과 네트워킹 및 즐기는 행사입니다

뉴스레터 광고 공간 (광고주를 모집합니다)

For newsletter banner advertising inquiries, please contact: Bopyo@aikoreacommunity.com

이곳에 서비스를 소개하세요!

뉴스레터 배너 광고 문의: Bopyo@aikoreacommunity.com


뉴스레터 편집장 소개

Comments