OpenAI 소라 영상 아티스트가 만든 영상과 소라 모델의 작동 원리

OpenAI 소라 영상 아티스트가 만든 영상과 소라 모델의 작동 원리

부루퉁의AI

24년 3월 25일 OpenAI가 영상 아티스트들을 통해 완성한 영상 작품과 제작 후기를 블로그에 공유했습니다. shy kids, Paul Trillo 등 총 7명의 아티스트와 작품을 공개했습니다. OpenAI는 소라 AI와 현직 아티스트의 협업을 통해 새로운 예술의 이정표를 제시했습니다.

이번 뉴스레터에서는 개인적으로 제 눈에 띄었던 영상 3가지와 OpenAI 소라 모델의 작동 원리에 대해 자세히 알아보겠습니다.

OpenAI 소라로 만든 영상 소개

Don Allen의 디지털 AR/XR 아트

0:00
/1:30

이 영상은 Don Allen이 제작한 페이크 다큐 영상으로, 소라를 활용해 하이브리드 생물을 만들었습니다. 과거 500만년 후 미래 동물 다큐가 생각나는 영상입니다.

Paul Trillo의 Director

0:00
/1:26

Paul Trillo는 최고의 단편 영화에 수여되는 Vimeo Staff Picks를 19개나 획득한 뛰어난 영화 제작자입니다. Paul Trillo는 "시간, 돈, 장소에 구애받지 않고 흥미로운 아이디어를 실험할 수 있다.", "Sora는 우리가 볼 수 없던, 새롭고 불가능한 아이디어에 생명을 불어넣어준다."고 소라에 대한 감상평을 남겼습니다.

Shy Kids의 'air head'

0:00
/1:21

개인적으로 연출, 영상미 모두 뛰어난 작품이라 생각됩니다. 생성형 AI를 많이 다뤄본 사람이라면 이렇게 일관성을 유지하면서 영상을 완성하는게 상당히 어렵다는 것을 알고 있습니다. Shy Kids는 balloon man이라는 단평 영화에 Sora를 활용한 멀티미디어 제작사입니다.

최근 OpenAI가 소라를 이용해 할리우드 진출 노리고 있으며, 할리우드 관계자들과 파너십을 맺을 예정이라는 기사도 있었습니다. 처음 이 기사를 접했을 때 '할리우드 진출이 가능할 정도인가?'라는 생각을 했습니다만, 이번에 공개된 아티스트 영상으로 인해 생각이 바뀌었습니다.

그렇다면 OpenAI의 소라는 대체 다른 영상AI와 무엇이 다르고 어떻게 작동하는 것일까요?

OpenAI 소라 모델의 작동 원리

작동 원리에 대한 내용은 FACTORIAL FUNDS의 자료와 OpenAI가 공개한 기술 보고서의 내용을 토대로 최대한 복잡한 내용은 빼고, 이해하기 쉽게 설명해 드리겠습니다.

LLM모델은 텍스트를 토큰의 개념으로 작게 나눠서 이해를 합니다. 이와 유사하게 시각 데이터를 생성하는 모델이 '토큰과 같은 이점을 가질 수 없을까?'라는 고민에서 탄생한 것이 소라 모델에 적용된 '패치'라는 개념입니다.

소라 모델은 LLM모델의 토큰처럼 시각 데이터를 패치로 변환해 이미지, 영상을 이해하는 것입니다.

소라 모델은 비디오의 핵심 데이터만 남기고 요약, 압축해 변환합니다. 그리고 변환된 비디오를 공간과 시간에 걸쳐 있는 패치로 나눕니다. 이후 변환된 패치를 추출해 해상도, 영상 길이 등을 제어해 결과물을 생성합니다.

대신 소라 모델의 훈련에는 1달 동안 4,200 ~ 10,500개의 Nvidia H100 GPU로 추정되는 엄청난 양의 컴퓨팅 파워가 필요하며, Nvidia H100 GPU당 시간당 최대 약 5분 분량의 동영상을 생성할 수 있는 것으로 추정됩니다.

FACTORIAL FUNDS에 의하면 TikTok, YouTube와 같은 인기 플랫폼에서 동영상 생성을 위한 AI를 채택했다고 가정했을 때 추론을 위한 Nvidia H100 GPU가 최대 약 720,000개가 필요한 것으로 추정된다고 합니다.

미국 대선(가짜 영상 우려)도 있지만 이정도 컴퓨팅 파워를 소모한다면, 실제 상용화에 어려움이 있지않나 싶습니다. 그리고 Nvidia GPU의 수요를 오히려 더 크게 증가시킬 수도 있겠습니다.

OpenAI 소라와 음악 생성 ai Suno 등을 활용해 개인 단편 영화, 애니메이션을 만들 수 있는 날이 오길바라며, 이만 글을 줄입니다. 감사합니다.

부루퉁의AI 네이버 블로그: https://blog.naver.com/ldlquddnr

FACTORIAL FUNDS: https://www.factorialfunds.com/blog/under-the-hood-how-openai-s-sora-model-works

OpenAI Sora technical: https://openai.com/research/video-generation-models-as-world-simulators

부루퉁의 업데이트되는 챗GPT 전자책: https://vo.la/blbLY

Comments