구글 Veo2의 계속 업데이트 되는 놀라운 영상들!

Bopyo Park 01 Jan 2025

영상 시청하기

안녕하세요. 에코 뉴스레터 구독자님들

2025년 새해가 밝았습니다. 작년 한 해를 돌아보면 정말 많은 발전이 AI 업계에 있었는데 그중에서 영상을 빼놓을 수 없었습니다. 오늘 전해드릴 소식도 연관된 소식입니다. 위 영상 모두 구글의 Veo 2에서 생성된 영상들로서 최근에 공개되면서 많은 화제를 불러일으키고 있습니다. (영상 시청은 이메일에서 플레이가 되지 않으므로 커뮤니티에 업로드 해놓았으니 버튼 눌러서 확인해보세요)

VEO2도 SORA 때와 마찬가지로 점점 시간이 흐르면서 더 많은 사용 케이스가 나오면서 이번에는 기존 마케팅 업무에 활용될 수 있는 인플루언서 협업 (UGC) 콘텐츠에도 활용할 수 있어보이는 사례들이 나오면서 현재 X에서 바이럴 되고 있습니다.

보시면 그 퀄리티에 놀라움을 금치 못하실거라 생각됩니다.

Google의 VEO2에 대해서 자세히 리뷰를 한 해외 영상(Theoretically Media)이 있어 그 영상을 보고 디테일한 내용들을 에코 멤버님들에게도 전달해드려봅니다. 아래 계속 읽어주세요!

1. VEO2가 왜 주목받는가?

소라(Sora) 출시 직후 등장한 구글의 새로운 AI 비디오 모델
최근 오픈AI가 텍스트-투-비디오 모델인 ‘소라(Sora)’를 선보인데 이어, 구글이 “VEO2”라는 AI 비디오 생성 모델을 공개했습니다. 공개 직후부터 “새로운 왕(The New King of AI Video)”이라는 평가를 받았다는 점에서 큰 화제가 되었습니다.
구글 내부적으로 VEO1이 정식 출시되지 않은 상황에서의 첫 공식 공개
VEO2 이전에 VEO1이 비공개적으로 테스트가 이루어진 적은 있으나, 일반 유저가 직접 다뤄볼 기회는 없었습니다. 이번 VEO2는 구글이 정식으로 얼리 액세스를 부여하며, 기술적인 진일보를 공표한 사례로 볼 수 있습니다.

2. 인터페이스와 사용성

이미지젠(Imagen)과 유사한 인터페이스
Theoretically Media가 시연한 VEO2의 UI는 구글 이미지 생성 모델인 Imagen(이미젠)과 상당히 흡사합니다.
- 텍스트 입력만으로 8초 길이(720p 기준)의 영상을 4가지 버전씩 제공
- 간단한 “텍스트-투-비디오” 모드와, “이미지-투-비디오”라는 변형 모드(사실상 텍스트-이미지-비디오)를 지원
간소화된 메뉴 구성
현재는 영상 생성, 프롬프트 설정, 그리고 몇 가지 사전 설정(Preset) 정도만 제어가 가능합니다. 하지만 얼리 액세스 단계이므로 추후 기능(예: 영상 연장, 리컷, 블렌딩 등)이 추가될 것으로 기대됩니다.

3. 주요 기능과 특징

탁월한 물리 묘사(Physics)와 캐릭터 움직임
- 러닝, 파쿠르, 격투 장면 등을 AI가 생성할 때, 일반적으로 사람의 팔다리가 뒤틀리거나 어색해지는 경우가 많습니다.
- VEO2에서는 어색함이 크게 줄고, 인물의 움직임이 비교적 자연스럽게 표현된다는 점이 인상적이었습니다.
- 완벽하지는 않아도 “스킵 동작”이나 “카메라 시점 전환” 등이 지금까지의 AI 영상 모델들에 비해 발전된 모습을 보여줍니다.
장면 전환, 카메라 무빙의 자연스러움
- Theoretically Media가 다양한 프롬프트(예: “비즈니스 슈트를 입은 남자가 불시착한 열대섬” 등)를 넣었을 때, 시점 이동이나 카메라 트래킹이 생각보다 스무스하게 표현되었습니다.
- 일부 영상에서는 자연스러운 줌 인/아웃과 함께 사실적인 배경이 연출되었습니다.

4. 한계와 개선 희망 사항

영상 연장, 클립 저장 기능 미흡
- 현 단계에서 생성된 영상이 자동으로 라이브러리에 저장되지 않으며, 한 번 다운로드하지 않으면 재생성하기 어렵습니다.
- 영상의 길이를 늘리거나 특정 장면만 편집하는 기능(Extend, Recut)이 아직 구현되지 않았습니다.
일관성 유지의 어려움
- 인물이 무빙 중에 순간적으로 다른 인물로 변형되거나, 배경 오브젝트가 갑자기 변하는 현상이 있습니다.
- 다만, 격투나 파쿠르 장면에서도 부분적으로 자연스러운 움직임이 구현되는 등 기술적 잠재력은 충분해 보입니다.
LLM과의 결합
- 소라(Sora) 역시 아직 ChatGPT와의 충분한 연동이 이뤄지지 않아, 프롬프트 작성 시 번거로움을 느끼게 됩니다.
- VEO2도 얼리 액세스 단계이기 때문에, 추후 구글 내부 LLM과 결합이 이뤄지면 사용자 경험이 크게 향상될 것으로 기대됩니다.

5. 총평: “새로운 왕”의 가능성과 과제

“새로운 왕(New King)”이라는 수식어에 걸맞은 진일보
- 동작 물리 표현이 이전 세대의 텍스트-투-비디오 모델보다 자연스럽고, 카메라 무빙도 큰 발전이 느껴집니다.
- 전반적인 비주얼 퀄리티와 효과면에서 확실한 향상을 보여줍니다.
하지만 갈 길도 멀다
- 현재 8초짜리 짧은 클립만 생성할 수 있고, 시퀀스 편집이나 중간 장면 확장 같은 기능은 아직 미흡합니다.
- 인물 모델링이 중간에 바뀌거나, 간헐적인 오브젝트 왜곡 문제 등 해결되어야 할 기술적 과제도 많이 보입니다.
구글의 생태계와 LLM 결합 기대
- 구글의 Imagen 3, DeepMind, Gemini Advanced 등 다른 AI 모델과 연동을 강화하면, 소라 대비 더 완성도 높은 사용 경험을 제공할 수 있을 것으로 보입니다.

6. 결론 및 전망

VEO2는 명실상부 ‘가장 진보한 텍스트-투-비디오 AI 모델 중 하나’로 보이며, 이미 극적인 카메라 무빙이나 인체 물리 처리에서 높은 완성도를 보여줍니다.
아직은 얼리 액세스 단계라 여러 한계가 있지만, 향후 업데이트와 기능 확장을 통해 크리에이터와 기업 모두에게 매력적인 선택지가 될 가능성이 높습니다.