립싱크 비디오/애니메이션 생성 AI, OmniHuman-1 공개

부루퉁의AI 18 Feb 2025

안녕하세요~ 부루퉁입니다.

오늘 뉴스레터에서는 최근 공개된 OmniHuman-1 모델에 대해 이야기해보려고 합니다. AI 기반 영상 생성 기술이 이제 얼굴 애니메이션을 넘어 전신 애니메이션까지 진화하고 있습니다. 특히 OminHuman-1은 작년 9월에 소개해드렸던 Loopy AI를 뛰어넘는 성능을 보여줬습니다. 과연 어떤 기술이 적용되었는지 함께 살펴보겠습니다.

0:00

/0:11

사진 한장으로 진짜 아인슈타인이 되살아난 느낌.

(자연스러운 손 동작과 함께 한 번 숨참고 멈칫하는 것까지 이게 과연 진짜 AI로 만들어진 것인지 역으로 의심스럽습니다.)

OminHuman-1: 자연스러운 모션

기존의 립싱크 영상을 생성하는 AI는 특정 조건에만 최적화되어 있었습니다. 예를들어, 얼굴 움직임을 표현하는 모델은 입 모양과 표정에만 집중해 손짓이나 몸 전체의 움직임은 자연스럽지 않았습니다. 반대로 전신 애니메이션 모델은 몸 동작을 따라가지만 얼굴 표정과 립싱크가 어색한 경우가 많았습니다. 마지막으로 오디오, 포즈, 텍스트 등 다양한 조건을 활용하는 모델이 있었지만, 각각의 조건을 개별적으로만 다룰 수 있어 범용성이 떨어졌습니다.

OmniHuman-1은 이 모든 조건을 통합해 가장 자연스럽고 일반적인 인간의 움직임을 생성하는 것이 목표입니다.

OminHuman-1: 핵심기술

OmniHuman-1의 가장 큰 특징은 Omni-Conditions Training Strategy입니다.

다양한 조건을 동시에 학습하는 방법

OmniHuman-1은 텍스트 + 오디오 + 포즈 등의 여러 조건을 동시에 학습하도록 설계되었습니다.

강한 조건(포즈)과 약한 조건(오디오)의 비율을 조정하며 단계적으로 모델을 학습시킵니다.
이렇게 하면 특정 조건에 편향되지 않으면서도 자연스러운 움직임을 생성할 수 있습니다.

Diffusion Transformer 구조 활용

기존 AI 모델이 특정 구조(예: GAN, RNN)를 사용했던 것과 달리, OmniHuman-1은 Diffusion Model과 Transformer를 결합한 MMDiT(Diffusion + Transformer) 구조를 사용합니다.
Diffusion Model은 이미지나 영상을 점진적으로 복원하는 방식으로, 자연스러운 생성 결과를 제공합니다.
Transformer는 문맥을 이해하고 복잡한 패턴을 학습하는 데 강한 성능을 발휘합니다.

OminHuman-1: 실제 성능

과거 바이트댄스가 만들었던 립싱크 AI Loopy보다 뛰어난 성능을 보여주고 있습니다.

모델 성능 비교표를 보면, 입 모양 싱크, 전신 움직임, 다양한 구도에서 일관된 품질 유지에 대한 항목에서 모두 우수한 성능을 보여줍니다. 아래는 이미지 한 장과 오디오를 기반으로 OmniHuman-1으로 생성한 영상들입니다.

0:00

/0:16

0:00

/0:12

0:00

/0:11

2D, 3D 애니메션까지 꽤 자연스러운 움직임과 립싱크 성능을 보여줍니다. 현재 OmniHuman-1 모델은 서비스/다운로드를 제공하고 있지 않으며, 해당 프로젝트에 대한 SNS 계정도 없습니다. 아직 딥페이크, 사기 등 윤리적 문제를 의식하고 있는 것으로 보여집니다.

AI 인플루언서의 시대가 정말 코앞으로 다가온 것 같습니다. 여러분은 AI 기반 애니메이션 기술이 앞으로 어떤 방향으로 발전할 것이라 생각하시나요? 딥페이크와 AI로 만들어진 가상 캐릭터와 소통하는 시대를 어떻게 받아들여야할까요?

OmniHuman-1 깃허브: https://omnihuman-lab.github.io/