립싱크 비디오/애니메이션 생성 AI, OmniHuman-1 공개

립싱크 비디오/애니메이션 생성 AI, OmniHuman-1 공개

부루퉁의AI

안녕하세요~ 부루퉁입니다.

오늘 뉴스레터에서는 최근 공개된 OmniHuman-1 모델에 대해 이야기해보려고 합니다. AI 기반 영상 생성 기술이 이제 얼굴 애니메이션을 넘어 전신 애니메이션까지 진화하고 있습니다. 특히 OminHuman-1은 작년 9월에 소개해드렸던 Loopy AI를 뛰어넘는 성능을 보여줬습니다. 과연 어떤 기술이 적용되었는지 함께 살펴보겠습니다.

0:00
/0:11

사진 한장으로 진짜 아인슈타인이 되살아난 느낌.

(자연스러운 손 동작과 함께 한 번 숨참고 멈칫하는 것까지 이게 과연 진짜 AI로 만들어진 것인지 역으로 의심스럽습니다.)

OminHuman-1: 자연스러운 모션

기존의 립싱크 영상을 생성하는 AI는 특정 조건에만 최적화되어 있었습니다. 예를들어, 얼굴 움직임을 표현하는 모델은 입 모양과 표정에만 집중해 손짓이나 몸 전체의 움직임은 자연스럽지 않았습니다. 반대로 전신 애니메이션 모델은 몸 동작을 따라가지만 얼굴 표정과 립싱크가 어색한 경우가 많았습니다. 마지막으로 오디오, 포즈, 텍스트 등 다양한 조건을 활용하는 모델이 있었지만, 각각의 조건을 개별적으로만 다룰 수 있어 범용성이 떨어졌습니다.

OmniHuman-1은 이 모든 조건을 통합해 가장 자연스럽고 일반적인 인간의 움직임을 생성하는 것이 목표입니다.

OminHuman-1: 핵심기술

OmniHuman-1의 가장 큰 특징은 Omni-Conditions Training Strategy입니다.

  1. 다양한 조건을 동시에 학습하는 방법

OmniHuman-1은 텍스트 + 오디오 + 포즈 등의 여러 조건을 동시에 학습하도록 설계되었습니다.

  • 강한 조건(포즈)과 약한 조건(오디오)의 비율을 조정하며 단계적으로 모델을 학습시킵니다.
  • 이렇게 하면 특정 조건에 편향되지 않으면서도 자연스러운 움직임을 생성할 수 있습니다.
  1. Diffusion Transformer 구조 활용
  • 기존 AI 모델이 특정 구조(예: GAN, RNN)를 사용했던 것과 달리, OmniHuman-1은 Diffusion Model과 Transformer를 결합한 MMDiT(Diffusion + Transformer) 구조를 사용합니다.
  • Diffusion Model은 이미지나 영상을 점진적으로 복원하는 방식으로, 자연스러운 생성 결과를 제공합니다.
  • Transformer는 문맥을 이해하고 복잡한 패턴을 학습하는 데 강한 성능을 발휘합니다.

OminHuman-1: 실제 성능

과거 바이트댄스가 만들었던 립싱크 AI Loopy보다 뛰어난 성능을 보여주고 있습니다.

모델 성능 비교표를 보면, 입 모양 싱크, 전신 움직임, 다양한 구도에서 일관된 품질 유지에 대한 항목에서 모두 우수한 성능을 보여줍니다. 아래는 이미지 한 장과 오디오를 기반으로 OmniHuman-1으로 생성한 영상들입니다.

0:00
/0:16
0:00
/0:12
0:00
/0:11

2D, 3D 애니메션까지 꽤 자연스러운 움직임과 립싱크 성능을 보여줍니다. 현재 OmniHuman-1 모델은 서비스/다운로드를 제공하고 있지 않으며, 해당 프로젝트에 대한 SNS 계정도 없습니다. 아직 딥페이크, 사기 등 윤리적 문제를 의식하고 있는 것으로 보여집니다.

AI 인플루언서의 시대가 정말 코앞으로 다가온 것 같습니다. 여러분은 AI 기반 애니메이션 기술이 앞으로 어떤 방향으로 발전할 것이라 생각하시나요? 딥페이크와 AI로 만들어진 가상 캐릭터와 소통하는 시대를 어떻게 받아들여야할까요?

OmniHuman-1 깃허브: https://omnihuman-lab.github.io/

바이트댄스 Loopy AI 뉴스레터: https://news.aikoreacommunity.com/audio-based-face-lip-sync-video-ai-loopy-launch/

부루퉁 인스타그램: https://www.instagram.com/boorutung/

부루퉁의AI 네이버 블로그: https://blog.naver.com/ldlquddnr

부루퉁의 업데이트되는 챗GPT 전자책: https://vo.la/blbLY


트렌드 도구👀

  • Readdy > 한국어 채팅도 가능한 AI 홈페이지 제작 서비스.
  • Felo.ai > 논문 찾기와 에이전트 검색에 특화된 에이전트 비서.
  • Heygen > 나만의 커스텀 AI 아바타 만들기의 선두주자.
  • Mixo > AI로 웹사이트 손쉽게 만들기.
  • MAKE > AI 자동화 워크 플로우.
  • Teamsaver.ai > 이메일을 통해 매일 팀 업데이트를 수집하는 AI 에이전트.
  • Skyvern 2.0 > 일반 영어로 AI 브라우저 에이전트를 구축합니다.
  • AI Dialog 1.0 재생 > 매우 감성적인 AI 텍스트 음성 변환 모델입니다.
  • Gamma 프레젠테이션, 웹페이지, 문서뿐만 아니라 소셜 미디어 형식까지 손쉽게 AI로 제작 (최근 업데이트)
  • 1legion 절반 가격으로 누리는 고성능 클라우드 컴퓨팅

*Affiliate links and regular links may be included.


뉴스레터 광고 공간 (광고주를 모집합니다)

For newsletter banner advertising inquiries, please contact: Bopyo@aikoreacommunity.com

이곳에 서비스를 소개하세요!

뉴스레터 배너 광고 문의: Bopyo@aikoreacommunity.com


뉴스레터 편집장 소개

Comments