
립싱크 비디오/애니메이션 생성 AI, OmniHuman-1 공개
안녕하세요~ 부루퉁입니다.
오늘 뉴스레터에서는 최근 공개된 OmniHuman-1 모델에 대해 이야기해보려고 합니다. AI 기반 영상 생성 기술이 이제 얼굴 애니메이션을 넘어 전신 애니메이션까지 진화하고 있습니다. 특히 OminHuman-1은 작년 9월에 소개해드렸던 Loopy AI를 뛰어넘는 성능을 보여줬습니다. 과연 어떤 기술이 적용되었는지 함께 살펴보겠습니다.
사진 한장으로 진짜 아인슈타인이 되살아난 느낌.
(자연스러운 손 동작과 함께 한 번 숨참고 멈칫하는 것까지 이게 과연 진짜 AI로 만들어진 것인지 역으로 의심스럽습니다.)
OminHuman-1: 자연스러운 모션
기존의 립싱크 영상을 생성하는 AI는 특정 조건에만 최적화되어 있었습니다. 예를들어, 얼굴 움직임을 표현하는 모델은 입 모양과 표정에만 집중해 손짓이나 몸 전체의 움직임은 자연스럽지 않았습니다. 반대로 전신 애니메이션 모델은 몸 동작을 따라가지만 얼굴 표정과 립싱크가 어색한 경우가 많았습니다. 마지막으로 오디오, 포즈, 텍스트 등 다양한 조건을 활용하는 모델이 있었지만, 각각의 조건을 개별적으로만 다룰 수 있어 범용성이 떨어졌습니다.
OmniHuman-1은 이 모든 조건을 통합해 가장 자연스럽고 일반적인 인간의 움직임을 생성하는 것이 목표입니다.
OminHuman-1: 핵심기술

OmniHuman-1의 가장 큰 특징은 Omni-Conditions Training Strategy입니다.
- 다양한 조건을 동시에 학습하는 방법
OmniHuman-1은 텍스트 + 오디오 + 포즈 등의 여러 조건을 동시에 학습하도록 설계되었습니다.
- 강한 조건(포즈)과 약한 조건(오디오)의 비율을 조정하며 단계적으로 모델을 학습시킵니다.
- 이렇게 하면 특정 조건에 편향되지 않으면서도 자연스러운 움직임을 생성할 수 있습니다.
- Diffusion Transformer 구조 활용
- 기존 AI 모델이 특정 구조(예: GAN, RNN)를 사용했던 것과 달리, OmniHuman-1은 Diffusion Model과 Transformer를 결합한 MMDiT(Diffusion + Transformer) 구조를 사용합니다.
- Diffusion Model은 이미지나 영상을 점진적으로 복원하는 방식으로, 자연스러운 생성 결과를 제공합니다.
- Transformer는 문맥을 이해하고 복잡한 패턴을 학습하는 데 강한 성능을 발휘합니다.
OminHuman-1: 실제 성능

과거 바이트댄스가 만들었던 립싱크 AI Loopy보다 뛰어난 성능을 보여주고 있습니다.
모델 성능 비교표를 보면, 입 모양 싱크, 전신 움직임, 다양한 구도에서 일관된 품질 유지에 대한 항목에서 모두 우수한 성능을 보여줍니다. 아래는 이미지 한 장과 오디오를 기반으로 OmniHuman-1으로 생성한 영상들입니다.
2D, 3D 애니메션까지 꽤 자연스러운 움직임과 립싱크 성능을 보여줍니다. 현재 OmniHuman-1 모델은 서비스/다운로드를 제공하고 있지 않으며, 해당 프로젝트에 대한 SNS 계정도 없습니다. 아직 딥페이크, 사기 등 윤리적 문제를 의식하고 있는 것으로 보여집니다.
AI 인플루언서의 시대가 정말 코앞으로 다가온 것 같습니다. 여러분은 AI 기반 애니메이션 기술이 앞으로 어떤 방향으로 발전할 것이라 생각하시나요? 딥페이크와 AI로 만들어진 가상 캐릭터와 소통하는 시대를 어떻게 받아들여야할까요?
OmniHuman-1 깃허브: https://omnihuman-lab.github.io/
바이트댄스 Loopy AI 뉴스레터: https://news.aikoreacommunity.com/audio-based-face-lip-sync-video-ai-loopy-launch/
부루퉁 인스타그램: https://www.instagram.com/boorutung/
부루퉁의AI 네이버 블로그: https://blog.naver.com/ldlquddnr
부루퉁의 업데이트되는 챗GPT 전자책: https://vo.la/blbLY
트렌드 도구👀
- Readdy > 한국어 채팅도 가능한 AI 홈페이지 제작 서비스.
- Felo.ai > 논문 찾기와 에이전트 검색에 특화된 에이전트 비서.
- Heygen > 나만의 커스텀 AI 아바타 만들기의 선두주자.
- Mixo > AI로 웹사이트 손쉽게 만들기.
- MAKE > AI 자동화 워크 플로우.
- Teamsaver.ai > 이메일을 통해 매일 팀 업데이트를 수집하는 AI 에이전트.
- Skyvern 2.0 > 일반 영어로 AI 브라우저 에이전트를 구축합니다.
- AI Dialog 1.0 재생 > 매우 감성적인 AI 텍스트 음성 변환 모델입니다.
- Gamma 프레젠테이션, 웹페이지, 문서뿐만 아니라 소셜 미디어 형식까지 손쉽게 AI로 제작 (최근 업데이트)
- 1legion 절반 가격으로 누리는 고성능 클라우드 컴퓨팅
*Affiliate links and regular links may be included.
뉴스레터 광고 공간 (광고주를 모집합니다)
For newsletter banner advertising inquiries, please contact: Bopyo@aikoreacommunity.com
이곳에 서비스를 소개하세요!
뉴스레터 배너 광고 문의: Bopyo@aikoreacommunity.com
뉴스레터 편집장 소개
- 보표 홈페이지
- https://amzbopyo.com/
- 보표 SNS
- 보표 레터: https://www.bopyoletters.com/
- X(트위터): https://twitter.com/AIBopyo
- 스레드: https://www.threads.net/@bopyo.amz
- 링크드인: https://www.linkedin.com/in/bopyo-park-848631231/
- 인스타그램: https://www.instagram.com/bopyo.amz/
- AI 코리아 커뮤니티 아카데미
- https://app.aikoreacommunity.com/collections/932400