오디오 기반 얼굴, 립싱크 비디오 생성AI, Loopy 공개

부루퉁의AI 10 Sep 2024

틱톡을 서비스하고 있는 중국의 IT기업 바이트댄스와 절강대학이 오디오 기반의 얼굴 모션 생성AI, Loopy를 공개했습니다. 기존의 오디오 기반 비디오 생성 모델은 얼굴의 위치나 각도 같은 정보를 바탕으로 움직임을 만들어내는 방식이었습니다. 하지만 이 방식은 다양한 각도와 동작을 자연스럽게 표현하는 데 한계가 있었는데요. Loopy는 이런 공간적 정보 없이도 오디오 신호만으로 자연스럽고 현실감 있는 움직임을 만들어낼 수 있다고 합니다. 아래의 영상은 연구진이 공개한 영상입니다.

0:00

/0:45

0:00

/0:45

0:00

/0:45

한숨을 쉰다던지, 비언어적인 움직임과 감정에 따른 표정의 변화, 자연스러운 머리의 움직임을 확인할 수 있습니다. 해당 결과물은 참조 이미지를 사용하고 오디오로 생성했다고 합니다. 이밖에도 빠르거나, 차분한 노래 등 다양한 오디오를 기반으로 동일한 이미지에 대한 움직임을 생성할 수 있습니다.

0:00

/0:52

Loopy end-to-end, 작동원리

Loopy는 오디오 기반 비디오 생성 AI로 오디오 신호를 분석해 음성에 알맞는 비디오를 자동으로 생성하는 end-to-end 방식을 사용합니다. end-to-end란, 전체 프로세스를 하나의 시스템으로 연결해 동작하는 방식을 말합니다. 즉, Loopy는 오디오 입력부터 비디오 출력까지 일관된 흐름을 유지해 별도의 추가 처리 없이 자연스럽게 얼굴의 움직임과 표정을 생성합니다.

이 과정에서 Wav2Vec이 오디오를 분석하고, 분석한 것을 토대로 얼굴의 움직임을 예측하며, 오디오 - 비디오의 일관성을 높이는 과정을 거칩니다.

24년 2월에 공개되었던 EMO는 Audio2Video Diffusion을 활용했습니다. 음성 데이터를 통해 인물의 표정을 자연스럽게 생성하는 방식을 사용해, 안정적인 성능을 제공하는 데 중점을 둔 초기 모델입니다. 반면 Loopy는 end-to-end 방식을 활용해 더 풍부한 표현과 움직임, 일관성을 개선한 모델입니다.