구글 Generating audio for video 사운드 생성 모델 공개

구글 Generating audio for video 사운드 생성 모델 공개

부루퉁의AI

구글이 새로운 생성 모델 Generating audio for video를 공개했습니다. 이 모델은 업로드된 비디오 영상에 알맞은 사운드트랙을 생성해 줍니다. 현재 영상 생성 모델의 발전 속도에 비해 무음 영상만 출력하고 있어 구글 딥마인드가 나서서 만들었다고 합니다. 먼저 구글 딥마인드가 공개한 영상을 함께 확인하시죠.

Prompt for audio: Jellyfish pulsating under water, marine life, ocean

Prompt for audio: A drummer on a stage at a concert surrounded by flashing lights and a cheering crowd

Prompt for audio: Cars skidding, car engine throttling, angelic electronic music

영상과 함께 입력한 프롬프트로 생성된 사운드입니다. 영상 길이에 따라 사운드트랙의 생성이 맞춰지는 것으로 생각됩니다.(샘플 영상 기준 8초 ~ 11초) 가장 놀라운 점은 V2A Cars 영상을 보면 자동차가 드리프트하는 장면에 맞춰 타이어 스크리치 소리가 납니다.

Prompt for audio: Music, Transcript: “this turkey looks amazing, I’m so hungry”

그리고 프롬프트에 대본, 대사를 입력하면 입력된 대사를 더빙하는 사운드도 만들어집니다.

마지막으로 영상 하나에 다양한 프롬프트를 입력함으로 여러가지 사운드트랙을 생성할 수도 있습니다.

V2A 모델이 영상 속 장면을 이해하고 상황에 맞춰 각각 사운드를 생성해 준다고 볼수 있는데, 어떤 원리로 이렇게 사운드트랙을 생성할 수 있는지 알아보겠습니다.

Generating audio for video 모델의 작동원리

출처: 구글 딥마인드

최대한 이해하기 쉽게 설명하겠습니다. 먼저 비디오를 입력하고 해당 비디오에 맞는 키워드를 입력해 줍니다. 이미지 예시에 나온데로 예시를 들면, 불꽃놀이 비디오에는 "폭발", "불꽃놀이", "축하", "야외" 등과 같은 키워드를 입력하고 생성하고 싶지 않은 소리에 "음악" 같은 키워드를 입력합니다.

입력이 완료되면 모델은 비디오를 분석해 숫자로 변환합니다. 비디오의 각 프레임을 AI가 이해할 수 있는 형태로 바꿔주는 것이죠. 변환된 숫자 데이터를 바탕으로 무작외 노이즈를 점점 더 정교한 소리로 변환해 나갑니다. 이 과정에서 비디오와 입력된 텍스트 정보를 참고해 소리를 만듭니다.

이렇게 만들어진 소리는 압축된 형태로 나오고, 압축된 것을 다시 풀어서 실제 오디오 파형으로 변환하고, 마지막에 비디오와 오디오를 결합해 줍니다. 기존 이미지 생성 모델이 더 나은 결과물을 생성하기 위해 노이즈를 제거하면서 맞춰가는 것과 동일하다고 생각하면 됩니다.

현재 Generating audio for video 모델은 악용될 수 있다는 판단하에 대중에게는 공개하지 않았습니다. 이렇게 또 새로운 영역에 AI가 손을 뻗었습니다. 앞으로는 정말 초개인화(혼자서 모든 것을 할 수 있는) 사회가 도래하지 않을까라는 생각을 하며, 글을 마무리합니다.

Generating audio for video: https://deepmind.google/discover/blog/generating-audio-for-video/

부루퉁의AI 네이버 블로그: https://blog.naver.com/ldlquddnr

부루퉁의 업데이트되는 챗GPT 전자책: https://vo.la/blbLY(GPT-4o 1차 업데이트 완료)


Introduce your service here!

For newsletter banner advertising inquiries, please contact: Bopyo@aikoreacommunity.com

이곳에 서비스를 소개하세요!

뉴스레터 배너 광고 문의: Bopyo@aikoreacommunity.com


뉴스레터 편집장 소개

Comments