소리를 생성하는 AI 모델 Image to SFX 소개

부루퉁의AI 06 Feb 2024

최근 정말 다양한 AI 모델이 끊임없이 개발, 공개되고 있습니다. 새로운 모델과 기술의 발전 속도가 말이 안되게 빠른데요. 작년 9월 제 블로그에서 이미지를 사용해 음악을 생성하는 image to musicgen을 소개한 적이 있습니다. 생성된 음악의 퀄리티가 뛰어나진 않아도 상당히 놀라운 기술이었습니다.

그 뒤 6개월이 지나 이번엔 이미지를 넣으면 이미지에 맞는 '소리'를 생성해 주는 모델이 공개되었습니다. Image to SFX란 모델인데요. 이미지에 알맞은 소리와 준수한 퀄리티로 생성되는 것에 적잖이 놀랐습니다.

Image to SFX 소개 및 사용법

위 링크로 접속하면 바로 생성할 수 있는 테스트 화면이 나옵니다. 샘플 이미지로 저장되어 있는 새 이미지입니다. 'submit'을 눌러 생성해 보겠습니다. 생성된 소리의 재생 길이는 10초로 고정되어 있습니다.

audio-thumbnail

SFX sample bird

0:00

/10

생성된 새소리입니다. 여기서 놀라운 점은 새소리뿐만 아니라 이미지에 있는 물소리도 자연스럽게 생성된 점입니다. 이번엔 다른 이미지로 소리를 생성해 보겠습니다.

기존에 업로드된 이미지의 우측 상단에 있는 'X'를 클릭하고, 갖고 있는 이미지를 업로드하고 'submit'을 눌러주면 됩니다. 모델은 3가지가 있는데 생성되는 결과물의 차이만 있으니, 원하는 모델을 선택해 생성하면 됩니다.

audio-thumbnail

SFX sample horse

0:00

/10

말 이미지를 넣어 생성했는데 이번엔 좀 아쉬운 결과물입니다. 말발굽 소리는 나쁘지 않게 생성했지만 말 울음소리는 전혀 나오지 않네요. 이어서 까마귀도 넣어봤지만 까마귀도 일반 새소리로 생성되었습니다. 이번엔 폭포 이미지로 생성해 보았습니다.

audio-thumbnail

SFX sample waterfall

0:00

/10

노이즈 잡음처럼 들리기도 하지만 이미지 특징을 잘 짚어 생성한 것 같습니다.

좀 더 학습시켜 발전한다면 특수 음향, 게임, 연출, 영상 편집 등 다양하게 활용할 수 있는 모델이라 생각됩니다. 이젠 생성형 AI가 생성하지 못하는 게 어떤 것이 있을지 생각해야할 정도로 생성하지 못하는 게 없어지고 있습니다.

Image-to-SFX: https://huggingface.co/spaces/fffiloni/Image2SFX-comparison

부루퉁의AI 네이버 블로그: https://blog.naver.com/ldlquddnr

News

Comments