메타가 또 해냈다! 외국어를 몰라도 되는 시대!
Babel tower in anime 16-bit retro pixelart style

메타가 또 해냈다! 외국어를 몰라도 되는 시대!

Cinnamomo di Moscata

메타의 어메이징한 디셈버(12월)

이번 12월 1일, Meta(이하 메타)가 새로운 AI들을 공개했어요. Ego-Exo4D, Seamless Communication, 그리고 Audiobox라는 3가지 AI인데요, 이중에서 Seamless Communication(이하 심리스)와 Audiobox가 주목을 받고 있어요! 과연 심리스는 무엇이고, Voicebox를 연상시키는 Audibox는 무슨 AI일까요?

번역의 종말

심리스는 실시간 번역을 할 수 있는 AI라고 해요. 이 심리스에는 3가지 기능이 있는데, 음성을 번역해서 자막으로 띄워주는 기능, 음성을 음성으로 번역하는 기능, 감정을 파악해서 말하는 톤이나 방식을 조절하는 기능이라고 해요.

사실, 그동안 나온 다른 번역 AI는 속도가 너무 느리거나, 번역된 문장이 어색하게 들리는 등 문제점이 많았는데, 이번에 나온 심리스는 2초 정도의 딜레이만으로 실시간 번역이 가능하고, 문장에 담긴 감정을 파악해서 소리를 높이거나, 혹은 속삭이듯 말하는 등 인간이 말하는 것과 같이 들려줄 수 있다고 해요.

아쉽게도, 심리스는 아직까지는 영어, 프랑스어, 스페인어, 독일어 등 소수의 언어만 지원한다고 해요. 하지만 실시간 번역을 하는 방법을 알아낸 이상, 조만간 더 많은 언어들에서 사용이 가능해질 것이라고 생각해요.

청각장애인도 사운드 엔지니어로

Audiobox는 Voicebox가 좋은 반응을 얻었다는 것에 힘입어서 메타가 새로 공개한 사운드 제작 AI라고 해요. 이 AI는 TTS(Text-to-Speech)를 넘어서서 그동안 메타가 연구해온 각종 음성 제작 AI보다 월등한 성능을 지녔어요.

특이하게도, 딥페이크와 같이 나쁜 사람이 악용하는 것을 막기 위해서 메타는 NVIDIA와 협력해 악용 방지 기술을 적용했다고 해요. 따라서 Audiobox로 만든 모든 음성은 품질에 전혀 영향을 미치지 않으면서 경찰이나 보안 전문가가 손쉽게 식별할 수 있으므로 오히려 딥페이크를 원천 차단할 것이라고 해요.

물론, 지금 당장은 Audiobox의 시연을 경험해볼 수 없고 몇 주 정도를 기다려야 하지만, 시각장애인들이 그림을 그릴 수 있게 해준 그림 AI처럼 생각만으로 사운드를 만든다는 것 자체는 청각장애인도 사운드 엔지니어가 될 수 있는 길을 열어줄 거에요.

Audiobox로 가능한 일들(음성 합성, 사운드 이펙트 제작, 사운드 편집 등)

매일같이 사라지는 허들

12월에 진입했는데도 어김없이 인간의 가능성을 가로막고 있던 또다른 장벽 중 하나가 사라졌어요. 이렇듯, AI가 확산되기 시작한 순간부터는 그 누구도 감히 불가능을 입에 담을 수 없다고 생각해요. 설령 불가능하다고 하더라도 AI 덕에 몇 날이 지나면 금세 가능하다고 바뀔 수 있기 때문이거든요. 에코 멤버님들도 계속해서 AI를 이용하는 빈도나 비율을 높여가면서 자신 속의 불가능을 가능으로 바꾸는 슈퍼 개인이 되셨으면 하는 바램이에요.

같이 읽어보면 좋은 글

생각만으로 이미지를 만드는 AI?!
메타의 깜짝 선물 지난 10월 18일, Meta(이하 메타)가 AI at Meta Blog를 통해서 독특한 AI를 공개했어요1. 바로 사람의 생각을 뇌파로 읽어내고, 이를 바탕으로 이미지를 만드는 AI라고 해요. 이 AI는 과연 무엇이 기존의 AI와 다를까요? 만약 그렇다면 어떤 용도로 사용할 수 있을까요? 생각이 곧 프롬프트 이 AI가 기존의 이미지

Cinnamomo di Moscata (글쓴이) 소개

게임 기획자를 준비중입니다. AI 아티스트로도 활동하고 있습니다. Stable Diffusion을 주로 사용합니다. https://www.instagram.com/cinnamomo_di_moscata/

(1) AI at Meta. (2023). "Today we're sharing the next milestone in our Seamless Communication research — a new family of AI translation models that preserve expression and deliver near-real time streaming translations. More on this new work ➡️ https://t.co/KNZCEEPk9v More on the individual models 🧵 https://t.co/ZzCIR4GBe2". X. https://twitter.com/AIatMeta/status/1730338597365309742

(2) AI at Meta Blog. (2023). Seamless Communication. Meta. https://ai.meta.com/research/seamless-communication/

(3) facebookresearch. (2023). seamless_communication. Github. https://github.com/facebookresearch/seamless_communication

(4) AI at Meta Blog. (2023). Audiobox: Generating audio from voice and natural language prompts. Meta. https://ai.meta.com/blog/audiobox-generating-audio-voice-natural-language-prompts/

Comments