AI 보이스 끝판왕 등장? 일레븐렙스보다 더 나은 감정표현! Hume.ai Octave(Omni-capable text and voice engine)

AI 보이스 끝판왕 등장? 일레븐렙스보다 더 나은 감정표현! Hume.ai Octave(Omni-capable text and voice engine)

Bopyo Park

안녕하세요, 에코 뉴스레터 구독자 여러분!

오늘 소개해드릴 소식은 AI TTS 분야의 대규모 혁신입니다.
Hume 팀에서 공개한 “Octave(Omni-capable text and voice engine)”—바로 세계 최초로 텍스트의 의미를 정말로 이해하고 말하는 TTS 시스템입니다.

제가 실제로 사용해봤는데 정말 놀랐습니다. 지금까지 AI 보이스중에서 가장 좋은 퀄리티라고 생각합니다. AI 보이스 특유의 티가 나지 않았습니다. 프롬프트로 감정표현이 가능하며 첫 LLM fot text-to-speech 라며 광고를 하고 있습니다.

“기존 TTS는 그저 글자를 ‘읽기만’ 했다라면 아시죠? 그 분위기? Octave는 LLM 기술을 통해 텍스트 속 감정·맥락·캐릭터를 파악, 더 사람답게 말투·억양·스타일을 바꿔주는 것이 핵심입니다. 무료로 테스트 해보실 수 있으니 이 글을 끝까지 읽어주세요.

지금부터 Octave의 특징을 잠깐 살펴볼까요?


0:00
/1:14

1. 단순 낭독이 아닌, ‘맥락 이해형’ TTS

일반 TTS는 글자를 그대로 읽어주기만 하죠.
Octave는 대규모 언어 모델(LLM) 기반이라서 문맥과 단어 의미를 파악한 뒤, 그걸 바탕으로 음색·톤·감정을 결정한다고 합니다. 아래 예시의 화면을 확인해보세요.

위 이미지에서 Script는 특별할것이 없는 여러분들도 잘 아시는것처럼 대사라고 보면 되겠습니다. 그러나 중요한 부분은 바로 Voice 프롬프트입니다.

Voice 프롬프트

연설자는 마을 외침꾼처럼 활기차고 자신감 넘치는 목소리를 가지고 있으며, 약간의 연극적 감각과 주목을 끄는 우렁찬 전달 방식으로 놀랍고 잊을 수 없는 존재감을 드러냅니다.

위와 같은 프롬프트를 입력하였고 실제로 위와같은 목소리의 연기톤이 나왔을까요? 아래 플레이 버튼을 눌러서 확인해보세요. 깜짝 놀라실것입니다.

audio-thumbnail
The first LLM for text to speech
0:00
/14.165271

어떠신가요? 놀라우셨죠?

hume의 Octave는 Blind 테스트에서, ElevenLabs Voice Design 대비,

  • 오디오 품질 선호도 71.6%
  • 자연스러움 51.7%
  • 지정된 스타일/감정 구현 57.7%
    에서 Octave가 더 높은 점수를 받았다고 합니다. 지금까지 AI 보이스의 왕이라고 불리울 수 있는 일레븐렙스보다 더 뛰어나다고 하니 AI 보이스를 사용하셔야 하는 분들이라면 꼭 사용해보셔야 합니다.

보이스 디자인 기능에 대해서 좀 더 자세히 알아보겠습니다. 아래 영상과 설명글을 참고해주세요.


0:00
/0:41

2. 원하는 목소리를 즉석에서 디자인—“Voice Design 기능”

(1) 프롬프트로 목소리 만들기

  • 활기차고, 젊고, 살짝 걸걸한 목소리” 같은 식으로 묘사하면, Octave가 그 분위기에 맞춰 새로운 목소리를 생성합니다. 위 영상을 참고해보세요.

(2) 대본(스크립트)만 줘도 알아서 캐릭터를 추론

  • 경매 장면, 판타지 대본, 요리사 독백 등 텍스트만 보고 어떤 스타일이 필요할지 직접 ‘연기’해주는 식인데 이제는 보이스 디자인을 잘 하면 AI 영화에 목소리가 정말 품질이 올라갈 수 있다는 생각을 해봤습니다.

3. 감정·스타일·톤 변경: “Acting Instructions”

이미 만들어둔 목소리라도, 변경할 수 있다는게 굉장히 놀라웠습니다. 위 영상의 중간정도 보면 아실 수 있으실텐데요.

“속삭이는 목소리로 말해줘”
“분노 가득하게 말해줘”
“충격받은 톤으로!”

식의 감정/어조 명령어(Acting Instructions)를 주면, 그에 맞게 말투가 바뀝니다.

앞으로의 Hume.ai 의 계획은 어떻게 될까요?

출처: hume.ai

곧 선보일 Voice Cloning 과 아직은 아쉬운 부분

5초짜리 음성만으로도 즉시 목소리를 복제할 수 있는 기능을 출시할 예정이라고 합니다. 이제는 내 음성을 복제하여 연기까지 시킬 수 있는걸까요?

당장은 영어에 가장 특화, 일부 스페인어도 가능하지만, 곧 다국어 지원을 강화할 예정이라고 합니다. 한국어를 해보니 아직 안됩니다. 정말 이상한 발음이 나오더군요.

감정·스타일 프롬프트, 긴 대화, 목소리 새로 생성 등 핵심 역량을 더 업그레이드할 계획이라고 하네요. 궁극적으로 Hume은 “AI를 통해 인간의 표현과 감정을 더 잘 이해하고, 삶에 유익한 기술을 만든다"는 미션을 계속 유지할 계획이라고 합니다.


정리하자면, Octave는

  • 기존 TTS와 달리 LLM 기술로 텍스트 맥락까지 반영해, 인물·감정·연기까지 가능한 ‘음성 혁신’을 실현.
  • 다양한 사용 사례(오디오북·게임 캐릭터 음성·콘텐츠 음성화 등)에 “더 자연스럽고 몰입감 있는” 목소리를 불어넣을 전망.

음성 합성 분야에서 이렇게 빨리 콘텐츠 맥락·감정까지 이해하고 연기하는 모델이 나오다니, 정말 놀랍지 않나요? 지금 바로 테스트 해보세요!

🔗 자세한 내용

(광고) 5000% 달성 기념! 실물 AI ART BOOK 증정 이벤트!

🎯 이벤트 기간: 펀딩 마감일까지
🏆 당첨 발표: 펀딩 종료 후 10일 이내 (5명 추첨)

📢 지금 참여하고 AI ART BOOK 실물로 받자!


트렌드 도구👀

  • Fyxer ai > 골치아픈 이메일 인박스는 이제 안녕! 똑똑한 AI 이메일 비서
  • Readdy > 한국어 채팅도 가능한 AI 홈페이지 제작 서비스.
  • Felo.ai > 논문 찾기와 에이전트 검색에 특화된 에이전트 비서.
  • Heygen > 나만의 커스텀 AI 아바타 만들기의 선두주자.
  • Mixo > AI로 웹사이트 손쉽게 만들기.
  • MAKE > AI 자동화 워크 플로우.
  • Teamsaver.ai > 이메일을 통해 매일 팀 업데이트를 수집하는 AI 에이전트.
  • Skyvern 2.0 > 일반 영어로 AI 브라우저 에이전트를 구축합니다.
  • AI Dialog 1.0 재생 > 매우 감성적인 AI 텍스트 음성 변환 모델입니다.
  • Gamma 프레젠테이션, 웹페이지, 문서뿐만 아니라 소셜 미디어 형식까지 손쉽게 AI로 제작 (최근 업데이트)
  • 1legion 절반 가격으로 누리는 고성능 클라우드 컴퓨팅

*Affiliate links and regular links may be included.


뉴스레터 광고 공간 (광고주를 모집합니다)

For newsletter banner advertising inquiries, please contact: Bopyo@aikoreacommunity.com

이곳에 서비스를 소개하세요!

뉴스레터 배너 광고 문의: Bopyo@aikoreacommunity.com


뉴스레터 편집장 소개

Comments