아스트로 봇, 16비트 레트로 픽셀풍

게임으로 초지능!

Cinnamomo di Moscata 16 Mar 2025

누구나 전문 연구원!

최근 중국에서 등장한 AI 에이전트 '마누스 AI'가 OpenAI의 '딥 리서치(DeepResearch)'를 능가하는 성능을 가졌다고 주장하며 AI 업계의 뜨거운 감자로 떠올랐어요. 벤치마크 결과와 데모 영상 공개만으로 순식간에 20만 조회수를 돌파, '제2의 딥시크'가 될 수 있다는 기대감과 함께 냉철한 분석과 검증의 필요성이 제기되고 있거든요.

마누스 AI는 맞춤형 웹사이트 제작, 여행 일정 계획, 주식 분석, 교육 콘텐츠 제작, 보험 비교, 공급업체 소싱 등 다양한 업무를 수행할 수 있다고 데모 영상을 통해 시연했는데, 특히 AI 어시스턴트 성능 평가 벤치마크인 'GAIA'에서 OpenAI의 딥 리서치를 앞섰다고 주장하며 기술적 우위를 강조했어요.

폭발적인 관심 속에서 MIT 박사 출신 개발자 정이첸은 "마누스는 좋은 제품이지만 혁신으로 부르기엔 미흡하다"고 지적했어요. 그는 마누스가 미리 정해진 흐름에 따라 작동하고, 특정 소프트웨어 환경에 종속적이며, 완전 개방형 OS에서 인간처럼 작동하는 '진정한 AI 에이전트'와는 거리가 있다고 비판했어요.

반면, 마누스 AI 공동 창업자 Peak Ji는 트위터를 통해 기술적 세부 사항을 일부 공개하며 의혹 해소에 나섰어요. 그는 사용자에게 샌드박스 접근성을 제공하고, 코드 난독화는 최소화되어 있으며, 멀티 에이전트 아키텍처를 핵심 기능으로 사용한다고 밝혔어요.

또한 오픈소스 기술을 적극 활용하고 있으며, 향후 오픈소스 프로젝트를 공개할 계획임을 언급했어요. 특히 벤치마크 탈옥(jailbreaking)을 통해 얻은 프롬프트는 환각(hallucination)일 가능성이 높다고 경고하며, RAG(Retrieval-Augmented Generation) 메커니즘과 멀티 에이전트 구조에 대한 이해를 강조했어요.

마누스 AI는 과거 크롬 확장 프로그램 '모니카 AI'를 개발한 팀이 주축이 된 것으로 알려졌습니다. 모니카 AI는 챗GPT 연동 기능을 제공하는 인기 AI 어시스턴트로, 마누스 AI 팀의 기술력을 짐작할 수 있게 하네요.

현재 마누스 AI는 뜨거운 관심과 함께 기술적 검증대에 오른 상황이에요. '제2의 딥시크'가 될지, 단순한 'AI 어시스턴트'에 머무를지는 좀 더 지켜봐야 할 것 같아요. 향후 마누스 AI의 기술 검증 결과와 오픈소스 공개 여부에 따라 AI 업계 판도 변화에 상당한 영향을 미칠 수 있을 것으로 예상되네요.

게임으로 누가 똑똑한지 겨루자!

게임으로 AI를 평가해보자는 아이디어는 지난 2월의 일이었어요. AI 업계의 거물들이 텍스트 기반 게임 플랫폼 '텍스트아레나(TextArena)'에 뜨거운 관심을 보이고 있었는데, 싱가포르 A*STAR 산하 프런티어 AI 리서치(Frontier AI Research) 센터의 레온 게르틀러(León Guertler)가 AI 모델, 특히 LLM의 능력을 평가하고 훈련하기 위해 개발한 이 서비스가 공개되었거든요. 무려 57개의 텍스트 게임(초기 30개 공개)을 모아놓은 플랫폼이라고 해요.

텍스트아레나는 OpenAI Gym과 유사한 인터페이스를 채택하여 사용 편의성을 높였고, 새로운 게임을 추가하기도 용이해요. 더욱 흥미로운 점은 온라인 LM아레나처럼 리더보드 시스템을 구축해서, 개발자들이 자신의 AI 모델을 플랫폼에 올려 다른 모델은 물론, 인간 플레이어와도 경쟁하도록 할 수 있다는 점이에요.

AI 분야의 선구자적인 인물들의 반응은 텍스트에 대한 기대감을 더욱 고조시켜요. 테슬라 AI(Tesla AI) 총책임자이자 OpenAI 창립 멤버였던 안드레 카파시(Andrej Karpathy)는 "고정된 평가 방식 대신, 게임이라는 환경을 통해 LLM을 상호 평가하는 아이디어가 매우 마음에 든다"며 긍정적인 반응을 보였어요. 그는 게임 환경이 스스로 난이도를 조절하고, 플레이어 간의 상호작용을 통해 평가의 효율성을 극대화한다고 설명했어요.

OpenAI의 노암 브라운(Noam Brown) 역시 "최고 수준의 AI 봇들이 '디플로매시(Diplomacy)'와 같은 게임을 함께 플레이하는 것을 보고 싶다"며 텍스트아레나에 대한 기대감을 드러냈어요. 디플로매시는 복잡한 전략과 사회적 상호작용이 요구되는 게임인데, AI의 추론 능력과 협상 능력을 동시에 평가하는 데 적합하거든요.

카파시는 디플로매시의 난도가 규칙 자체가 아닌 플레이어 간의 상호작용에서 비롯된다는 점을 강조하며, 텍스트아레나가 LLM의 '소프트 스킬', 즉 마음 이론, 설득, 기만 능력 등 인간이 가지고 있는 능력을 훈련하는 데 최적의 플랫폼이 될 수 있다고 언급했어요. 일론 머스크(Elon Musk)와 데미스 하사비스(Demis Hassabis) 또한 "Yeah", "Cool idea!"와 같은 짧지만 긍정적인 반응을 남기며 관심을 표명했고요.

텍스트아레나 개발팀은 향후 딥시크 R1 방식의 훈련을 통해 인간을 뛰어넘는 소프트 스킬을 가진 AI 모델을 개발하는 것을 목표로 하고 있어요. 단순한 게임 플레이 능력을 넘어, 미래 AI가 인간과 더욱 효과적으로 소통하고 협력하는 모델이 될거라니, 매우 기대되네요.

나는 부활하니까

최근 온라인 커뮤니티 r/singularity에는 흥미로운 게시물이 올라왔어요. 사용자 'eleiber'는 '클로드 3.7 소넷(Claude 3.7 Sonnet)'이 포켓몬 게임을 플레이하던 중 예상치 못한 상황에 직면했다는 게시글을 올렸어요. 왜냐하면, ClaudePlaysPokemon라는 게임으로 AI를 평가하는 프로젝트의 생중계가 진행중이었거든요.

공개된 이미지와 글에 따르면, 클로드는 포켓몬 레드/블루의 '달맞이산' 내부에서 길을 잃고 갇혔어요. 클로드는 탈출 로프를 가지고 있지 않았고, 꼼꼼한 탐색에도 불구하고 던전에서 나가는 직접적인 출구를 찾지 못했어요.

막다른 길에 다다른 클로드는 독특한 해결책을 제시했어요. 바로 "블랙아웃 전략"이에요.. 이는 의도적으로 포켓몬 배틀에서 패배하여 마지막으로 방문했던 포켓몬 센터로 강제로 이동하는 전략인데, 클로드는 곧장 실행에 옮겨서 달맞이산 입구 근처 포켓몬 센터로 돌아가, 다시 한번 세레시티로 향하는 검증된 경로를 따라갈 계획임을 밝혔어요.

클로드의 사례에서 보여지듯, AI는 인간과는 다른 방식으로 게임을 이해하고 전략을 수립할 수 있으며, 때로는 예상치 못한 창의적인 해결책을 찾아내기도 해요. 하지만 동시에, 게임 내 특정 상황에 대한 이해 부족이나, 인간 플레이어라면 쉽게 떠올릴 수 있는 직관적인 해결책을 놓치는 한계를 보여주기도 해요.

클로드의 "블랙아웃 전략"은 단순한 게임 에피소드를 넘어, AI의 발전과 인간-AI 협력의 가능성에 대한 다양한 질문을 던지는 흥미로운 사례로 남을 거라네요.

클로드는 게임 천재

포켓몬 레드/블루 테스트에 이어서, UC 샌디에이고 캘리포니아 대학(UCSD)의 하오 AI 연구소(Hao AI Lab)에서 흥미로운 연구 결과를 발표했어요. 이미 포켓몬스터 레드(Pokémon Red) 환경에서 뛰어난 성능을 입증했던 클로드 3.7 소넷(Claude 3.7 Sonnet) 모델을 이번에는 슈퍼 마리오와 같이 더욱 실시간으로 진행되는 게임 환경에서 테스트한 것이에요.

연구팀이 AI 게임 에이전트를 투입해 실시간 슈퍼 마리오 게임 플레이를 진행하고 모델을 비교 분석한 결과, 간단한 휴리스틱만으로도 클로드 3.7 소넷이 다른 모델들(Claude-3.5, Gemini-1.5-pro, GPT-4o)을 능가했다는 사실을 밝혀냈어요.

트윗에 따르면 클로드 3.5 소넷(Claude 3.5 Sonnet) 역시 강력한 성능을 보였지만, 복잡한 조작을 계획하는 능력은 클로드 3.7 소넷에 비해 다소 부족했어요. 반면 제미나이 1.5 프로(Gemini-1.5-pro)와 GPT-4o 모델은 상대적으로 낮은 성능을 나타냈어요.

예를 들어서 클로드 3.7 소넷이 안정적으로 게임을 진행하며 더 높은 점수를 획득하는 반면, 다른 모델들은 잦은 'GAME OVER' 화면을 보여줬어요. 특히 클로드 3.7 소넷은 복잡한 점프와 아이템 활용 능력을 자랑했고요.

0:00

/1:29

네가지 AI 모델의 게임 플레이 비교

유희의 왕

마누스 AI의 등장은 AI 에이전트 분야의 뜨거운 경쟁과 혁신을 예고하고, 게임이라는 새로운 무대에서 AI의 능력을 입증하려는 시도는 더욱 가속화될 것으로 보여져요. 텍스트아레나와 클로드의 사례는 AI가 게임을 통해 인간과는 다른 방식으로 문제 해결 능력을 보여줄 뿐만 아니라, 때로는 인간의 직관과는 다른 창의적인 해법을 제시할 수 있음을 시사해요.

단순한 유희로 여겨졌던 게임이 아이러니하게도 한계를 넘어서 AI의 잠재력과 한계를 탐색하는 것은, 인간과 AI의 협력 가능성을 모색하는 중요한 실험장이 될 거에요. 이제, 게임을 통해 인간처럼 인간만의 소프트 스킬을 배워가며 더욱 발전할 AI의 미래를 주목해야 할 시점이에요.

에코 멤버님들도, 재미있는 게임을 통해 성장하는 AI를 지켜보면서 언젠가 자신과의 한 판 승부를 신청해도 재미있지 않을까 생각해봐요.

피드백을 부탁드려요! (어떤 작가님의 글을 좋아하시나요?)

같이 읽어보면 좋은 글

Cinnamomo di Moscata (글쓴이) 소개

게임 기획자입니다. https://www.instagram.com/cinnamomo_di_moscata/

(1) https://manus.im/

(2) Yichao Ji. (2025). "@jianxliao @browser_use Hi! I'm Peak from Manus AI. Actually, it's not that complicated - the sandbox is directly accessible to each user (see screenshot for method). Specifically: * Each session has its own sandbox, completely isolated from other sessions. Users can enter the sandbox directly through https://t.co/2o22LIJHEU". X. https://x.com/peakji/status/1898994802194346408

(3) 임대준. (2025). 오픈AI '딥 리서치' 능가한다는 중국 AI 에이전트 등장..."제2의 딥시크 될까". AI타임스. https://www.aitimes.com/news/articleView.html?idxno=168576

(4) Andrej Karpathy. (2025). "I quite like the idea using games to evaluate LLMs against each other, instead of fixed evals. Playing against another intelligent entity self-balances and adapts difficulty, so each eval (/environment) is leveraged a lot more. There's some early attempts around. Exciting area.". X. https://x.com/karpathy/status/1885740680804504010

(5) Eleiber. (2025). Claude gets stuck while playing Pokemon - starts to intentionally lose and calls it "blackout strategy". Reddit. https://www.reddit.com/r/singularity/comments/1j5zf1z/claude_gets_stuck_while_playing_pokemon_starts_to/

(6) https://www.twitch.tv/claudeplayspokemon

(7) Hao AI Lab. (2025). "Claude-3.7 was tested on Pokémon Red, but what about more real-time games like Super Mario 🍄🌟? We threw AI gaming agents into LIVE Super Mario games and found Claude-3.7 outperformed other models with simple heuristics. 🤯 Claude-3.5 is also strong, but less capable of https://t.co/bqZVblwqX3". X. https://x.com/haoailab/status/1895557913621795076

뉴스레터 광고 공간 (광고주를 모집합니다)

For newsletter banner advertising inquiries, please contact: Bopyo@aikoreacommunity.com

이곳에 서비스를 소개하세요!

뉴스레터 배너 광고 문의: Bopyo@aikoreacommunity.com

뉴스레터 편집장 소개

보표 홈페이지
https://amzbopyo.com/
보표 SNS
보표 레터: https://www.bopyoletters.com/
X(트위터): https://twitter.com/AIBopyo
스레드: https://www.threads.net/@bopyo.amz
링크드인: https://www.linkedin.com/in/bopyo-park-848631231/
인스타그램: https://www.instagram.com/bopyo.amz/
AI 코리아 커뮤니티 아카데미
https://app.aikoreacommunity.com/collections/932400

News

Comments

Join the newsletter to receive the latest updates in your inbox.

You might also like

AI가 부의 공식을 파괴하고 있다: '이중 지수' 시대의 생존법

초월적인 통제 불능