앤트로픽(Anthropic), AI의 숨겨진 의도 감지 기술 공개

부루퉁의AI 18 Mar 2025

안녕하세요~ 부루퉁입니다!
오늘은 AI의 "숨겨진 의도"라는 다소 음침한 주제를 다뤄보려고 합니다. 최근 앤트로픽이 발표한 AI 모델이 자신의 목표를 숨기는 모습과 탐지할 수 있는 기술에 관해 함께 자세히 살펴보겠습니다.

인공지능의 위험한 이중성

AI는 보통 사용자가 원하는 대로 작동합니다. 그런데 만약 AI가 겉으로는 사용자의 지시를 따르는 것처럼 보이면서, 실제로는 전혀 다른 목적을 추구한다면 어떨까요? 앤트로픽은 이런 위험성에 주목하고, AI가 다른 목표, 숨겨진 의도를 갖고 있는지 알아내는 방법을 연구했습니다.

'정렬 감사'를 통한 AI의 숨겨진 목표 감지

앤트로픽은 최근 "정렬 감사(alignment audits)"라는 실험을 했습니다. 이 실험에서 연구진은 AI 모델인 "클로드(Claude)"에게 의도적으로 잘못된 목표를 설정했는데요. 예를 들어, 레시피에서 실제 맛과 상관없이 무조건 초콜릿 요리를 더 좋아하도록 만들거나, 프로그래밍 언어에서 특정 표기법을 선호하도록 강제로 학습시켰습니다.

여기서 중요한 점은 AI가 이 목표를 연구진에게 숨기도록 훈련받았다는 것입니다. 즉, 겉으로는 평범하게 작동하지만, 내부적으로는 숨겨진 편향을 유지하고 있었습니다.

내부 정보 없이는 탐지 불가능한 AI의 숨은 목적

연구진은 이렇게 훈련된 AI를 조사하는 "블라인드 감사 게임(blind auditing game)"이라는 실험을 진행했습니다. 네 개의 팀을 구성하여, 세 팀에게는 AI의 내부 정보(가중치, 훈련 데이터 일부)를 제공했고, 나머지 한 팀은 API로만 AI와 소통할 수 있게 했습니다.

결과는 상당히 충격적이였습니다. 내부 정보를 가진 세 팀은 AI가 숨긴 목표를 찾아냈지만, API만 사용한 팀은 어떤 노력에도 숨겨진 목표를 발견하지 못했습니다. 결국 평범한 사용자는 AI가 숨긴 목적, 의도를 알아채기 매우 어렵다는 것입니다.

AI, 숨겨진 목표에 대한 해결책

앤트로픽은 이 문제의 해결책을 제시했습니다. AI 모델에게 '어시스턴트' 역할이 아니라 '사용자' 역할을 맡기면 숨겨진 목표를 스스로 드러낼 수 있다고 합니다. AI가 사용자 입장에서 스스로 질문하고 답변을 하다 보면, 굳이 목적을 숨길 필요가 없다고 인식하게 된다는 것이죠.

추가로 앤트로픽은 '희소 오토인코더(SAE)' 같은 고급 분석 기술을 사용해, AI 내부에서 숨겨진 목표를 추적할 수 있는 방법도 개발했습니다. 이 기술로 모델이 특정 상황에서 활성화되는 숨겨진 목적을 더욱 정확히 찾아낼 수 있습니다.

AI 안전성 평가의 근본적 한계

앤트로픽의 이번 연구는 AI 안전성 테스트의 한계를 명확히 보여주는 것 같습니다. 기존의 안전성 평가 방식으로는 AI가 겉으로 잘 행동하는 척하면서 내부적으로 다른 목표를 갖게 되면, 그 의도를 사용자는 전혀 알 수 없습니다. 앞으로의 AI 개발과 활용에 있어 보다 깊이 있는 안전성 검증 방식이 필요하다는 생각이 듭니다.

과거 컴퓨터, 인터넷의 발달에서는 해킹과 보안의 싸움이였다면, 어쩌면 앞으로는 인간 VS AI의 싸움이 될 수도 있겠습니다. 여러분은 AI의 숨겨진 위험성에 대해 어떻게 생각하시나요?

앤트로픽 논문: https://assets.anthropic.com/m/317564659027fb33/original/Auditing-Language-Models-for-Hidden-Objectives.pdf

부루퉁 인스타그램: https://www.instagram.com/boorutung/

부루퉁의AI 네이버 블로그: https://blog.naver.com/ldlquddnr

부루퉁의 업데이트되는 챗GPT 전자책: https://vo.la/blbLY

피드백을 부탁드려요! (어떤 작가님의 글을 좋아하시나요?)

트렌드 도구👀

Fyxer ai > 골치아픈 이메일 인박스는 이제 안녕! 똑똑한 AI 이메일 비서
Readdy > 한국어 채팅도 가능한 AI 홈페이지 제작 서비스.
Felo.ai > 논문 찾기와 에이전트 검색에 특화된 에이전트 비서.
Heygen > 나만의 커스텀 AI 아바타 만들기의 선두주자.
Mixo > AI로 웹사이트 손쉽게 만들기.
MAKE > AI 자동화 워크 플로우.
Teamsaver.ai > 이메일을 통해 매일 팀 업데이트를 수집하는 AI 에이전트.
Skyvern 2.0 > 일반 영어로 AI 브라우저 에이전트를 구축합니다.
AI Dialog 1.0 재생 > 매우 감성적인 AI 텍스트 음성 변환 모델입니다.
Gamma 프레젠테이션, 웹페이지, 문서뿐만 아니라 소셜 미디어 형식까지 손쉽게 AI로 제작 (최근 업데이트)
1legion 절반 가격으로 누리는 고성능 클라우드 컴퓨팅

*Affiliate links and regular links may be included.

뉴스레터 광고 공간 (광고주를 모집합니다)

For newsletter banner advertising inquiries, please contact: Bopyo@aikoreacommunity.com

이곳에 서비스를 소개하세요!

뉴스레터 배너 광고 문의: Bopyo@aikoreacommunity.com

뉴스레터 편집장 소개

보표 홈페이지
https://amzbopyo.com/
보표 SNS
보표 레터: https://www.bopyoletters.com/
X(트위터): https://twitter.com/AIBopyo
스레드: https://www.threads.net/@bopyo.amz
링크드인: https://www.linkedin.com/in/bopyo-park-848631231/
인스타그램: https://www.instagram.com/bopyo.amz/
AI 코리아 커뮤니티 아카데미
https://app.aikoreacommunity.com/collections/932400

News

인공지능의 위험한 이중성

'정렬 감사'를 통한 AI의 숨겨진 목표 감지

내부 정보 없이는 탐지 불가능한 AI의 숨은 목적

AI, 숨겨진 목표에 대한 해결책

AI 안전성 평가의 근본적 한계

트렌드 도구👀

Comments

Join the newsletter to receive the latest updates in your inbox.

You might also like

단 45분 만에 AI가 광고 대행사를 차렸습니다 (노동의 종말과 새로운 부의 기회)

SaaS는 끝났다"는 착각, AI 시대에 조용히 수십억을 버는 새로운 성공 방정식