Anthropic LLM 내부 작동 방식 해석

Anthropic LLM 내부 작동 방식 해석

부루퉁의AI

Anthropic이 LLM의 내부 작동 방식 해석에 대한 흥미로운 논문을 발표했습니다. 기존의 AI는 입력과 출력만 확인되는 블랙박스 방식으로 작동하기 때문에 특정한 응답이 왜, 어떻게 나오는지 이해하기 어렵습니다. 그래서 모델이 해롭거나, 편향되거나, 거짓된 응답을 하는지 하지 않는지 신뢰하기 어렵습니다.

하지만 엔트로픽은 Claude Sonnet 모델의 내부에서 수백만 개의 개념이 어떻게 표현되는지 확인하는 데 성공했습니다. LLM을 자세히 들여다본 최초의 사례라 할 수 있습니다.

Feature Learning(특징학습) 기술

금문교의 특징과 관련된 연관된 단어를 특정한 모습
연관성을 찾을 수 있었다는 내용

엔트로픽은 '특징학습' 기술을 사용해 AI 모델의 내부 상태를 이해하고 분석하고 있습니다. 특징학습 기술은 인공지능의 복잡한 뉴런(뇌세포 역할)들을 간단한 특징으로 바꿔주는 역할을 합니다. 처음에는 작은 인공지능 모델에서 특징학습을 사용했지만, 지금은 Claude 3 Sonnet에도 적용해 수백만 개의 특징을 추출할 수 있게 되었습니다.

AI 모델이 도시 이름, 사람, 화학 원소, 학문, 프로그래밍 등 다양한 개념을 어떻게 이해하고 표현하는지 알 수 있게 된 것입니다.

(뉴런들이 서로 연결되면서 모델이 학습하고 답변을 만드는 데 중요한 역할을 합니다. 그런데 이 뉴런들이 어떻게 작동하는지 이해하기가 어렵습니다. 특징학습 기술은 이런 복잡한 뉴런들의 작동 방식을 더 쉽게 이해할 수 있도록 도와줍니다. 복잡한 퍼즐을 간단한 그림으로 바꿔주는 것과 비슷합니다.)

Golen Gate Claude

엔트로픽은 이번 연구로 특정 피쳐에 대한 파라미터를 직접 조절할 수 있게 되었다는 것을 발표했습니다. 위 이미지를 보면 Golden Gate(이하 금문교)에 대한 파라미터를 높이면 직접적인 관련성이 없더라도 대부분의 질문에서 금문교를 언급하기 시작한다고 합니다.

예를 들어 10$를 어떻게 사용할지 물으면, 금문교를 건너 통행료로 내겠다고 답하거나, 어떻게 생겼는지 상상하라고 하면 금문교처럼 생겼다고 답합니다.

이 내용이 중요한 이유는 스팸, 스캠, 해킹과 같은 악용할 수 있는 특정 피쳐에 대한 파라미터를 낮추고, 전문 지식은 높여 특화된 AI로 사용할 수 있기 때문입니다.

부루퉁의AI 네이버 블로그: https://blog.naver.com/ldlquddnr

부루퉁의 업데이트되는 챗GPT 전자책: https://vo.la/blbLY (GPT-4o 업데이트 중)


Introduce your service here!

For newsletter banner advertising inquiries, please contact: Bopyo@aikoreacommunity.com

이곳에 서비스를 소개하세요!

뉴스레터 배너 광고 문의: Bopyo@aikoreacommunity.com


Comments