GPT-4의 실수를 찾아내는 CriticGPT(크리틱GPT) 공개

부루퉁의AI 02 Jul 2024

OpenAI가 챗GPT의 코드 출력에서 오류를 식별하기 위해 GPT-4 모델을 기반으로 훈련한 CriticGPT를 공개했습니다. CriticGPT는 GPT-4 모델이 작성한 응답을 검토하고, 사람을 대신해서 AI의 오류를 찾아준다고 합니다. 즉, AI가 AI를 보조해 서로 피드백을 주면서 발전할 수 있게 되었습니다.

CriticGPT도 챗GPT와 비슷하게 RLHF로 훈련되었는데요. 앞서 설명한 것처럼 CriticGPT는 실수(오류)가 포함된 입력(프롬프트)을 보고 피드백해야 했습니다. 그래서 AI 트레이너에게 챗GPT가 작성한 코드에 실수(오류)를 삽입한 다음, 방금 삽입한 실수를 잡는 것처럼 예제 피드백을 작성하도록 요청하는 방식으로 학습했습니다.

(RLHF(인간 피드백을 통한 강화 학습): AI 모델이 더 나은 성능을 발휘할 수 있도록 인간의 피드백을 활용하는 학습 방법. AI가 작성한 문장을 읽어보고 잘못된 부분을 지적하거나 고쳐주는 피드백을 반복하는 학습 방법입니다.)

OpenAI의 연구 결과에 따르면 CriticGPT가 작성한 피드백이 챗GPT의 피드백보다 63% 더 선호되었습니다. 게다가 개발자들이 "완벽하다"라고 표시한 데이터셋에서도 24%의 오류를 추가로 발견했다고 합니다. OpenAI는 이런 결과에 대해 CriticGPT가 불필요한 사소한 문제를 덜 지적하고 환각을 적게 생성했기 때문이라 밝혔습니다.

CriticGPT의 작동방식

CriticGPT와 챗GPT를 이용한 버그 탐지 및 피드백 작성 과정을 설명하는 이미지

GPT-4가 질문에 대한 답변을 생성하면, CriticGPT가 답변을 검토하고 문제점을 찾아내 피드백해 주고, GPT-4는 CriticGPT의 피드백을 반영해 답변을 수정합니다. 이 과정을 반복하면서 더 정확하고 신뢰할 수 있는 답변을 제공합니다. 그래서 CriticGPT는 환각현상(할루시네이션)을 크게 줄일 수 있습니다.

OpenAI는 앞으로 CriticGPT를 RLHF 파이프라인에 통합하고 확장해 실용화할 계획이라고 밝혔습니다. CriticGPT가 앞으로 더욱 발전하게 된다면, 단순한 오류 검출을 넘어 AI 모델이 스스로 학습하고 개선하는 데 큰 역할을 할 것으로 기대됩니다.

이번에 공개된 CriticGPT에 대한 뉴스레터를 작성하면서 AI의 무한한 가능성을 보여주는 첫 단추이지 않을까 생각했습니다.

뉴스레터 피드백!