[속보] OpenAI GPT-5 발표! 우리를 실망시키지 않았을까?

[속보] OpenAI GPT-5 발표! 우리를 실망시키지 않았을까?

Bopyo Park

에코 멤버님들, 안녕하세요.

2022년 말 ChatGPT가 공개되며 작업 방식이 크게 달라졌습니다. 질문과 대화만으로 초안을 만들고, 아이디어를 실무로 끌어올리는 흐름이 생겼습니다. 다만 한 가지는 쉽게 바뀌지 않았습니다. 환각 현상이라던지 맥락을 이해하지 못한 상태에서 답변으로 이어지는 오류 등 이런 핵심적인 문제 때문에 일을 전적으로 맡길 수는 없었습니다.

초안과 발상 단계에서의 효용은 분명했지만, 프로젝트 설계·규정 준수·정밀 검증이 필요한 작업은 결국 사람이 마지막을 책임져야 했습니다. 그런데 오늘 오픈 AI에서 GPT-5를 공개했습니다. 기존 추론 모델의 업데이트가 아닌 버전이 4에서 5로 바뀌는 오픈AI에서도 의미있는 업데이트이기 때문에 실질적인 그동안의 문제들이 해결될 수 있을까? 라는 관점에서 발표 영상을 눈여겨 봤고 그 내용을 정리해서 보내드립니다.

빠르게 확인해보세요.

GPT는 과연 우리를 실망시키지 않을 수 있을까요?

출처: OpenAI

가장 큰 전환: ‘그럴듯함’에서 ‘문제 해결 과정’으로

Point 1. 계획적 추론의 기본값화

GPT-4O, O3, MINI 모델등 지속적인 모델들의 업데이트 때문에 어떤 모델을 선택해야 할지 스트레스 받지 않으셨나요? 저만 그런것은 아닐텐데요. GPT-5는 사용자의 질문을 받으면 잠깐 멈추어 계획을 세우고 단계적으로 실행하는 방식이 기본값처럼 작동합니다. 기존 O3, O4 모델들은 이제 사라집니다. 정말 속시원하죠? 저는 개인적으로 속시원합니다. 너무 복잡했습니다. O3, O4-mini, O4-mini-high 등

다른 모델들은 이제 사라진 상태 (GPT-5)

Point 2. ‘조수’에서 ‘공동 제작자’로

간단한 앱 요구에도 화면 구조, 핵심 기능, 최소 테스트까지 한 번에 묶여 나옵니다. 비개발 직군도 아이디어 → 프로토타입 → 개선 루프를 스스로 돌릴 수 있습니다. 실행력은 속도에서 나오는데, 이 지점의 체감이 큽니다.

출처: @Matt Shumer

한 해외 유저는 GPT-5를 미리 사용하면서 가장 큰 깨달음은 이제 바이브 코딩으로 간단한 웹앱의 형태를 지나 신규 모델을 통해서는 실제 바이브 코딩 그러니까 진짜 기술적인 소프트웨어도 코딩할 수 있다는 의견을 내놓았습니다. 코딩에서의 퍼포먼스도 주목할만하고 바이브 코딩을 점점 더 무시할 수 없는 수준에 이르렀다는 평입니다.

여러분은 어떻게 생각하시나요? 이 부분은 물론 사용하면서 점차 각 사용자들의 의견이 나올것입니다. 계속해서 GPT-5는 우리를 실망시켰을지? 기대를 충족시켰을지 이어가보겠습니다.

출처: OpenAI
출처: OpenAI

Point 3. GPT-5, '환각'과의 전쟁에서 거둔 압도적 승리: 지표 심층 분석

개인적으로 GPT-5 발표에서 가장 흥미로운 데이터 중 하나는 바로 AI의 고질적인 문제였던 '환각(Hallucination)' 현상을 얼마나 극복했는지를 보여주는 지표였습니다. AI를 업무에 깊이 사용해 본 분들이라면 누구나 AI가 그럴듯한 거짓말을 만들어내는 문제 때문에 그 결과물을 100% 신뢰하기 어려웠던 경험이 있으실 겁니다.

OpenAI는 이번 발표에서 GPT-5가 단순한 성능 향상을 넘어, '신뢰성'과 '정확성'에서 비약적인 발전을 이루었음을 구체적인 수치로 증명했습니다. 아래는 발표 화면에 공개된 세 가지 핵심 지표에 대한 전문적인 분석입니다.

출처: OpenAI

1. 개방형 데이터셋 기반 환각 비율: 오류율 6분의 1 수준으로 감소

첫 번째 그래프는 공개된 벤치마크 데이터셋(LongFact, FActScore)을 사용해 모델이 생성한 답변 속 개별 주장의 오류율(Claim-level hallucination rate)을 측정한 결과입니다.

  • 기존 모델 (OpenAI o3): 평균 4.5% ~ 5.7%의 주장에서 오류를 보였습니다.
  • GPT-5 (with thinking): 이 수치를 0.7% ~ 1.0% 수준까지 극적으로 낮췄습니다.

이는 사실에 기반한 질문에 대해, GPT-5가 기존 모델 대비 환각 오류를 약 6~7배가량 줄였음을 의미합니다. 단순히 더 똑똑해진 것을 넘어, 훨씬 더 '정직'해진 것입니다.

출처: OpenAI

2. 헬스케어 분야의 심각한 환각 비율: 치명적 오류 10분의 1 수준으로 감소

두 번째 그래프는 오류가 치명적일 수 있는 '헬스케어' 분야에서의 심각한 환각(Hard Hallucinations) 비율을 보여줍니다. 이는 AI의 신뢰성을 평가하는 가장 중요한 척도 중 하나입니다.

  • GPT-4o: 15.8%의 높은 환각 비율을 보였습니다.
  • GPT-5 (with thinking): 환각 비율을 1.6%까지 획기적으로 낮췄습니다.

이는 이전 세대 최고 모델 대비 오류율을 약 10분의 1 수준으로 줄인 것으로, 의료 정보 분석과 같은 고도의 정확성이 요구되는 전문 분야에서도 AI의 활용 가능성을 크게 높인 놀라운 성과입니다. 특히 GPT-5의 핵심 기능인 '추론(with thinking)' 과정이 환각 현상을 절반 이하로 줄이는 데 결정적인 역할을 했다는 점이 주목할 만합니다.

출처: OpenAI

3. 실제 ChatGPT 사용 환경에서의 응답 오류율: 실사용 오류 4분의 1로 감소

마지막 그래프는 이론적인 테스트가 아닌, 실제 수억 명의 사용자가 ChatGPT에 입력하는 프롬프트를 기반으로 '하나 이상의 오류가 포함된 답변의 비율'을 측정한 것입니다.

  • GPT-4 / GPT-4o: 약 21~22%의 답변에서 최소 한 개 이상의 오류가 발견되었습니다.
  • GPT-5 (with thinking): 이 비율을 4.8%까지 낮췄습니다.

이는 우리가 일상적으로 AI를 사용하며 체감하는 오류 경험을 4분의 1 이하로 줄였다는 의미입니다. GPT-5는 이제 단순한 정보 검색이나 글쓰기 보조를 넘어, 복잡한 실제 업무에서도 훨씬 더 신뢰할 수 있는 파트너가 될 수 있음을 시사합니다.

결론적으로, GPT-5는 '환각과의 전쟁'에서 결정적인 개선이 되었다는 발표를 했습니다. 실제 사용해봐야 알겠지만 정말 많이 개선이 되었다면 기대가 되는 부분입니다. 이는 AI가 단순한 '창의적인 도구'를 넘어, 연구, 분석, 기획 등 '사실에 기반한 전문가 영역'에서 본격적으로 활약할 수 있는 신뢰의 기반을 마련했다는 점에서 매우 중요한 진전이라 할 수 있습니다.

출처: OpenAI
  • Point 4. GPT-5 업데이트 핵심

이 외에도 1시간이 넘는 시간 라이브로 발표를 진행하다보니 많은 업데이트 내용이 있었습니다. 아래와 같이 정리해드립니다.

  • 제공 범위: ChatGPT 무료·플러스·프로·팀에 탑재, 엔터프라이즈·EDU는 순차 확대. 플러스는 사용량 상향, 프로는 사실상 무제한에 가까운 이용.
  • 통합 워크플로우: 한 환경에서 파일·이미지 업로드, Python 데이터 분석, Canvas, 이미지 생성, 메모리, 사용자 지정 지침이 함께 동작.
  • 추론 방식: 즉답 중심에서 계획→실행형 추론으로 전환. 필요 시 사고 흐름(Reasoning trace) 확장으로 내부 사고 과정 확인.
  • 시각화·코드 생성: 설명에 그치지 않고 Canvas에서 SVG/HTML 시각화 즉석 생성, 프런트엔드 코드(예: React/Tailwind)까지 작성해 데모 구동.

  • 음성 경험: 고품질 음성 대화 전면 제공(무료는 시간 제한, 유료는 제약 적음). 맞춤 음성커스텀 GPT×보이스 결합, 화면을 함께 보며 대화·번역 지원.
  • 정확성·안전성: 사실성 향상·환각 감소, 기만적 행위 억제와 안전성 훈련 개선을 강조.
  • 성능 지표: SWE-Bench 최고 기록(코딩·에이전트), MMMU 최고 기록(다중모달 시각 추론) 보고.

  • 제품 라인 연결: GPT-5 추론 기술이 ChatGPT 에이전트Deep Research의 기반으로 사용.
  • API/개발자: 모델군 GPT-5 / GPT-5 Mini / GPT-5 Nano 제공. 가격입력 100만 토큰 $25, 출력 100만 토큰 $10. Mini/Nano는 더 빠르고 저렴하며, Nano는 약 25배 저렴으로 안내.
  • 운영 기능: 툴 호출 프리앰블(도구 호출 전 지시 서문) 도입, 자세함(verbosity) 매개변수로 응답 밀도 제어.
출처: AI 코리아 커뮤니티 유튜브

오늘 이 글에서는 환각 현상에 대해서 주로 다루었습니다. 그러나 이 외에도 위에서 업데이트 된 내용처럼 많은 업데이트가 이루어졌으니, 꼭 아래 영상 풀버전을 보시길 바랍니다. 한국어 풀버전과 타임 스탬프를 잘 준비해놓았으니 필요한 부분들 바로 보실 수 있으실 것입니다.

AI는 끊임없이 발전하고 있습니다. 많은 소식들이 다루어지는데 그 중에서 우리들의 삶, 특히 비즈니스에 필요한 부분들을 앞으로도 잘 정리해서 전달해드리도록 하겠습니다. 항상 글 읽어주셔서 감사합니다.

출처: AI 코리아 커뮤니티 유튜브


트렌드 도구👀

  • Fyxer ai > 골치아픈 이메일 인박스는 이제 안녕! 똑똑한 AI 이메일 비서
  • Readdy > 한국어 채팅도 가능한 AI 홈페이지 제작 서비스.
  • Felo.ai > 논문 찾기와 에이전트 검색에 특화된 에이전트 비서.
  • Heygen > 나만의 커스텀 AI 아바타 만들기의 선두주자.
  • Mixo > AI로 웹사이트 손쉽게 만들기.
  • MAKE > AI 자동화 워크 플로우.
  • Teamsaver.ai > 이메일을 통해 매일 팀 업데이트를 수집하는 AI 에이전트.
  • Skyvern 2.0 > 일반 영어로 AI 브라우저 에이전트를 구축합니다.
  • AI Dialog 1.0 재생 > 매우 감성적인 AI 텍스트 음성 변환 모델입니다.
  • Gamma 프레젠테이션, 웹페이지, 문서뿐만 아니라 소셜 미디어 형식까지 손쉽게 AI로 제작 (최근 업데이트)
  • 1legion 절반 가격으로 누리는 고성능 클라우드 컴퓨팅

*Affiliate links and regular links may be included.


뉴스레터 광고 공간 (광고주를 모집합니다)

For newsletter banner advertising inquiries, please contact: Bopyo@aikoreacommunity.com

이곳에 서비스를 소개하세요!

뉴스레터 배너 광고 문의: Bopyo@aikoreacommunity.com


뉴스레터 편집장 소개

Comments