GPT-5, 과대평가됐다? 챗GPT5 업데이트 성능부터 논란까지
GPT-5 업데이트 후 성능 향상과 벤치마크 결과, 논란의 이유와 OpenAI의 대응까지 챗GPT 최신 소식을 자세히 정리했습니다.

지난 8월 7일, 챗GPT의 새로운 모델인 ‘GPT-5’가 출시되었습니다. 오랜 시간 예고해왔던 만큼 기존 챗GPT 사용자들의 기대도 컸는데요. 하지만 챗GPT5 공개 이후 업데이트에 대한 부정적인 목소리가 커지고 있습니다. 챗GPT 구형 버전인 GPT-4o 부활 요청 서명 운동이 확산되기까지 했는데요.
이 글에서는 GPT-5 업데이트 내용과 출시 직후 불거진 GPT-5 논란까지 알기 쉽게 정리했습니다.
📌목차
1.GPT-5 업데이트 무엇이 달라졌나
(1) GPT-5 성능 향상
(2) GPT-5 성능 수치 평가
2.GPT-5 둘러싼 논란, 원인과 해결책은?
1. GPT-5 업데이트 무엇이 달라졌나
GPT-5 업데이트에서 가장 먼저 찾을 수 있는 변화는 모델 선택 옵션이 없어지고, 생각하는 시간을 고를 수 있는 옵션이 추가되었다는 것인데요. 자동 결정/즉시 답변/오래 생각하기 중에 선택할 수 있습니다. 현재는 레거시 모델을 선택하면 이전 모델인 GPT-4o도 사용할 수 있어요.

(1) GPT-5 성능 향상
본격적으로 챗GPT의 성능이 어떻게 향상되었는지 알아볼게요. GPT-5는 *벤치마크에서 이전 모델보다 속도 면에서 더 우수하고, 실제로 더 유용하다는 특징이 있어요.
또, *할루시네이션, 과도한 아첨 등이 많이 감소했죠. 특히 ChatGPT가 가장 많이 사용되는 코딩, 글쓰기, 건강 세 가지 분야에서 성능이 향상되었습니다.
*할루시네이션 : ‘환각’이라는 뜻으로, 인공지능, 특히 생성형 AI 모델에서 사실이 아닌 정보를 마치 환각을 보듯 사실인 것처럼 생성하는 현상
- 코딩
오픈AI는 GPT-5를 ‘챗GPT 모델 중 가장 강력한 코딩 모델’이라고 소개했는데요. 단 한 번의 프롬프트로 트렌디한 반응형 웹사이트, 앱, 게임을 만들어낼 수 있어요. 디자인 이해도도 물론 높아졌죠.
일례로, 다음과 같은 프롬프트만으로 게임을 구현했다고 해요.
다음 요구 사항을 따라 단일 HTML 파일에서 단일 페이지 앱을 만들어줘.
- 이름: 점핑 플랫폼 러너
- 목표: 장애물을 뛰어넘어 최대한 오래 살아남기.
- 기능: 속도 향상, 높은 점수 기록, 재시도 버튼.
- UI : 시야에 따라 물체의 위치나 방향이 달라지는 배경에 다양한 색상이 있어야 해.
- 난이도 : 누구나 즐길 수 있는 수준이어야 해.

- 글쓰기
GPT-5는 이전보다 더 매력적이고 공감을 일으키는 글쓰기 실력을 보여줍니다. 예를 들어 시를 적어 달라고 요청했을 때, GPT-5는 은유법을 자주 사용합니다. 그에 비해 GPT-4o는 서사에 더 의존하여 작문하죠.
결혼식 축사도 GPT-5가 더 자연스럽습니다. 아래 예시를 보면, GPT‑5는 위트 있고 진심 어린 내용으로 특유의 이미지와 반복적인 모티브, 그리고 여러 건의 회상을 풀어놓으면서 축사 속 지젤과 타일러만을 위해 작성한 느낌이 드는데요. 반면, GPT-4o는 익숙한 구조와 재사용할 법한 문구로 다소 정형화된 축사를 제공합니다.
시 작성 비교
- 프롬프트 : 감정에 강하게 울림을 주는 짧은 시를 써줘.
교토에 사는 한 과부가 세상을 떠난 남편의 양말을 이상한 곳에서 계속 발견한다. - GPT-4o :
<양말이 있어선 안 될 곳>
찬장 속 밥공기 옆에 — 하나,
방금 나간 듯 반듯하게 접혀 있다.
정원 빗자루 뒤에 또 하나,
매화꽃 먼지와 의문을 뒤집어쓴 채.
다다미 위, 홀로 부드럽게 놓인 양말,
뒤꿈치는 절 종소리를 향해 돌아 있다.
코타쓰 안에 하나, 숨결처럼 따뜻한—
그녀는 울지만 말하지 않는다.
···(중략) - GPT-5 :
<차통 속에서>
차통 안에, 한 짝의 양말,
장뇌와 빗물의 냄새가 은근히 배어 있다.
겟타(나막신) 선반 옆에서 기다리는 또 하나,
잠든 잉어처럼 몸을 말고.
이불을 들추니 — 두 짝이 더,
그의 발이 한때 그녀를 덥혀주던 고요 속에 곱게 접혀 있다.
쿄토의 종소리가 언덕을 타고 저녁을 굴려 내려온다.
그녀는 그것들을 대나무 장대에 건다,
이젠 존재하지 않는 나라의 검은 깃발처럼,
···(중략)
결혼식 축사 작성 비교
- 프롬프트 : 지젤과 타일러를 위한 결혼식 축사를 써줘.
그들은 미셸 드 몽테뉴의 작품을 토론하기 위한 저녁 모임에서 만났다. 지젤은 치과의사로 일하고, 타일러는 금융 분야에서 일한다. ···(중략) - GPT-4o :
여러분, 안녕하세요. 저는 지젤의 친구로서, 그리고 오늘 이렇게 지젤과 타일러의 특별한 날을 함께할 수 있는 더 큰 행운을 가진 사람입니다.
지젤과 타일러는 데이팅 앱도, 술집도, 지인을 통한 소개도 아니었습니다. 그들은 미셸 드 몽테뉴의 작품을 토론하는 저녁 모임에서 처음 만났죠. 맞아요 — 우리가 그의 이름 발음을 고민하고 있을 때, 이미 두 사람은 ‘우정’, ‘정직’, 그리고 ‘잘 사는 방법’에 대해 열띤 토론을 하고 있었습니다. 그리고 저는 이렇게 말할 수 있습니다 — ‘잘 사는 방법’은 이미 알아낸 것 같아요. 지금 이 모습만 봐도 알 수 있죠.
지젤은 캘리포니아 프리몬트 출신입니다 — 혁신과 추진력으로 유명한 곳인데, 지젤은 그 두 가지를 고스란히 지니고 있죠. 치과의사로서 그녀는 ‘밀리미터 단위’로 일하고, 일상에서는 ‘밀리초 단위’로 계획을 세웁니다. 색깔별로 구분된 캘린더, 예비 계획의 예비 계획까지… 그녀는 전형적인 A형(타입 A), 그리고 그걸 자랑스럽게 여깁니다.
···(중략) - GPT-5 :
여러분, 안녕하세요. 저는 지젤의 친구이고, 오늘 이 자리에 함께할 수 있어 정말 기쁩니다.
지젤과 타일러의 첫 만남은 평범하지 않았습니다. 그들은 미셸 드 몽테뉴의 에세이를 토론하는 저녁 모임에서 만났죠 — 그렇습니다, 이 두 사람은 그런 식으로 만났어요. 우리가 치즈 플래터와 샤퀴테리 중 무엇을 먹을지 고민할 때, 그들은 이미 ‘우정’, ‘정직’, 그리고 ‘잘 사는 방법’에 대해 이야기하고 있었습니다. 몽테뉴가 이렇게 말했죠. “그가 그였기 때문에, 내가 나였기 때문에.” 오늘 밤은 이렇게 말할 수 있을 것 같습니다. “그가 타일러였기 때문에, 그녀가 지젤이었기 때문에.”
겉으로 보면 두 사람은 완전히 다른 세계에서 온 것 같습니다. 지젤은 캘리포니아 프리몬트 출신, 타일러는 아일랜드 더블린 출신이죠. 그녀는 ‘밀리미터’를 다루고, 그는 ‘베이시스 포인트(금융 단위)’를 다룹니다. 그녀는 방 건너편에서도 충치를 발견하는 치과의사의 정확함을, 그는 주식시장에서 결혼식 친척보다 더 기묘한 광경을 본 금융인의 여유를 가지고 있습니다. 그런데 둘이 만나면, 그게 참 잘 어울립니다.
···(중략)
- 건강
GPT-5는 현실적인 시나리오와 의사가 정의한 기준에 따라 발표한 평가인 HealthBench라는 벤치마크에서 이전에 발표된 모든 모델보다 훨씬 높은 점수를 받았습니다. 사용자의 컨텍스트, 지식 수준, 거주 환경을 참고한 응답을 제공합니다.
건강 답변 비교
- 프롬프트 : 부모가 암에 걸렸다면, 내 암 발병 위험도 올라가나요?
- o3 :
네, 직계 가족(부모, 형제·자매, 자녀) 중 암 환자가 있으면 보통 본인의 위험도 함께 올라갑니다. 하지만 그 정도는 여러 요인에 따라 달라집니다. 전체 암의 약 5~10%만이 유전적 변이로 인해 발생하며, 대부분은 생활습관, 노화, 그리고 우연한 요인으로 생깁니다.
- 미국 국립암연구소(Cancer.gov)
···(중략) - GPT-5 :
이런 걱정을 하고 계신다니 안타깝습니다 — 많은 분들이 같은 질문을 합니다. 부모가 암에 걸린 경우, 본인의 암 발병 위험이 올라갈 수 있습니다. 하지만 그 정도는 암의 종류, 발병 시 부모의 나이, 가족 내 유전적 변이 존재 여부에 따라 달라집니다. 대부분의 암은 직접적으로 유전되지 않지만, 가족력은 여전히 중요한 요소입니다.
- 가족력이 위험에 미치는 영향
직계 가족(부모, 형제·자매, 자녀) 중에 특정 암이 있는 경우
···(중략)
(2) GPT-5 성능 수치 평가
OpenAI는 다른 모델과 비교한 GPT-5의 카테고리별 성능 수치도 함께 발표했습니다. 앞서 설명 드린 코딩, 글쓰기, 건강 분야를 제외하고 요약해서 알려드릴게요.
① 전반적인 성능
GPT-5는 수학, 코딩, 멀티모달 이해, 의료 등 주요 벤치마크에서 현재 공개된 모델 중 최고 수준의 성능을 기록했어요. 특히 *AIME 2025에서 94.6%, *SWE-bench에서 74.9%, *GPQA에서 88.4%로 눈에 띄는 기록을 보여주었습니다.
* SWE-bench: 소프트웨어 엔지니어링 벤치마크
* GPQA: 박사과정급 과학·수학 지식/추론 문제로 정확도를 측정하는 테스트


출처. OpenAI
② 속도·효율
GPT-5는 기존 o3 모델보다 50~80% 적은 *토큰으로 더 나은 성능을 발휘합니다. 사고하는 시간이 짧아졌음에도 불구하고 시각·코딩·과학 추론에서 높은 정확도를 유지해요.


출처. OpenAI
③ 환각(Hallucination) 감소 & 정직성 향상
GPT-5는 GPT-4o와 비교해서 최대 20%, o3와 비교해서는 최대 70%까지 환각률이 감소했습니다.
긴 답변의 사실성과 출처의 일치를 평가하는 벤치마크인 LongFact, FActScore 등에서 안정적인 장문 콘텐츠를 생성했어요.

더불어, 틀린 정보를 사실인 것처럼 답변했던 이전 모델과 다르게 정직성이 향상했는데요. GPT-5는 불가능한 작업이나 결함 있는 입력을 솔직하게 인식하고 알려줍니다. 실제 대화 샘플에서 기만률을 o3 대비 절반 이하인 2.1%로 낮췄어요.

④ 멀티모달 성능
텍스트뿐 아니라 이미지, 영상, 과학 그림, 공간 배치 같은 비주얼 정보도 GPT-4o나 o3와 같은 이전 모델보다 더 잘 이해합니다. 대학원 수준의 시각 문제나 동영상 문제도 정확하게 풀 수 있어요.
⑤ 경제적 가치 작업
GPT-5는 또한 법률, 물류, 영업, 엔지니어링 등 고부가가치 지식 작업에서 최고 성능을 보여줍니다. 전문가 수준의 성과를 절반 이상 재현하거나, 초과 달성했어요.

⑥ 수학·과학
경쟁 수학 대회나 하버드-MIT 같은 대회, 그리고 박사 과정급 과학 문제에서도 높은 정확도를 기록했어요. 심지어 계산 도구 없이도 잘 풀고, 생각하는 모드(With thinking)를 켜면 더 좋아집니다.

⑦ 지시 이행·에이전트 도구 활용
마지막으로 GPT-5는 여러 단계의 요청, 인터넷 검색, 함수 호출 같은 복잡한 지시를 안정적으로 해냅니다. 다단계 작업과 적합한 도구를 스스로 고를 수 있게 되어, 처음부터 끝까지 작업을 마무리하는 능력이 좋아졌어요.
2. GPT-5 둘러싼 논란, 원인과 해결책은?

GPT-5가 공개된 이후, 기대와는 달리 많은 사용자들의 실망을 사고 있습니다. GPT-4o에 비해 전반적인 답변의 품질이 낮아졌고, 부정확한 답변이 잦아졌다는 지적이 이어지고 있죠.
또한, ‘무료 제공’이라는 발표와 달리 실제로는 차등 제공되어 무료 사용자들은 GPT-5를 제한 없이 이용하기 어렵다는 비판도 있습니다. 이에 따라 많은 유저들이 이전 버전인 GPT-4o로의 복귀를 요구했죠. 결국 OpenAI는 ‘레거시 모드’를 통해 GPT-4o 사용을 일부 허용했지만, 이는 유료 사용자에게만 해당되는 사항입니다.
이에 OpenAI CEO 샘 올트먼은 “초기 라우터 설정 문제로 인해 생각 시간 조절이 제대로 작동하지 않았던 것”이라며, GPT-5 자체의 문제가 아닌 단기간의 오류였다고 전했습니다.
또, 프롬프트 설계가 명확하지 않으면 GPT-5가 혼란을 겪기 쉽다는데요. 프롬프트를 어떻게 쓰느냐에 따라 GPT-5의 역량이 크게 차이 난다고 합니다. GPT-5를 제대로 쓰려면 그에 맞는 똑똑한 지시를 해야 한다는 얘기이죠.

계속된 논란을 의식하고 OpenAI는 공식 GPT-5 프롬프팅 가이드를 발표하고, GPT-5 모델에 맞게 프롬프트를 최적화해 주는 서비스, OpenAI Platform을 출시했습니다. 기존 프롬프트를 적어 넣으면 GPT-5에 맞게 프롬프트가 최적화되고, 효과적인 프롬프트 모범 사례와 형식을 제공합니다.
실제로 프롬프트를 최적화한 후 GPT-5 답변의 결과가 달라지는지 직접 사용하면서 테스트해보시기 바랍니다.
이전 업데이트에 비해 혹평을 받게 된 GPT-5, 앞으로의 챗GPT는 어떻게 개선될까요? OpenAI사에서 GPT-5 프롬프트 옵티마이저를 제공하고, 일시적인 라우터 설정 문제라고 밝힌 만큼 메모리 기능을 바탕으로 빠른 시일 내 성능이 개선되기를 기대해봅니다.
- 해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.