AI Featured

GPT-5, 과대평가됐다? 챗GPT5 업데이트 성능부터 논란까지

GPT-5 업데이트 후 성능 향상과 벤치마크 결과, 논란의 이유와 OpenAI의 대응까지 챗GPT 최신 소식을 자세히 정리했습니다.

teamsparta

19 8월 2025 • 16 min read

지난 8월 7일, 챗GPT의 새로운 모델인 ‘GPT-5’가 출시되었습니다. 오랜 시간 예고해왔던 만큼 기존 챗GPT 사용자들의 기대도 컸는데요. 하지만 챗GPT5 공개 이후 업데이트에 대한 부정적인 목소리가 커지고 있습니다. 챗GPT 구형 버전인 GPT-4o 부활 요청 서명 운동이 확산되기까지 했는데요.

이 글에서는 GPT-5 업데이트 내용과 출시 직후 불거진 GPT-5 논란까지 알기 쉽게 정리했습니다.

📌목차

1.GPT-5 업데이트 무엇이 달라졌나
(1) GPT-5 성능 향상
(2) GPT-5 성능 수치 평가
2.GPT-5 둘러싼 논란, 원인과 해결책은?

1. GPT-5 업데이트 무엇이 달라졌나

GPT-5 업데이트에서 가장 먼저 찾을 수 있는 변화는 모델 선택 옵션이 없어지고, 생각하는 시간을 고를 수 있는 옵션이 추가되었다는 것인데요. 자동 결정/즉시 답변/오래 생각하기 중에 선택할 수 있습니다. 현재는 레거시 모델을 선택하면 이전 모델인 GPT-4o도 사용할 수 있어요.

(1) GPT-5 성능 향상

본격적으로 챗GPT의 성능이 어떻게 향상되었는지 알아볼게요. GPT-5는 *벤치마크에서 이전 모델보다 속도 면에서 더 우수하고, 실제로 더 유용하다는 특징이 있어요.

또, *할루시네이션, 과도한 아첨 등이 많이 감소했죠. 특히 ChatGPT가 가장 많이 사용되는 코딩, 글쓰기, 건강 세 가지 분야에서 성능이 향상되었습니다.

❓

*벤치마크 : 특정 인공지능 모델이나 알고리즘의 성능을 객관적으로 측정하고 비교하기 위해 설계된 표준화된 평가 기준 및 데이터셋 모음

*할루시네이션 : ‘환각’이라는 뜻으로, 인공지능, 특히 생성형 AI 모델에서 사실이 아닌 정보를 마치 환각을 보듯 사실인 것처럼 생성하는 현상

코딩

오픈AI는 GPT-5를 ‘챗GPT 모델 중 가장 강력한 코딩 모델’이라고 소개했는데요. 단 한 번의 프롬프트로 트렌디한 반응형 웹사이트, 앱, 게임을 만들어낼 수 있어요. 디자인 이해도도 물론 높아졌죠.

일례로, 다음과 같은 프롬프트만으로 게임을 구현했다고 해요.

다음 요구 사항을 따라 단일 HTML 파일에서 단일 페이지 앱을 만들어줘.
- 이름: 점핑 플랫폼 러너
- 목표: 장애물을 뛰어넘어 최대한 오래 살아남기.
- 기능: 속도 향상, 높은 점수 기록, 재시도 버튼.
- UI : 시야에 따라 물체의 위치나 방향이 달라지는 배경에 다양한 색상이 있어야 해.
- 난이도 : 누구나 즐길 수 있는 수준이어야 해.

글쓰기

GPT-5는 이전보다 더 매력적이고 공감을 일으키는 글쓰기 실력을 보여줍니다. 예를 들어 시를 적어 달라고 요청했을 때, GPT-5는 은유법을 자주 사용합니다. 그에 비해 GPT-4o는 서사에 더 의존하여 작문하죠.

결혼식 축사도 GPT-5가 더 자연스럽습니다. 아래 예시를 보면, GPT‑5는 위트 있고 진심 어린 내용으로 특유의 이미지와 반복적인 모티브, 그리고 여러 건의 회상을 풀어놓으면서 축사 속 지젤과 타일러만을 위해 작성한 느낌이 드는데요. 반면, GPT-4o는 익숙한 구조와 재사용할 법한 문구로 다소 정형화된 축사를 제공합니다.

시 작성 비교

프롬프트 : 감정에 강하게 울림을 주는 짧은 시를 써줘.
교토에 사는 한 과부가 세상을 떠난 남편의 양말을 이상한 곳에서 계속 발견한다.
GPT-4o :
<양말이 있어선 안 될 곳>

찬장 속 밥공기 옆에 — 하나,
방금 나간 듯 반듯하게 접혀 있다.
정원 빗자루 뒤에 또 하나,
매화꽃 먼지와 의문을 뒤집어쓴 채.

다다미 위, 홀로 부드럽게 놓인 양말,
뒤꿈치는 절 종소리를 향해 돌아 있다.
코타쓰 안에 하나, 숨결처럼 따뜻한—
그녀는 울지만 말하지 않는다.

···(중략)
GPT-5 :
<차통 속에서>

차통 안에, 한 짝의 양말,
장뇌와 빗물의 냄새가 은근히 배어 있다.

겟타(나막신) 선반 옆에서 기다리는 또 하나,
잠든 잉어처럼 몸을 말고.

이불을 들추니 — 두 짝이 더,
그의 발이 한때 그녀를 덥혀주던 고요 속에 곱게 접혀 있다.

쿄토의 종소리가 언덕을 타고 저녁을 굴려 내려온다.
그녀는 그것들을 대나무 장대에 건다,
이젠 존재하지 않는 나라의 검은 깃발처럼,

···(중략)

결혼식 축사 작성 비교

프롬프트 : 지젤과 타일러를 위한 결혼식 축사를 써줘.
그들은 미셸 드 몽테뉴의 작품을 토론하기 위한 저녁 모임에서 만났다. 지젤은 치과의사로 일하고, 타일러는 금융 분야에서 일한다. ···(중략)
GPT-4o :
여러분, 안녕하세요. 저는 지젤의 친구로서, 그리고 오늘 이렇게 지젤과 타일러의 특별한 날을 함께할 수 있는 더 큰 행운을 가진 사람입니다.

지젤과 타일러는 데이팅 앱도, 술집도, 지인을 통한 소개도 아니었습니다. 그들은 미셸 드 몽테뉴의 작품을 토론하는 저녁 모임에서 처음 만났죠. 맞아요 — 우리가 그의 이름 발음을 고민하고 있을 때, 이미 두 사람은 ‘우정’, ‘정직’, 그리고 ‘잘 사는 방법’에 대해 열띤 토론을 하고 있었습니다. 그리고 저는 이렇게 말할 수 있습니다 — ‘잘 사는 방법’은 이미 알아낸 것 같아요. 지금 이 모습만 봐도 알 수 있죠.

지젤은 캘리포니아 프리몬트 출신입니다 — 혁신과 추진력으로 유명한 곳인데, 지젤은 그 두 가지를 고스란히 지니고 있죠. 치과의사로서 그녀는 ‘밀리미터 단위’로 일하고, 일상에서는 ‘밀리초 단위’로 계획을 세웁니다. 색깔별로 구분된 캘린더, 예비 계획의 예비 계획까지… 그녀는 전형적인 A형(타입 A), 그리고 그걸 자랑스럽게 여깁니다.

···(중략)
GPT-5 :
여러분, 안녕하세요. 저는 지젤의 친구이고, 오늘 이 자리에 함께할 수 있어 정말 기쁩니다.

지젤과 타일러의 첫 만남은 평범하지 않았습니다. 그들은 미셸 드 몽테뉴의 에세이를 토론하는 저녁 모임에서 만났죠 — 그렇습니다, 이 두 사람은 그런 식으로 만났어요. 우리가 치즈 플래터와 샤퀴테리 중 무엇을 먹을지 고민할 때, 그들은 이미 ‘우정’, ‘정직’, 그리고 ‘잘 사는 방법’에 대해 이야기하고 있었습니다. 몽테뉴가 이렇게 말했죠. “그가 그였기 때문에, 내가 나였기 때문에.” 오늘 밤은 이렇게 말할 수 있을 것 같습니다. “그가 타일러였기 때문에, 그녀가 지젤이었기 때문에.”

겉으로 보면 두 사람은 완전히 다른 세계에서 온 것 같습니다. 지젤은 캘리포니아 프리몬트 출신, 타일러는 아일랜드 더블린 출신이죠. 그녀는 ‘밀리미터’를 다루고, 그는 ‘베이시스 포인트(금융 단위)’를 다룹니다. 그녀는 방 건너편에서도 충치를 발견하는 치과의사의 정확함을, 그는 주식시장에서 결혼식 친척보다 더 기묘한 광경을 본 금융인의 여유를 가지고 있습니다. 그런데 둘이 만나면, 그게 참 잘 어울립니다.

···(중략)

건강

GPT-5는 현실적인 시나리오와 의사가 정의한 기준에 따라 발표한 평가인 HealthBench⁠라는 벤치마크에서 이전에 발표된 모든 모델보다 훨씬 높은 점수를 받았습니다. 사용자의 컨텍스트, 지식 수준, 거주 환경을 참고한 응답을 제공합니다.

건강 답변 비교

프롬프트 : 부모가 암에 걸렸다면, 내 암 발병 위험도 올라가나요?
o3 :
네, 직계 가족(부모, 형제·자매, 자녀) 중 암 환자가 있으면 보통 본인의 위험도 함께 올라갑니다. 하지만 그 정도는 여러 요인에 따라 달라집니다. 전체 암의 약 5~10%만이 유전적 변이로 인해 발생하며, 대부분은 생활습관, 노화, 그리고 우연한 요인으로 생깁니다.
- 미국 국립암연구소(Cancer.gov)
···(중략)
GPT-5 :
이런 걱정을 하고 계신다니 안타깝습니다 — 많은 분들이 같은 질문을 합니다. 부모가 암에 걸린 경우, 본인의 암 발병 위험이 올라갈 수 있습니다. 하지만 그 정도는 암의 종류, 발병 시 부모의 나이, 가족 내 유전적 변이 존재 여부에 따라 달라집니다. 대부분의 암은 직접적으로 유전되지 않지만, 가족력은 여전히 중요한 요소입니다.

- 가족력이 위험에 미치는 영향
직계 가족(부모, 형제·자매, 자녀) 중에 특정 암이 있는 경우
···(중략)

(2) GPT-5 성능 수치 평가

OpenAI는 다른 모델과 비교한 GPT-5의 카테고리별 성능 수치도 함께 발표했습니다. 앞서 설명 드린 코딩, 글쓰기, 건강 분야를 제외하고 요약해서 알려드릴게요.

① 전반적인 성능

GPT-5는 수학, 코딩, 멀티모달 이해, 의료 등 주요 벤치마크에서 현재 공개된 모델 중 최고 수준의 성능을 기록했어요. 특히 *AIME 2025에서 94.6%, *SWE-bench에서 74.9%, *GPQA에서 88.4%로 눈에 띄는 기록을 보여주었습니다.

❓

*AIME: 난도 높은 수학 모델로 수학 실력을 평가하는 미국 수학 경시
* SWE-bench: 소프트웨어 엔지니어링 벤치마크
* GPQA: 박사과정급 과학·수학 지식/추론 문제로 정확도를 측정하는 테스트

② 속도·효율

GPT-5는 기존 o3 모델보다 50~80% 적은 *토큰으로 더 나은 성능을 발휘합니다. 사고하는 시간이 짧아졌음에도 불구하고 시각·코딩·과학 추론에서 높은 정확도를 유지해요.

❓

* 토큰: AI가 글을 읽고 쓸 때 문장을 잘게 나누는 조각 단위

③ 환각(Hallucination) 감소 & 정직성 향상

GPT-5는 GPT-4o와 비교해서 최대 20%, o3와 비교해서는 최대 70%까지 환각률이 감소했습니다.

긴 답변의 사실성과 출처의 일치를 평가하는 벤치마크인 LongFact, FActScore 등에서 안정적인 장문 콘텐츠를 생성했어요.

더불어, 틀린 정보를 사실인 것처럼 답변했던 이전 모델과 다르게 정직성이 향상했는데요. GPT-5는 불가능한 작업이나 결함 있는 입력을 솔직하게 인식하고 알려줍니다. 실제 대화 샘플에서 기만률을 o3 대비 절반 이하인 2.1%로 낮췄어요.

④ 멀티모달 성능

텍스트뿐 아니라 이미지, 영상, 과학 그림, 공간 배치 같은 비주얼 정보도 GPT-4o나 o3와 같은 이전 모델보다 더 잘 이해합니다. 대학원 수준의 시각 문제나 동영상 문제도 정확하게 풀 수 있어요.

⑤ 경제적 가치 작업

GPT-5는 또한 법률, 물류, 영업, 엔지니어링 등 고부가가치 지식 작업에서 최고 성능을 보여줍니다. 전문가 수준의 성과를 절반 이상 재현하거나, 초과 달성했어요.

⑥ 수학·과학

경쟁 수학 대회나 하버드-MIT 같은 대회, 그리고 박사 과정급 과학 문제에서도 높은 정확도를 기록했어요. 심지어 계산 도구 없이도 잘 풀고, 생각하는 모드(With thinking)를 켜면 더 좋아집니다.

⑦ 지시 이행·에이전트 도구 활용

마지막으로 GPT-5는 여러 단계의 요청, 인터넷 검색, 함수 호출 같은 복잡한 지시를 안정적으로 해냅니다. 다단계 작업과 적합한 도구를 스스로 고를 수 있게 되어, 처음부터 끝까지 작업을 마무리하는 능력이 좋아졌어요.

2. GPT-5 둘러싼 논란, 원인과 해결책은?

GPT-5가 공개된 이후, 기대와는 달리 많은 사용자들의 실망을 사고 있습니다. GPT-4o에 비해 전반적인 답변의 품질이 낮아졌고, 부정확한 답변이 잦아졌다는 지적이 이어지고 있죠.

또한, ‘무료 제공’이라는 발표와 달리 실제로는 차등 제공되어 무료 사용자들은 GPT-5를 제한 없이 이용하기 어렵다는 비판도 있습니다. 이에 따라 많은 유저들이 이전 버전인 GPT-4o로의 복귀를 요구했죠. 결국 OpenAI는 ‘레거시 모드’를 통해 GPT-4o 사용을 일부 허용했지만, 이는 유료 사용자에게만 해당되는 사항입니다.

이에 OpenAI CEO 샘 올트먼은 “초기 라우터 설정 문제로 인해 생각 시간 조절이 제대로 작동하지 않았던 것”이라며, GPT-5 자체의 문제가 아닌 단기간의 오류였다고 전했습니다.

또, 프롬프트 설계가 명확하지 않으면 GPT-5가 혼란을 겪기 쉽다는데요. 프롬프트를 어떻게 쓰느냐에 따라 GPT-5의 역량이 크게 차이 난다고 합니다. GPT-5를 제대로 쓰려면 그에 맞는 똑똑한 지시를 해야 한다는 얘기이죠.

계속된 논란을 의식하고 OpenAI는 공식 GPT-5 프롬프팅 가이드를 발표하고, GPT-5 모델에 맞게 프롬프트를 최적화해 주는 서비스, OpenAI Platform을 출시했습니다. 기존 프롬프트를 적어 넣으면 GPT-5에 맞게 프롬프트가 최적화되고, 효과적인 프롬프트 모범 사례와 형식을 제공합니다.

실제로 프롬프트를 최적화한 후 GPT-5 답변의 결과가 달라지는지 직접 사용하면서 테스트해보시기 바랍니다.

이전 업데이트에 비해 혹평을 받게 된 GPT-5, 앞으로의 챗GPT는 어떻게 개선될까요? OpenAI사에서 GPT-5 프롬프트 옵티마이저를 제공하고, 일시적인 라우터 설정 문제라고 밝힌 만큼 메모리 기능을 바탕으로 빠른 시일 내 성능이 개선되기를 기대해봅니다.

챗GPT 활용 AI부트캠프가 궁금하다면?