Claude Reasoning Effort, 왜 85→25로?

Claude ‘Reasoning Effort’가 조용히 낮아졌을까? 사용자 스크린샷으로 본 변화 포인트
요즘 Claude.ai 쓰면서 “예전만큼 깊게 생각 안 하는 느낌인데?”라고 느끼신 적 있나요?
레딧에 올라온 한 사용자의 비교 스크린샷이 딱 그 의문을 건드렸어요.
1) ‘Reasoning Effort’ 스크린샷 비교: 85 vs 25가 의미하는 것
레딧 글 작성자는 같은 질문을 거의 동일하게 Claude에 던졌는데, 과거(2/7)에는 reasoning effort가 85, 오늘은 25로 보인다고 했어요. 게다가 두 대화 모두 Opus 4.6에 Extended Thinking(확장 사고) 옵션이 켜진 상태였고, 플랜도 Max x5라고 명시했습니다.
이 차이는 단순히 “기분 탓” 수준이 아니라, UI에 표시되는 수치가 실제로 달라졌다는 점에서 사용자들이 민감하게 반응할 만해요. 특히 reasoning effort는 사용자가 체감하는 “답변의 깊이/추론의 밀도”와 직결된다고 느끼기 쉽기 때문에, 같은 모델·같은 옵션이라면 더더욱 변화가 크게 보일 수 있죠.

2) 왜 ‘조용히 낮아졌다’는 의심이 나오나: 불만 대응 vs 비용 최적화
작성자는 “최근 불만(complaints)에 대한 대응으로 reasoning effort를 낮춘 게 아닐까”라고 추측합니다. 이 가설이 나오는 배경은 간단해요. 사용자가 느끼기에 모델이 너무 장황하거나 느리게 답하면 불만이 생길 수 있고, 반대로 너무 성급하면 “대충한다”는 얘기가 나오거든요.
또 하나 현실적인 이유는 **비용과 지연시간(latency)**이에요. 추론을 더 오래/깊게 하면 일반적으로 계산량이 늘고 응답이 느려질 수 있습니다. 서비스 운영 측면에선 많은 사용자에게 안정적으로 제공하려면 추론 강도를 보수적으로 자동 조절하는 선택을 할 여지도 있어요. 문제는 이런 조절이 사용자에게 투명하게 안내되지 않으면, “조용히 낮춘 것 아니냐”는 불신으로 바로 이어진다는 점입니다.
3) “시스템 프롬프트에 속지 말라”는 언급: 체감 품질은 ‘표시’와 다를 수 있음
작성자는 글에서 “reasoning with full effort라고 써 있는 부분은 무시해도 된다”고 말해요. 자신이 만든 “스킬”로 Claude가 추론 수준을 다르게 하도록 유도하는 실험을 했기 때문이라고 설명합니다. 즉, 화면에 ‘풀 노력’처럼 보이는 문구가 있어도, 실제 내부 동작이나 사용자의 체감은 다를 수 있다는 전제가 깔려 있어요.
이 포인트가 중요한 이유는, 많은 AI 제품에서 표시되는 옵션/문구와 실제 동작이 1:1로 고정되지 않을 가능성이 있기 때문입니다. 사용자는 “켜놨는데 왜 달라?”를 체감하고, 운영사는 “상황에 따라 자동 최적화가 들어갈 수 있다”는 구조를 가질 수 있죠. 결국 이 간극이 커지면, 커뮤니티에서 스크린샷 기반 의혹이 빠르게 확산됩니다.

4) 같은 Opus 4.6인데 왜 다르게 느껴질까: 사용자가 체크할 것들
이 글이 던지는 질문은 “정말 모델이 바뀌었나?”인데, 실제로 사용자가 확인해볼 지점도 있어요. 같은 모델 표기라도 **서버 측 설정, 트래픽 상황, 세션별 정책, 실험(A/B 테스트)**이 끼면 결과가 달라질 수 있습니다. 특히 “extended thinking on” 같은 옵션이 있어도, 플랫폼이 특정 상황에서 상한을 제한할 가능성은 늘 존재하죠.
직접 검증해보고 싶다면 이런 시나리오가 도움이 돼요.
- 동일 프롬프트/동일 길이로 여러 번 실행해 평균을 봐요(1~2번으로 결론 내리기 어렵습니다).
- 시간대를 바꿔서 테스트해요(피크 타임에 제한이 걸릴 수도 있어요).
- 답변의 “길이”가 아니라 **추론의 구조(가정-근거-결론)**가 유지되는지 비교해요. 길어도 얕을 수 있고, 짧아도 깊을 수 있거든요.
5) 이 이슈가 중요한 이유: 신뢰의 문제(그리고 ‘설정 가능한 AI’의 한계)
이번 레딧 글이 주목받는 이유는 단순히 “Claude가 약해졌다”가 아니에요. 사용자가 제어한다고 믿는 영역(Reasoning Effort)이 실제로는 가변적일 수 있다는 불안이 핵심입니다. AI를 업무에 붙여 쓰는 사람일수록 결과의 일관성이 중요하고, 특히 분석/설계/디버깅처럼 사고 과정이 중요한 작업에선 더 민감하게 반응하죠.
결국 플랫폼이 추론 강도를 자동 조절하더라도, 사용자 입장에서는 “왜 오늘은 다르지?”에 대한 설명이 필요해요. 이런 설명이 없으면 커뮤니티는 스크린샷과 체감으로 서사를 만들고, 그게 제품 신뢰에 영향을 줍니다. AI가 점점 ‘설정 가능한 도구’가 될수록, 옵션의 의미와 실제 동작 사이를 투명하게 맞추는 일이 더 중요해질 거예요.
마무리: 여러분은 요즘 Claude가 덜 생각한다고 느끼시나요?
레딧의 이 사례는 아직 “확정된 사실”이라기보다 사용자 관찰 + 합리적 의심에 가까워요. 하지만 같은 모델/같은 옵션인데도 reasoning effort가 다르게 보인다는 점은, 충분히 기록하고 비교해볼 가치가 있습니다.
혹시 여러분도 Claude.ai에서 답변 깊이, 추론 밀도, 응답 지연시간이 최근 달라졌다고 느꼈다면, 같은 프롬프트로 몇 번 테스트해보고 결과를 정리해보세요. 데이터가 쌓이면 “기분 탓”이 아니라, 정말로 어떤 변화가 있었는지 더 선명해질 수 있습니다.






