ChatGPT 상담, 브라운대가 경고한 15가지 윤리 리스크

ChatGPT를 ‘상담사’로 써도 될까? 브라운대 연구가 던진 윤리 경고 15가지
요즘 힘들 때 ChatGPT에 고민을 털어놓는 분들 많아요.
그런데 “치료사처럼 행동해줘”라고 시켜도 정신건강 상담의 핵심 윤리 기준을 자주 어긴다는 연구 결과가 나왔습니다.
1) 브라운대 연구 결론: “치료사 프롬프트만으론 안전하지 않아요”
이번 연구는 브라운대(Brown University) 연구팀이 정신건강 전문가들과 함께, LLM(대규모 언어 모델) 챗봇을 치료사 역할로 프롬프트(prompt, 모델 출력 유도 지시문) 했을 때 어떤 문제가 생기는지 점검한 내용이에요.
결론은 꽤 명확합니다. CBT/DBT 같은 상담 접근을 지시해도, 전문 윤리(예: 미국심리학회 기준)를 일관되게 충족하지 못했다는 거죠.
특히 겉으로는 다정하고 그럴듯해 보여도, 위기 상황 대응이나 편향/차별, 잘못된 믿음 강화 같은 문제는 사용자가 눈치채기 어려워요.
연구팀은 이런 반복 패턴을 바탕으로 15개의 윤리 리스크 프레임워크를 제시했고, 앞으로 AI 상담에 대한 윤리·교육·법적 기준이 필요하다고 강조합니다.

2) “프롬프트로 치료사를 만들 수 있나?”가 핵심 질문이었어요
연구를 이끈 자이나브 이프티카르(Zainab Iftikhar)는 “프롬프트를 잘 쓰면 더 윤리적으로 만들 수 있지 않을까?”를 검증하고자 했어요.
예를 들어 사용자가 Act as a cognitive behavioral therapist(CBT 치료사처럼 행동해줘) 또는 Use DBT principles(DBT 원칙으로 도와줘) 같은 지시를 주는 방식이죠.
이런 프롬프트는 틱톡/인스타/레딧 같은 곳에서 이미 널리 공유되고 있고, 실제로 일부 소비자용 멘탈헬스 챗봇도 일반 LLM에 치료 프롬프트를 씌워서 만들기도 해요.
그래서 더 중요합니다. “말을 예쁘게 하게 만드는 것”과 “윤리적으로 안전하게 상담하는 것”은 다른 문제니까요.
3) 실험 방식: 또래상담사 + 임상심리 전문가가 같이 검증
연구팀은 CBT 경험이 있는 **훈련된 또래 상담사(7명)**가, CBT 치료사처럼 프롬프트된 AI와 “자기 상담” 세션을 진행하는 과정을 관찰했어요.
테스트 모델에는 오픈AI의 GPT 계열, 앤트로픽 Claude, 메타 Llama 등 다양한 LLM이 포함됐습니다.
이후 연구팀은 실제 인간 상담 대화를 바탕으로 한 **시뮬레이션 채팅(대화 로그)**을 골랐고, 면허를 가진 임상심리사 3명이 이를 리뷰하면서 윤리 위반 가능성을 짚었습니다.
즉 “기계 점수(자동 평가)”가 아니라, 사람 전문가가 대화 맥락을 보고 판단한 점이 이 연구의 신뢰도를 높여줘요.
4) 발견된 ‘윤리 리스크 15개’는 5개 범주로 묶였어요
연구에서 확인된 문제는 총 15개이고, 크게 5개 범주로 정리됐습니다.
이 5가지는 실제 사용자가 ChatGPT를 “상담”처럼 쓸 때 자주 마주칠 수 있는 함정이기도 해요.
- 맥락 적응 부족(Lack of contextual adaptation): 개인의 배경/상황을 놓치고 너무 일반론적 조언을 해요. 예를 들어 트라우마, 문화, 가족구조, 경제적 조건을 무시하면 조언이 오히려 무례하거나 위험해질 수 있어요.
- 치료적 협업 실패(Poor therapeutic collaboration): 대화를 사용자의 속도에 맞추기보다 특정 방향으로 밀어붙이거나, 때로는 틀리거나 해로운 믿음을 강화하기도 해요. 관계/자존감/피해망상 같은 주제에서 특히 위험합니다.
- 기만적 공감(Deceptive empathy): “이해해요, 공감해요” 같은 표현으로 돌봄의 환상을 주지만, 실제로는 이해 기반의 개입이 아니라 문장 패턴에 가까울 수 있어요. 이때 사용자는 “진짜로 도움받았다”는 착각을 하기 쉽습니다.
- 불공정한 차별(Unfair discrimination): 성별, 문화, 종교 등에 대한 편향된 반응이 섞일 수 있어요. 사용자는 상처를 받거나, 편견이 ‘상담’이라는 권위로 정당화되는 경험을 할 수도 있고요.
- 안전/위기 대응 부족(Lack of safety and crisis management): 민감 이슈를 회피하거나, 적절한 도움(전문가/응급 연락)을 안내하지 못하거나, 자살 사고 같은 위기 상황에 부적절하게 반응할 수 있어요. 이건 가장 치명적입니다.

5) 진짜 문제는 ‘책임 공백(Accountability gap)’이에요
연구팀이 강조한 포인트는 “인간 상담사도 실수할 수 있다”는 사실을 부정하지 않아요.
다만 인간 상담사는 자격 체계, 윤리 규정, 감독 기관, 징계/배상 같은 책임 메커니즘이 존재합니다.
반면 LLM 상담이 윤리 위반을 해도, 현재는 명확한 규제 프레임워크가 없고 책임 소재가 모호해요.
서비스 제공자, 모델 제공자, 프롬프트 설계자 중 누가 어떤 기준으로 책임지는지 정리되지 않으면, 결국 위험은 사용자에게 전가됩니다.
6) 그럼에도 AI가 할 수 있는 역할: “대체”가 아니라 “보조”로
이 연구가 “AI는 멘탈헬스에 쓰면 안 된다”라고 단정하진 않습니다.
비용 부담이 크거나, 지역적으로 전문가 접근이 어려운 사람에겐 AI가 접근성(availability) 측면에서 도움을 줄 여지가 있어요.
다만 전제는 분명합니다. 고위험 상황에 바로 투입하기 전에, 안전장치·책임구조·평가체계가 먼저라는 것.
특히 자동 지표만으로 “상담 품질”을 평가하는 관행을 벗어나, 이번 연구처럼 임상 전문가가 ‘사람을 상대로’ 장기간 검증하는 방식이 필요하다고 지적합니다.
마무리: ChatGPT를 상담처럼 쓴다면, 이렇게 써보세요
정리하면, 프롬프트를 멋지게 써도 윤리와 안전은 자동으로 따라오지 않아요.
만약 챗봇을 마음 돌봄에 활용한다면, “치료”가 아니라 기록/정리/다음 행동 설계 보조 정도로 두는 게 현실적입니다.
예를 들어 이렇게요.
- 오늘 감정과 사건을
요약하게 하고, 반복 패턴을정리해보기 - “내가 지금 할 수 있는 작은 행동 3가지”를
브레인스토밍하기 - 위기 신호(자해/자살 생각 등)가 있으면 즉시 전문기관/응급 도움으로 전환하기
여러분은 챗봇을 어디까지 ‘상담’으로 쓰고 계신가요? 편한 순간과 불편했던 순간을 한 번 나눠서 점검해보면, 더 안전하게 활용하는 기준이 생길 거예요.






