AI가 ER 의사보다 진단을 잘한다? — 하버드 연구의 67%를 둘러싼 논쟁

AI가 응급실 의사보다 진단 정확도가 높다는 하버드 연구가 나왔다. 수치만 보면 충격적이다. 그런데 연구 방법을 조금만 들여다보면 이야기가 꽤 달라진다.

AI 의료 진단 기술 연구

이미지 출처: Unsplash

연구팀은 OpenAI의 o1 모델이 응급실 환자 케이스를 올바르게 진단한 비율이 67%로, 분류 담당 의사(triage doctor)의 50~55%보다 유의미하게 높았다고 발표했다. 수치만 떼어 놓으면 AI가 의사를 앞섰다는 인상을 주기에 충분하고, 실제로 많은 매체가 그렇게 보도했다.

그런데 실험 설계를 보면 다르다. 연구에서 AI와 의사 모두에게 주어진 것은 간호사 노트 기반의 ‘서면 케이스 요약’이었다. 실제 응급실에서 의사가 하는 일 — 환자를 직접 보고, 청진기를 대고, 눈빛과 호흡을 확인하는 — 은 이 실험에 없었다. 의사들이 완전한 케이스 파일(검사 결과, 활력징후, 기록 전체)에 접근했을 때는 AI와의 격차가 통계적으로 사라졌다는 결과도 연구 안에 포함되어 있다.

진단이란 무엇인가라는 질문

의료계 연구자들이 지적하는 핵심은 여기다. AI는 “가이드라인을 얼마나 완벽하게 따르는가”를 테스트받았고, 의사는 불완전한 정보 속에서 실제 임상 판단을 내리는 상황에 놓였다. 두 조건이 애초에 같지 않았다.

의료 데이터 AI 분석

이미지 출처: Unsplash

실제 의료 현장에서 진단은 정답을 맞히는 퀴즈가 아니다. 치료 가능성, 환자의 심리적 상태, 불확실성을 관리하는 판단, 그리고 결과에 대한 책임이 포함된다. LLM이 여전히 그럴듯한 오답(hallucination)을 생성할 수 있다는 점도 의료 적용에서는 단순히 넘길 수 없는 문제다.

그렇다고 이 연구가 의미 없는 건 아니다. 서면 기록 분석이나 1차 분류 보조 같은 제한된 맥락에서 AI가 의미 있는 역할을 할 수 있다는 가능성은 여전히 유효하다. 특히 의사 수가 절대적으로 부족한 지역이나 과부하 상태의 응급 시스템에서 보조 도구로 쓴다면 이야기가 달라질 수 있다. 중요한 건 67%라는 숫자를 “AI가 의사보다 낫다”로 읽지 않는 것이다. 이번 연구는 그 조건을 증명했다기보다, 그 가능성을 탐색하는 초기 단계에 가깝다.


출처

댓글 남기기