“AI 챗봇”… 환자 진단에서 의사를 능가한다는 연구
챗봇이나 의사가 환자를 더 정확하고 빠르게 진단할 수 있는지 비교한 새로운 연구에 따르면 AI가 더 나은 경우가 더 많다는 사실이 밝혀
[디지털비즈온 김맹근 기자] 저널 네이처 메디슨에 발표된 새로운 연구에 따르면 챗봇은 임상 치료의 중요한 첫걸음인 진단 추론에서 인간 의사를 빠르게 앞질렀다.
COMPUTERWORLD의 집에 따르면, 이 연구는 생성 AI(gen)를 뒷받침하는 대형 언어 모델(LLM)에 접근할 수 있는 의사를 제안하다.AI) 챗봇은 기술에 접근할 수 없는 동료들에 비해 여러 환자 관리 작업에서 향상된 성능을 보여준다.
이 연구는 또한 챗봇을 사용하는 의사들이 유전자에 접근할 수 없는 의사들보다 환자 사례에 더 많은 시간을 할애하고 더 안전한 결정을 내린다는 사실을 발견했다.AI 도구.
베스 이스라엘 디코네스 메디컬 센터(BIDMC)의 12명 이상의 의사가 수행한 연구에 따르면 다음과 같은 사실이 밝혀졌다.AI는 '개방형 의사 결정' 의사 파트너로서 유망하다.
"그러나 이는 LLM의 환자 치료 향상 잠재력을 실현하기 위해 엄격한 검증이 필요하다."라고 BIDMC의 AI 프로그램 책임자인 아담 로드먼 박사는 말하다. "진단 추론과 달리 LLM이 뛰어난 단일 정답을 사용하는 경우가 많다, 경영진의 논리는 정답이 없을 수 있으며 본질적으로 위험한 행동 방침 간의 절충안을 저울질해야 한다."
결론은 92명의 의사들이 다섯 가지 가상의 환자 사례를 통해 수행한 의사 결정 능력에 대한 평가를 바탕으로 이루어졌다. 그들은 의사들의 경영 논리에 중점을 두었으며, 여기에는 검사, 치료, 환자 선호도, 사회적 요인, 비용 및 위험에 대한 결정이 포함된다.
가상의 환자 사례에 대한 응답을 점수화했을 때, 챗봇을 사용하는 의사들이 기존 자원만 사용하는 의사들보다 훨씬 높은 점수를 받았다. 챗봇 사용자는 사례당 2분 가까이 더 많은 시간을 할애했으며, 기존 리소스를 사용하는 사용자에 비해 경증에서 중등도의 피해 위험이 낮았다(3.7% 대 5.3%). 그러나 심각한 피해 등급은 그룹 간에 유사했다.
로드먼은 "제 이론은 AI가 환자 의사소통 및 환자 요인 영역에서 관리 추론을 개선했으며, 합병증이나 약물 결정 인식과 같은 것에는 영향을 미치지 않았다는 것이다."라고 말했다. 우리는 즉각적인 피해에 대해 높은 기준을 사용했으며, 의사소통이 부족해도 즉각적인 피해가 발생할 가능성은 낮다."
로드먼과 그의 동료들이 2023년 초에 수행한 연구는 유전자의 역할에 대해 유망하지만 신중한 결론을 도출했다. AI 기술. 그들은 그것이 "임상 사례의 진화 과정에서 사람들보다 동등하거나 더 나은 추론을 보여줄 수 있다"고 발견했다.
그 데이터는 미국의학협회 저널(JAMA)에 발표되었으며, 의사의 임상적 추론을 평가하는 데 사용되는 일반적인 검사 도구를 사용했다. 연구진은 21명의 주치의와 18명의 레지던트를 모집했으며, 이들은 진단 추론, 작성, 각 단계별 감별 진단 정당화의 네 단계에 걸쳐 20건의 보관된 (새로운 것이 아닌) 임상 사례를 검토했다.
연구진은 GPT-4 LLM을 기반으로 한 ChatGPT을 사용하여 동일한 테스트를 수행했다. 챗봇은 동일한 지침을 따랐고 동일한 임상 사례를 사용했다. 결과는 유망하면서도 우려스러워했다.
챗봇은 검사 도구의 일부 측정에서 가장 높은 점수를 받았으며, 중간 점수는 10/10으로 주치의의 경우 9/10, 레지던트의 경우 8/10에 비해 높았다. 진단 정확도와 추론은 인간과 봇 간에 비슷했지만, 챗봇은 잘못된 추론 사례가 더 많았다. "이는 AI가 인간의 추론을 대체하는 것이 아니라 증강하는 데 가장 적합하다는 것을 강조하다."라고 연구는 결론지었다.
간단히 말해, 보고서는 "봇들도 경우에 따라 명백히 틀렸다"고 말했다.
로드먼은 왜 그 세대가AI 연구는 이전 연구에서 더 많은 오류를 지적했다. "[새로운 연구에서] 체크포인트가 다르기 때문에 환각이 개선되었을 수도 있지만, 작업마다 다를 수도 있다."라고 그는 말했다.“ 우리의 원래 연구는 명확한 정답과 오답이 있는 분류 작업인 진단 추론에 중점을 두었다. 반면에 경영 논리는 맥락에 따라 매우 구체적이며 수용 가능한 답변의 범위가 다양하다."
원본 연구와의 주요 차이점은 연구자들이 현재 AI를 사용하는 그룹과 사용하지 않는 그룹의 두 가지 인간을 비교하고 있으며, 원본 연구는 AI를 인간과 직접 비교하고 있다는 점이다. "작은 AI 전용 기준선을 수집했지만 다중 효과 모델로 비교했다. 따라서 이 경우 모든 것이 사람을 통해 매개됩니다."라고 로드먼은 말한다.
연구자이자 수석 연구 저자인 Dr. BIDMC의 내과 3학년 레지던트인 스테파니 카브랄은 LLM이 임상에 어떻게 적용될 수 있는지에 대한 더 많은 연구가 필요하지만 "이미 감독을 방지하는 유용한 체크포인트가 될 수 있다"고 말했다.
"제 궁극적인 희망은 AI가 현재 가지고 있는 비효율성을 일부 줄여 환자와 의사의 상호작용을 개선하고 환자와의 대화에 더 집중할 수 있게 하는 것이다."라고 그녀는 말했다.
최신 연구는 결과의 일부 변화를 설명할 수 있는 최신 업그레이드 버전의 GPT-4를 포함했다.
로드먼에 따르면 현재까지 의료 분야의 AI는 주로 포털 메시징과 같은 작업에 집중해 왔다. 하지만 챗봇은 특히 복잡한 작업에서 인간의 의사 결정을 향상시킬 수 있다.
"우리의 연구 결과는 가능성을 보여주지만, 환자 치료 개선을 위한 잠재력을 완전히 발휘하려면 엄격한 검증이 필요하다."라고 그는 말했다. "이는 임상 판단에 유용한 보조제로서 향후 LLMs의 사용을 시사한다. LLM이 단순히 사용자의 속도를 늦추고 더 깊이 성찰하도록 장려하는 것인지, 아니면 추론 과정을 적극적으로 강화하는 것인지에 대한 추가 탐구는 가치가 있을 것이다."
로드먼은 챗봇 테스트가 이제 두 가지 후속 단계 중 다음 단계에 들어갈 것이며, 그 중 첫 번째 단계는 이미 연구진이 분석할 새로운 원시 데이터를 생성했다고 말했다. 연구자들은 다양한 사용자 상호작용을 연구하기 시작할 것이다. 여기서 다양한 유형의 챗봇, 다양한 사용자 인터페이스, 통제된 환경에서 LLM(더 구체적인 신속 설계) 사용에 대한 의사 교육을 연구하여 성능이 어떻게 영향을 받는지 확인할 것이다.
두 번째 단계에서는 보관된 환자 사례가 아닌 실시간 환자 데이터도 포함된다.
"우리는 또한 이러한 효과가 실제 세계에서 어떻게 유지되는지 확인하기 위해 안전한 LLM(즉, HIPAA 불만)을 사용하여 [인간 컴퓨터 상호작용]을 연구하고 있다."라고 그는 말했다.