도쿄의과치과대학의 연구그룹은 정형외과 질환의 자가진단에 있어서의 ChatGPT의 신뢰성을 검증하고, 그 진단의 정답률 및 재현성이 낮다는 문제점을 나타냈다.또 질문의 방법에 따라 그 정답률이 변화하는 것을 발견해, 높은 신뢰성을 얻기 위한 중요한 포인트를 밝혔다.
생성 AI에 의한 챗봇을 이용해 병원 진찰 전에 자기진단을 하는 환자도 늘어나고 있으며, 향후 증가의 일일을 추적할 것으로 예상된다.그러나 자기 진단에서 ChatGPT의 정답률을 평가한 연구는 몇 가지 있지만, 그 재현성이나 진찰 권장 정도에 관한 연구는 없었다.
이번 연구에서는 5명의 연구자가 5개의 정형외과 질환에 관한 질문을 5일간에 걸쳐 똑같은 문면에서 ChatGPT(ver. 3.5)에 반복적으로 질문하고 그 응답 결과를 검증했다.질병에 따라 정답률, 재현성은 달라, 가장 낮은 것은 불과 4%의 정답률로 재현성도 '나쁘다'고 평가되었다.또, 회답내에서 의료기관 진찰을 제대로 추천하고 있던 것은 전체의 13% 정도에 머물렀다.또한, 질문의 방식에 따라 정답률이 다른 것을 발견하고, 보다 바람직한 질문의 형식을 제시하였다.
이번 연구는 ChatGPT의 의료 이용에서의 문제점을 부각시켰다.생성 AI의 자기 진단 툴로서의 안전성을 향상시켜, 의료 보조용의 새로운 생성 AI 시스템 개발에 큰 공헌을 기대할 수 있다고 하고 있다.앞으로 병태별로 적절한 질문방법을 찾아 ChatGPT 이외의 생성 AI나 새로운 버전의 ChatGPT를 이용한 연구를 진행시켜 그 신뢰성을 평가할 예정이라고 한다.