1월 12일자 뉴스에 따르면 정신분열증 환자 치료에 있어 의사를 보조하는 데 사용되는 컴퓨터 알고리즘이 이전 개발 과정에서 볼 수 없었던 새로운 데이터에 잘 적응하지 못하는 것으로 나타났습니다. 결과적으로 이러한 유형의 의료 AI는 노출된 적이 없는 환자의 치료 결과를 평가할 때 성능이 매우 낮습니다.
이 의료 도구는 인공 지능을 사용하여 대규모 데이터 세트에서 특징을 발견하고 특정 치료에 대한 개인의 반응을 예측하는 것이 정밀 의학의 핵심입니다. 의료 전문가들은 이 도구를 사용하여 각 환자에게 맞춤형 치료를 제공하기를 희망합니다. 사이언스(Science) 저널에 게재된 기사에서 연구진은 인공지능 모델이 훈련 샘플에 포함된 환자의 치료 결과를 높은 정확도로 예측할 수 있다고 언급했습니다. 그러나 이전에 볼 수 없었던 환자 데이터를 처리할 때 모델의 성능은 무작위 추측보다 약간만 더 좋을 정도로 크게 떨어졌습니다.
정밀 의학의 효율성을 보장하려면 예측 모델은 다양한 상황에서도 안정적인 정확도를 유지하고 편향이나 무작위 결과의 가능성을 최소화해야 합니다.
“이것은 사람들이 아직 깨닫지 못하는 큰 문제입니다.”라고 코네티컷 주 뉴헤이븐에 있는 예일 대학교의 정신과 의사인 연구 공동저자 Adam Chekroud가 말했습니다. "이 연구는 본질적으로 알고리즘이 여러 샘플에서 테스트되어야 함을 보여줍니다."
연구자들은 정신병 예측 모델에 일반적으로 사용되는 알고리즘을 평가했습니다. 그들은 북미, 아시아, 유럽 및 아프리카에서 정신분열증 진단을 받은 1,513명의 지원자를 대상으로 한 5개의 항정신병 임상시험의 데이터를 사용했습니다. 2004년부터 2009년 사이에 실시된 임상시험에서는 세 가지 항정신병 약물 중 하나를 복용하기 전과 복용 후 4주 동안 지원자의 증상을 측정했습니다.
연구팀은 이 데이터 세트를 활용해 4주간의 항정신병 약물 치료 후 환자의 증상 호전 정도를 예측하는 알고리즘을 훈련시켰습니다. 먼저 연구진은 알고리즘이 개발된 실험에서 알고리즘의 정확성을 테스트하고 실험에서 기록된 실제 효과와 예측을 비교한 결과 정확도가 높다는 사실을 발견했습니다.
그런 다음 다양한 방법을 사용하여 이 AI 모델이 새로운 데이터를 얼마나 정확하게 분석했는지 평가했습니다. 연구자들은 한 임상 실험의 데이터 하위 집합에 대해 모델을 훈련한 다음 이를 동일한 실험의 다른 데이터 하위 집합에 적용했습니다. 또한 시험 또는 시험 세트의 모든 데이터에 대해 알고리즘을 훈련한 다음 다른 임상 시험 데이터에 대한 모델 성능을 테스트합니다.
이 테스트에서는 AI 모델의 성능이 좋지 않은 것으로 나타났으며, 훈련되지 않은 데이터 세트에 적용하면 모델에서 생성된 예측이 거의 무작위로 나타나는 것으로 나타났습니다. 연구팀은 서로 다른 예측 알고리즘을 이용해 실험을 반복했지만 비슷한 결과를 얻었다.
이 연구의 저자는 자신의 연구 결과가 신뢰성을 보장하기 위해 대규모 데이터 세트에서 임상 예측 모델을 엄격하게 테스트해야 하는 방법을 강조한다고 말했습니다. 정신과적 결과에 대한 308개의 임상 예측 모델을 체계적으로 검토한 결과, 개발에 사용된 샘플 이외의 데이터 세트에서 모델의 약 20%만이 검증된 것으로 나타났습니다.
체크루드는 “모델 개발은 약물 개발처럼 생각해야 한다”고 말했다. 그는 많은 약물이 초기 임상시험에서는 좋은 효과를 보였지만 후기 단계에서 문제가 발생한다고 설명했습니다. "우리는 이러한 알고리즘을 개발하고 테스트하는 방법에 대한 원칙을 엄격히 준수해야 합니다. 한 번만 하고 그것이 사실이라고 생각할 수는 없습니다."(첸첸)
위 내용은 새로운 연구: 의료 AI는 새로운 정신분열증 환자의 치료 결과를 평가하는 데 정확도가 떨어집니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!