인공지능(AI)은 빠르게 발전해 왔지만, 인간에게 강력한 모델은 '블랙박스'입니다.
우리는 모델의 내부 작동 방식과 모델이 결론에 도달하는 프로세스를 이해하지 못합니다.
그러나 최근 본 대학의 화학정보학 전문가인 Jurgen Bajorath 교수와 그의 팀이 획기적인 발전을 이루었습니다.
그들은 약물 연구에 사용되는 일부 인공 지능 시스템이 어떻게 작동하는지 보여주는 기술을 설계했습니다.
연구에 따르면 인공지능 모델은 특정 화학적 상호작용을 학습하기보다는 주로 기존 데이터를 회상하여 약물 효과를 예측하는 것으로 나타났습니다.
——즉, AI 예측은 순전히 기억을 연결하는 데에만 의존하며 머신러닝은 실제로 학습하지 않습니다!
그들의 연구 결과는 최근 Nature Machine Intelligence 저널에 게재되었습니다.
논문 주소: https://www.nature.com/articles/s42256-023-00756-9
의학 분야에서 연구자들은 질병 퇴치에 효과적인 활성 물질을 열심히 찾고 있습니다. —가장 효과적인 약물 분자는 무엇입니까?
보통 이러한 효과적인 분자(화합물)는 단백질에 도킹되어 특정 생리학적 작용 사슬을 유발하는 효소 또는 수용체 역할을 합니다.
특수한 경우 특정 분자는 과도한 염증 반응과 같은 신체의 부작용을 차단하는 역할도 합니다.
가능한 화합물의 수는 엄청나며 효과가 있는 화합물을 찾는 것은 건초 더미에서 바늘을 찾는 것과 같습니다.
그래서 연구자들은 먼저 AI 모델을 사용하여 어떤 분자가 가장 잘 도킹되어 각각의 표적 단백질에 강력하게 결합할지 예측했습니다. 이러한 약물 후보는 실험 연구를 통해 더욱 자세히 선별됩니다.
인공지능이 발달한 이후 신약 발굴 연구에서는 AI 관련 기술을 점점 더 많이 채택하고 있습니다.
예를 들어 그래프 신경망(GNN)은 특정 분자와 표적 단백질의 결합 강도를 예측하는 데 적합합니다.
그래프는 객체를 나타내는 노드와 노드 간의 관계를 나타내는 엣지로 구성됩니다. 단백질-리간드 복합체의 그래프 표현에서 그래프의 가장자리는 단백질 또는 리간드 노드를 연결하여 물질의 구조 또는 단백질과 리간드 간의 상호 작용을 나타냅니다.
GNN 모델은 X선 구조에서 추출된 단백질-리간드 상호작용 맵을 사용하여 리간드 친화도를 예측합니다.
Jurgen Bajorath 교수는 GNN 모델이 우리에게 블랙박스와 같아서 어떻게 예측이 도출되는지 알 수 있는 방법이 없다고 말했습니다.
Jurgen Bajorath 교수는 본 대학교 LIMES 연구소, 본-아헨 국제 정보 기술 센터(Bonn-Aachen International Center for Information Technology) 및 Lamarr 기계 학습 및 인공 지능 연구소에서 근무하고 있습니다. (Lamarr 기계 학습 및 인공 지능 연구소).
본 대학 화학 정보학과의 연구원들은 로마 사피엔자 대학의 동료들과 함께 그래프 신경망이 실제로 단백질과 리간드 사이의 상호 작용을 학습했는지 자세히 분석했습니다.
연구원들은 특별히 개발된 "EdgeSHAPer" 방법을 사용하여 총 6개의 서로 다른 GNN 아키텍처를 분석했습니다.
EdgeSHAPer 프로그램은 GNN이 화합물과 단백질 간의 가장 중요한 상호 작용을 학습했는지, 아니면 다른 방법을 통해 예측했는지 확인할 수 있습니다.
과학자들은 단백질-리간드 복합체의 구조에서 추출한 그래프를 사용하여 6개의 GNN을 훈련시켰습니다. 여기서 화합물의 작용 방식과 표적 단백질에 대한 결합 강도가 알려져 있습니다.
그런 다음 훈련된 GNN을 다른 화합물에 대해 테스트하고 EdgeSHAPer를 사용하여 GNN이 어떻게 예측을 생성하는지 분석합니다.
"GNN이 예상대로 작동한다면 화합물과 표적 단백질 간의 상호 작용을 학습하고 특정 상호 작용의 우선 순위를 정하여 예측해야 합니다."
그러나 연구팀의 분석에 따르면 6개의 GNN은 기본적으로 이를 수행하지 못했습니다. 대부분의 GNN은 주로 리간드에 초점을 맞춰 일부 단백질-약물 상호작용만 학습합니다.
위 그림은 6개 GNN의 실험 결과를 보여줍니다. 색상 눈금 막대는 EdgeSHAPer가 결정한 각 예측의 상위 25개 가장자리에 있는 단백질, 리간드 및 상호 작용의 평균 비율을 나타냅니다.
녹색으로 표시되는 상호 작용은 모델이 학습해야 하는 부분이지만 전체 실험에서 차지하는 비율은 높지 않으며 리간드를 나타내는 주황색 막대가 가장 큰 비율을 차지함을 알 수 있습니다.
표적 단백질에 대한 분자의 결합 강도를 예측하기 위해 모델은 표적 단백질에 관계없이 훈련 중에 접한 화학적으로 유사한 분자와 결합 데이터를 기본적으로 "기억"합니다. 이러한 기억된 화학적 유사성은 본질적으로 예측을 결정합니다.
이것은 "영리한 한스 효과"를 연상시킵니다. 마치 셀 수 있는 것처럼 보이지만 실제로는 동료의 표정과 몸짓의 뉘앙스를 기반으로 예상되는 결과를 추론하는 말과 같습니다. 결과.
이는 GNN의 소위 "학습 능력"이 유지될 수 없으며 화학적 지식과 더 간단한 방법을 사용하여 동일한 품질 예측을 수행할 수 있기 때문에 모델의 예측이 크게 과대평가되었음을 의미할 수 있습니다.
그러나 연구에서 또 다른 현상도 발견되었습니다. 테스트 화합물의 효능이 증가하면 모델이 더 많은 상호 작용을 학습하는 경향이 있다는 것입니다.
아마도 표현 및 훈련 기술을 수정하면 이러한 GNN이 원하는 방향으로 더욱 향상될 수 있습니다. 그러나 분자 그래프를 통해 물리량을 학습할 수 있다는 가정은 일반적으로 주의해서 다루어야 합니다.
"인공지능은 흑마술이 아니다."
위 내용은 AI는 학습되지 않습니다! 새로운 연구에 따르면 AI 블랙박스를 해독하는 방법이 밝혀졌습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!