편집 | 양배추 잎
검증 가능성은 Wikipedia의 핵심 콘텐츠 정책입니다. 주장은 인용에 의해 뒷받침되어야 합니다. Wikipedia 참조의 품질을 유지하고 개선하는 것은 중요한 과제이며, 인간이 이 작업을 수행하는 데 도움이 되는 더 나은 도구가 시급히 필요합니다.
여기서 Samaya AI와 Meta FAIR의 연구원들은 정보 검색 시스템과 언어 모델을 기반으로 하는 인공 지능(AI)의 도움으로 참조 개선 프로세스를 해결할 수 있음을 보여줍니다.
이 신경망 기반 시스템(여기서는 SIDE라고 함)은 주장을 뒷받침할 가능성이 없는 Wikipedia 인용을 식별한 다음 웹에서 더 나은 인용을 추천할 수 있습니다. 팀은 기존 Wikipedia 참조를 기반으로 모델을 훈련하여 수천 명의 Wikipedia 편집자의 기여와 지혜를 결합했습니다. 연구자들은 크라우드소싱을 사용하여 시스템에 의해 검증 불가능한 것으로 표시될 가능성이 가장 높은 인용의 상위 10%에 대해 사람들이 원래 인용된 참조 70%의 시간 계획보다 시스템의 대안을 선호한다는 사실을 관찰했습니다.
시스템의 적용 가능성을 검증하기 위해 연구원들은 영어 Wikipedia 커뮤니티와 상호 작용하기 위한 데모를 구축했으며 SIDE에 따르면 검증할 수 없을 가능성이 가장 높은 동일한 상위 10% 주장에 대해 첫 번째 인용이 발견되었습니다. to SIDE 권장 추천 빈도는 기존 Wikipedia 인용 빈도의 두 배입니다. 결과는 AI 기반 시스템을 인간과 함께 사용하여 Wikipedia의 검증 가능성을 향상시킬 수 있음을 보여줍니다.
이 연구는 "AI를 통한 Wikipedia 검증 가능성 향상"이라는 제목으로 2023년 10월 19일 "Nature Machine Intelligence"에 게재되었습니다.
Wikipedia는 연간 5조 페이지 조회수를 기록할 정도로 가장 많이 방문하는 웹사이트 중 하나이며 오늘날 가장 중요한 지식 소스 중 하나입니다. 따라서 Wikipedia에 대한 지식은 거의 항상 검증 가능해야 합니다. Wikipedia 사용자는 신뢰할 수 있는 외부 소스를 사용하여 Wikipedia에 대한 주장을 찾고 확인할 수 있어야 합니다. 이를 용이하게 하기 위해 Wikipedia 기사에서는 주장을 뒷받침하는 배경 자료에 대한 인라인 인용을 제공합니다. Wikipedia의 주장에 의문을 제기하는 독자는 다음 지침을 따르고 정보를 직접 확인할 수 있습니다.
그러나 실제로는 이 프로세스가 실패할 수 있습니다. 인용에 이의가 제기된 주장이 포함되어 있지 않거나 출처가 의심스러울 수 있습니다. 그러한 진술은 여전히 사실일 수 있지만 주의 깊은 독자는 인용된 출처의 정보로 이를 쉽게 확인할 수 없습니다. 위키피디아의 주장이 사실이라고 가정할 때, 검증 과정은 (1) 기존 출처의 일관성을 확인하는 단계, (2) 이에 실패하면 새로운 증거를 찾는 단계로 나뉩니다.
위에서 언급했듯이 Wikipedia 주장을 확인하려면 언어에 대한 깊은 이해와 온라인 검색에 대한 숙달이 필요합니다. 기계는 이러한 행동을 어느 정도까지 학습할 수 있나요? 이 질문은 기초 인공지능 발전의 관점에서 중요하다. 예를 들어, 검증을 위해서는 자연어에서 논리적 수반을 감지하고 주장과 그 맥락을 증거를 찾기 위한 최상의 검색어로 변환하는 능력이 필요합니다. 두 가지 오래된 문제는 주로 어느 정도의 종합 환경에서 연구되어 왔습니다.
실용적인 관점에서 이것은 똑같이 중요합니다. 기계 유효성 검사기는 Wikipedia 편집자가 어떤 인용이 유효성 검사 실패를 유발할 수 있는지 표시하고 현재 해당 주장을 뒷받침하지 않는 경우 인용을 대체할 내용을 제안하는 데 도움을 줄 수 있습니다. 이는 중요할 수 있습니다. 잠재적인 증거를 검색하고 검색 결과를 정독하는 데에는 시간과 많은 인지적 노력이 필요합니다. 인공 지능 보조자를 프로세스에 통합하면 두 시나리오를 모두 줄이는 데 도움이 될 수 있습니다.
그림: SIDE 개요. (출처: 논문)
최근 연구에서 Samaya AI와 Meta FAIR의 연구원들은 AI 기반 Wikipedia 인용 유효성 검사기인 SIDE를 개발했습니다. SIDE는 현재 인용을 기반으로 확인할 수 없는 Wikipedia의 주장을 발견하고 네트워크 스냅샷을 스캔하여 대안을 찾습니다.
해당 동작은 Wikipedia 자체에서 학습됩니다. 영어 Wikipedia 주장과 현재 인용의 엄선된 자료를 사용하여 연구원은 (1) 주장과 컨텍스트를 최적화된 표기법과 신경 검색 쿼리로 변환하여 후보 인용을 찾는 검색 구성 요소를 훈련합니다. (2) 주어진 주장을 검증할 가능성을 기준으로 기존 및 검색된 인용의 순위를 매기는 검증 모델.
팀은 자동화된 측정항목과 사람의 주석을 사용하여 모델을 평가합니다. 시스템의 정확성을 자동으로 측정하기 위해 그들은 SIDE가 고품질 기사(Wikipedia 특집 기사 클래스에서 정의한 대로)에서 기존 Wikipedia 인용을 얼마나 잘 복구했는지 조사했습니다.
연구원들은 거의 50%의 경우 SIDE가 최선의 솔루션으로 Wikipedia에서 사용된 소스를 정확하게 반환했다는 사실을 발견했습니다. 이는 나머지 50%가 틀렸다는 의미가 아니라 현재 Wikipedia 소스가 아니라는 점에 주목할 가치가 있습니다.
팀에서는 SIDE의 인용 보조 기능도 테스트했습니다. 사용자 연구에서 그들은 기존 Wikipedia 인용을 SIDE에서 생성된 인용 옆에 배치했습니다. 그런 다음 사용자는 제공된 인용이 주장을 얼마나 잘 뒷받침하는지, 그리고 SIDE 또는 Wikipedia의 어떤 인용이 확인에 더 적합한지 평가합니다.
전체적으로 사용자는 60% 이상 Wikipedia 인용보다 SIDE 인용을 선호하며, SIDE가 매우 낮은 검증 점수를 Wikipedia 인용과 연관시키면 이 비율은 80% 이상으로 증가합니다.
논문 링크: https://www.nature.com/articles/s42256-023-00726-1
위 내용은 Meta FAIR 및 Samaya AI 팀은 AI를 사용하여 Wikipedia의 검증 가능성을 향상시킵니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!