lajur AIxiv ialah lajur untuk menerbitkan kandungan akademik dan teknikal di laman web ini. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
#🎜 Shanghai Artificial Institut ini ditubuhkan pada 2018 dan telah menjadi salah satu institusi terkemuka dalam bidang penyelidikan pembelajaran mendalam, menerbitkan ~90 kertas kerja. Bidang penyelidikan termasuk teori asas pembelajaran mendalam, pemprosesan bahasa semula jadi, penglihatan komputer, pembelajaran mesin graf, pengkomputeran berprestasi tinggi, sistem pengesyoran pintar, pengesanan penipuan dan kawalan risiko, pembinaan graf pengetahuan dan sistem membuat keputusan pintar. Institut ini menerajui penyelidikan dan membangunkan perpustakaan pembelajaran graf dalam yang terkemuka di dunia, Perpustakaan Graf Dalam (DGL), yang menggabungkan kelebihan pembelajaran mendalam dan perwakilan struktur graf serta mempengaruhi banyak bidang aplikasi penting.
#🎜🎜 #Teknologi Retrieval-Augmented Generation (RAG) sedang merevolusikan bidang aplikasi AI dengan menyepadukan pangkalan pengetahuan luaran dan LLM Penyepaduan yang lancar pengetahuan dalaman sangat meningkatkan ketepatan dan kebolehpercayaan sistem AI. Walau bagaimanapun, memandangkan sistem RAG digunakan secara meluas dalam pelbagai industri, penilaian dan pengoptimuman mereka menghadapi cabaran yang ketara. Kaedah penilaian sedia ada, sama ada metrik hujung ke hujung tradisional atau penilaian modul tunggal, sukar untuk mencerminkan sepenuhnya kerumitan dan prestasi sebenar sistem RAG. Khususnya, mereka hanya boleh menyediakan laporan skor akhir yang hanya mencerminkan prestasi sistem RAG.
Orang sakit dan perlu ke hospital untuk pemeriksaan Jadi jika sistem RAG sakit, bagaimana untuk mendiagnosisnya?
Baru-baru ini, Institut Penyelidikan Kepintaran Buatan Amazon Shanghai melancarkan alat diagnostik yang dipanggil RAGCecker
untuk menyediakan sistem RAG #🎜 Laporan diagnostik yang terperinci, komprehensif dan boleh dipercayai serta menyediakan arahan yang boleh diambil tindakan untuk meningkatkan lagi prestasi. Artikel ini memperkenalkan "mikroskop" RAG ini secara terperinci untuk melihat cara ia boleh membantu pembangun mencipta sistem RAG yang lebih pintar dan lebih dipercayai. Kertas: https://arxiv.org/pdf/2408.08067#🎜#
#🎜 🎜🎜#- Alamat projek: https://github.com/amazon-science/RAGCecker
-
#🎜 #
RAGCecker: Alat diagnostik yang komprehensif untuk sistem RAG
Bayangkan jika kita boleh melakukan alat diagnostik yang komprehensif untuk sistem RAG adakah "pemeriksaan fizikal" kelihatan seperti? RAGCecker dibuat untuk ini. Ia bukan sahaja menilai prestasi keseluruhan sistem, tetapi juga menyediakan analisis mendalam tentang prestasi dua modul teras perolehan dan penjanaan. RAGCecker ciri-ciri utama termasuk:
#🎜 🎜🎜#Penilaian terperinci: RAGCecker menggunakan semakan implikasi peringkat tuntutan dan bukannya penilaian peringkat balasan yang mudah. Pendekatan ini membolehkan analisis prestasi sistem yang lebih terperinci dan bernuansa, memberikan pandangan yang mendalam.
Sistem penunjuk Komprehensif: Rangka kerja ini menyediakan satu set penunjuk yang merangkumi semua aspek prestasi sistem RAG, termasuk kesetiaan dan penggunaan konteks , kepekaan bunyi dan halusinasi. dll.
- Kesahan yang terbukti: Ujian kebolehpercayaan menunjukkan bahawa keputusan penilaian RAGCecker sangat berkorelasi dengan pertimbangan manusia dan mengatasi prestasi indeks penilaian sedia ada yang lain. Ini memastikan kredibiliti dan kepraktisan keputusan penilaian.
-
Cerapan Boleh Ditindaklanjuti: Metrik diagnostik yang disediakan oleh RAGCecker menyediakan panduan arah yang jelas untuk menambah baik sistem RAG anda. Cerapan ini boleh membantu penyelidik dan pengamal membangunkan aplikasi AI yang lebih berkesan dan boleh dipercayai. #🎜🎜 ##### 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 #Penunjuk teras Ragchecker#🎜🎜 ##🎜🎜 ##🎜 ##🎜 ##🎜 🎜🎜#sistem penunjuk RAGCecker boleh difahami secara intuitif menggunakan rajah berikut:
-
Diese Indikatoren sind in drei Hauptkategorien unterteilt:
- Präzision: der Anteil richtiger Aussagen in den Antworten des Modells
- Rückruf: Anteil der Aussagen in Standardantworten in Modellantworten enthalten
- F1-Score (F1-Score): das harmonische Mittel von Präzision und Erinnerung, das ein ausgewogenes Leistungsmaß bietet
- Kontextpräzision : Der Anteil der Blöcke, die mindestens eine Standardantwortanweisung enthalten, an allen abgerufenen Blöcken
-
Kontextnutzung: Bewertet, wie effektiv das Generierungsmodul relevante Informationen aus dem Abrufblock nutzt, um korrekte Aussagen zu erstellen. Diese Metrik spiegelt wider, wie effizient das System die abgerufenen Informationen nutzt.
Rauschempfindlichkeit: Ein Maß für die Tendenz des Generierungsmoduls, fehlerhafte Informationen aus dem Abrufblock in seine Antworten einzubeziehen. Mithilfe dieser Metrik lässt sich ermitteln, wie empfindlich ein System auf irrelevante oder fehlerhafte Informationen reagiert. Halluzination: Misst, wie oft das Modell Informationen generiert, die weder im Abrufblock noch in der Standardantwort enthalten sind. Dies ähnelt der Erfassung einer Situation, in der das Modell Informationen aus dem Nichts „erfindet“ und ist ein wichtiger Indikator für die Bewertung der Zuverlässigkeit des Modells.
- Selbsterkenntnis: Bewertet, wie oft das Modell Fragen richtig beantwortet, ohne Informationen aus dem Abrufblock zu erhalten. Dies spiegelt die Fähigkeit des Modells wider, bei Bedarf sein eigenes integriertes Wissen zu nutzen.
- Treue: Misst, wie konsistent die Antwort des Generierungsmoduls mit den vom Abrufblock bereitgestellten Informationen ist. Diese Metrik spiegelt die Übereinstimmung des Systems mit den gegebenen Informationen wider.
Diese Indikatoren ähneln dem „physischen Untersuchungsbericht“ des RAG-Systems und helfen Entwicklern, den Zustand des Systems umfassend zu verstehen und Verbesserungsmöglichkeiten zu identifizieren.
- Beginnen Sie mit der Verwendung von RAGChecker
Für Entwickler, die RAGChecker ausprobieren möchten, ist der Einstieg sehr einfach. Die folgenden Schritte sind für den schnellen Einstieg erforderlich: 1. Umgebungseinrichtung: Installieren Sie zunächst RAGChecker und seine Abhängigkeiten: pip install ragcheckerpython -m spacy download en_core_web_sm
2. Bereiten Sie die Ausgabe des RAG-Systems vor Spezifisches JSON-Format. Enthält Kontext für Abfragen, Standardantworten, Modellantworten und Abruf. Das Datenformat sollte wie folgt aussehen: { "results": [ { "query_id": "< 查询 ID>", "query": "< 输入查询 >", "gt_answer": "< 标准答案 >", "response": "<RAG 系统生成的回答 >", "retrieved_context": [ { "doc_id": "< 文档 ID>", "text": "< 检索块的内容 >" }, ... ] }, ... ] }
3. Führen Sie die Auswertung aus: Verwenden Sie die Befehlszeile:
ragchecker-cli \--input_path=examples/checking_inputs.json \--output_path=examples/checking_outputs.json
Oder verwenden Sie Python-Code :
from ragchecker import RAGResults, RAGCheckerfrom ragchecker.metrics import all_metrics# 从 JSON 初始化 RAGResultswith open ("examples/checking_inputs.json") as fp:rag_results = RAGResults.from_json (fp.read ())# 设置评估器evaluator = RAGChecker ()# 评估结果evaluator.evaluate (rag_results, all_metrics)print (rag_results)
4. Analyseergebnisse: RAGChecker gibt Dateien im JSON-Format aus, um Bewertungsindikatoren anzuzeigen, die Ihnen helfen, die Leistung aller Aspekte des RAG-Systems zu verstehen. -
Das Format des Ausgabeergebnisses ist wie folgt:
Durch die Analyse dieser Indikatoren können Entwickler verschiedene Aspekte des RAG-Systems gezielt optimieren. Zum Beispiel:
- Ein geringerer Schadensrückruf kann auf die Notwendigkeit verbesserter Rückholstrategien hinweisen. Dies bedeutet, dass das System möglicherweise nicht genügend relevante Informationen abgerufen hat und den Abrufalgorithmus optimieren oder die Wissensbasis erweitern muss.
- Hohe Rauschempfindlichkeit weist darauf hin, dass das Generierungsmodul seine Argumentationsfähigkeiten verbessern muss, um relevante Informationen besser von irrelevanten oder fehlerhaften Details aus dem abgerufenen Kontext unterscheiden zu können. Dies erfordert möglicherweise eine Verbesserung der Trainingsmethoden des Modells oder eine Verbesserung seiner Fähigkeit, den Kontext zu verstehen.
- Hohe Halluzinationswerte können auf die Notwendigkeit hinweisen, das Generierungsmodul besser in den abgerufenen Kontext zu integrieren. Dies könnte darin bestehen, die Art und Weise zu verbessern, wie das Modell die abgerufenen Informationen nutzt, oder seine Genauigkeit gegenüber den Fakten zu erhöhen.
- Das Gleichgewicht zwischen Kontextnutzung und Selbsterkenntnis kann Ihnen dabei helfen, den Kompromiss zwischen der Nutzung von Abrufinformationen und modellinhärentem Wissen zu optimieren. Dies könnte eine Anpassung der Abhängigkeit des Modells vom Abruf von Informationen oder eine Verbesserung seiner Fähigkeit, mehrere Informationsquellen zu kombinieren, beinhalten.
Auf diese Weise liefert RAGChecker nicht nur eine detaillierte Leistungsbewertung, sondern gibt auch klare Hinweise zur spezifischen Optimierungsrichtung des RAG-Systems. Verwendung von RAGChecker in LlamaIndex RAGChecker ist jetzt in LlamaIndex integriert und bietet ein leistungsstarkes Bewertungstool für mit LlamaIndex erstellte RAG-Anwendungen. Wenn Sie wissen möchten, wie Sie RAGChecker im LlamaIndex-Projekt verwenden, können Sie den Abschnitt über die RAGChecker-Integration in der LlamaIndex-Dokumentation lesen. RAGChecker stellt ein neues Tool zur Bewertung und Optimierung von RAG-Systemen bereit. Es bietet Entwicklern ein „Mikroskop“, das ihnen hilft, ein tiefgreifendes Verständnis zu erlangen und das RAG-System präzise zu optimieren. Egal, ob Sie Akademiker sind, der RAG-Technologie studiert, oder Ingenieur, der an der Entwicklung intelligenterer KI-Anwendungen arbeitet, RAGChecker wird Ihr unverzichtbarer Assistent sein. Leser können https://github.com/amazon-science/RAGChecker besuchen, um weitere Informationen zu erhalten oder sich an der Entwicklung des Projekts zu beteiligen.
Atas ialah kandungan terperinci Berikan sistem RAG 'pemeriksaan fizikal' yang komprehensif dengan alat diagnostik RAGCecker sumber terbuka Amazon. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!
Kenyataan:Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn