AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Amazon Shanghai Artificial Intelligence Research Institute는 2018년에 설립되었으며, 총 ~90개의 출판물 논문. 연구 분야에는 딥러닝, 자연어 처리, 컴퓨터 비전, 그래프 머신러닝, 고성능 컴퓨팅, 지능형 추천 시스템, 사기 탐지 및 위험 제어, 지식 그래프 구축, 지능형 의사결정 시스템 등의 기초 이론이 포함됩니다. 본 연구소는 딥러닝과 그래프 구조 표현의 장점을 결합하고 많은 중요한 응용 분야에 영향을 미치는 세계 최고의 딥 그래프 학습 라이브러리인 Deep Graph Library(DGL)의 연구 개발에 앞장섰습니다. 검색 증강 생성(RAG) 기술은 외부 지식 기반과 LLM 내부 지식의 원활한 통합을 통해 AI 시스템의 정확성과 신뢰성을 크게 향상시킵니다. 그러나 RAG 시스템은 다양한 산업 분야에 널리 배포되므로 평가 및 최적화가 심각한 문제에 직면해 있습니다. 기존의 엔드 투 엔드 측정법이든 단일 모듈의 평가이든 기존 평가 방법은 RAG 시스템의 복잡성과 실제 성능을 완전히 반영하기 어렵습니다. 특히 RAG 시스템의 성능만을 반영한 최종 점수 보고서만 제공할 수 있습니다. 사람들은 아프면 병원에 가서 검사를 받아야 합니다. 그러면 RAG 시스템이 아프면 어떻게 진단할 수 있나요? 최근 Amazon Shanghai Artificial Intelligence Research Institute는 RAGChecker라는 진단 도구를 출시하여 RAG 시스템에 대한 정밀하고 포괄적이며 신뢰할 수 있는 진단 보고서를 제공하고 성능을 더욱 향상시키기 위해 사용 가능한 방향을 제공합니다. 작전. 이 기사에서는 이 RAG "현미경"을 자세히 소개하여 개발자가 더욱 스마트하고 안정적인 RAG 시스템을 만드는 데 어떻게 도움이 될 수 있는지 살펴봅니다.
- 논문: https://arxiv.org/pdf/2408.08067
- 프로젝트 주소: https://github.com/amazon-science/RAGChecker
RAGCheck 어: RAG 시스템을 위한 포괄적인 진단 도구RAG 시스템에 대한 포괄적인 "물리적 검사"를 수행할 수 있다면 어떨지 상상해 보십시오. RAGChecker는 이를 위해 만들어졌습니다. 시스템의 전반적인 성능을 평가할 뿐만 아니라 검색 및 생성이라는 두 가지 핵심 모듈의 성능에 대한 심층 분석도 제공합니다.
RAGChecker의 주요 기능은 다음과 같습니다:
- 세밀한 평가: RAGChecker는 단순한 응답 수준 평가 대신 주장 수준 암시 검사를 사용합니다. 이 접근 방식을 사용하면 시스템 성능을 더욱 자세하고 세밀하게 분석하여 심층적인 통찰력을 얻을 수 있습니다.
- 종합 지표 시스템: 이 프레임워크는 충실도, 상황 활용, 소음 민감도 및 환각 대기를 포함하여 RAG 시스템 성능의 모든 측면을 포괄하는 지표 세트를 제공합니다.
- 입증된 타당성: 신뢰성 테스트에 따르면 RAGChecker의 평가 결과는 인간의 판단과 밀접한 상관관계가 있어 기존의 다른 평가 지표보다 뛰어납니다. 이는 평가 결과의 신뢰성과 실용성을 보장합니다.
- 실행 가능한 통찰력: RAGChecker에서 제공하는 진단 지표는 RAG 시스템 개선을 위한 명확한 방향 지침을 제공합니다. 이러한 통찰력은 연구원과 실무자가 보다 효과적이고 안정적인 AI 애플리케이션을 개발하는 데 도움이 될 수 있습니다.
RAGChecker의 핵심 지표는 다음 그림을 통해 직관적으로 이해할 수 있습니다.
이러한 지표는 세 가지 주요 범주로 나뉩니다.
- 회상: 표준 답변에서 진술의 비율 모델 답변에 포함됨
- F1 점수(F1 점수): 균형 잡힌 성능 측정을 제공하는 정밀도와 재현율의 조화 평균
- 컨텍스트 정밀도 : 검색된 모든 블록 중 하나 이상의 표준 답변 문을 포함하는 블록의 비율
- Claim Recall: 검색된 블록에 포함된 표준 답변 문 비율
컨텍스트 활용: 생성 모듈이 검색 블록에서 얻은 관련 정보를 얼마나 효과적으로 활용하여 올바른 문장을 생성하는지 평가합니다. 이 지표는 시스템이 검색된 정보를 얼마나 효율적으로 활용하는지를 반영합니다. 노이즈 민감도: 생성 모듈이 검색 블록의 잘못된 정보를 답변에 포함하는 경향을 측정한 것입니다. 이 지표는 시스템이 관련이 없거나 잘못된 정보에 얼마나 민감한지 식별하는 데 도움이 됩니다. 환각: 모델이 검색 블록이나 표준 답변에 없는 정보를 생성하는 빈도를 측정합니다. 이는 모델이 허공에서 정보를 '구성'하는 상황을 포착하는 것과 같으며, 모델의 신뢰성을 평가하는 중요한 지표입니다. 자기 지식: 검색 블록에서 정보를 얻지 않고 모델이 질문에 올바르게 대답하는 빈도를 평가합니다. 이는 필요할 때 자체 내장된 지식을 활용하는 모델의 능력을 반영합니다. 신뢰성: 생성 모듈의 응답이 검색 블록에서 제공하는 정보와 얼마나 일치하는지 측정합니다. 이 지표는 주어진 정보에 대한 시스템의 준수 여부를 반영합니다.
이러한 지표는 RAG 시스템의 '신체 검사 보고서'와 같으며 개발자가 시스템 상태를 종합적으로 이해하고 개선할 영역을 식별하는 데 도움이 됩니다. RAGChecker 사용 시작
RAGChecker를 사용해보고 싶은 개발자의 경우 시작 프로세스는 매우 간단합니다. 다음은 빠르게 시작하기 위한 단계입니다.
1. 환경 설정: 먼저 RAGChecker 및 해당 종속 항목을 설치합니다. pip install ragcheckerpython -m spacy download en_core_web_sm
2. RAG 시스템의 출력을 특정 JSON 형식, 쿼리에 대한 컨텍스트, 표준 답변, 모델 답변 및 검색이 포함됩니다. 데이터 형식은 다음과 같아야 합니다. { "results": [ { "query_id": "< 查询 ID>", "query": "< 输入查询 >", "gt_answer": "< 标准答案 >", "response": "<RAG 系统生成的回答 >", "retrieved_context": [ { "doc_id": "< 文档 ID>", "text": "< 检索块的内容 >" }, ... ] }, ... ] }
ragchecker-cli \--input_path=examples/checking_inputs.json \--output_path=examples/checking_outputs.json
from ragchecker import RAGResults, RAGCheckerfrom ragchecker.metrics import all_metrics# 从 JSON 初始化 RAGResultswith open ("examples/checking_inputs.json") as fp:rag_results = RAGResults.from_json (fp.read ())# 设置评估器evaluator = RAGChecker ()# 评估结果evaluator.evaluate (rag_results, all_metrics)print (rag_results)
4. 분석 결과: RAGChecker는 RAG 시스템의 모든 측면의 성능을 이해하는 데 도움이 되는 평가 지표를 표시하기 위해 json 형식으로 파일을 출력합니다. 이러한 지표를 분석하여 개발자는 RAG 시스템의 다양한 측면을 목표 방식으로 최적화할 수 있습니다. 예:
- 클레임 회수율이 낮다는 것은 향상된 검색 전략이 필요함을 나타낼 수 있습니다. 이는 시스템이 충분한 관련 정보를 검색하지 못했을 수 있으며 검색 알고리즘을 최적화하거나 지식 기반을 확장해야 함을 의미합니다.
- 높은 잡음 민감도는 검색된 컨텍스트에서 관련 정보와 관련이 없거나 잘못된 세부 정보를 더 잘 구별하기 위해 생성 모듈이 추론 기능을 개선해야 함을 나타냅니다. 이를 위해서는 모델의 훈련 방법을 개선하거나 상황을 이해하는 능력을 강화해야 할 수도 있습니다.
- 환각 점수가 높으면 생성 모듈을 검색된 컨텍스트와 더 잘 통합해야 할 필요성을 나타낼 수 있습니다. 여기에는 모델이 검색된 정보를 활용하는 방법을 개선하거나 사실에 대한 충실도를 높이는 것이 포함될 수 있습니다.
- 컨텍스트 활용과 자기 지식 간의 균형은 검색 정보 활용과 모델 고유 지식 간의 균형을 최적화하는 데 도움이 될 수 있습니다. 여기에는 모델이 검색 정보에 얼마나 의존하는지 조정하거나 여러 정보 소스를 활용하는 능력을 향상시키는 것이 포함될 수 있습니다.
이런 방식으로 RAGChecker는 상세한 성능 평가를 제공할 뿐만 아니라 RAG 시스템의 구체적인 최적화 방향에 대한 명확한 지침을 제공합니다. LlamaIndex에서 RAGChecker 사용 RAGChecker는 이제 LlamaIndex와 통합되어 LlamaIndex로 구축된 RAG 애플리케이션을 위한 강력한 평가 도구를 제공합니다. LlamaIndex 프로젝트에서 RAGChecker를 사용하는 방법을 알고 싶다면 LlamaIndex 설명서에서 RAGChecker 통합에 대한 섹션을 참조하세요. RAGChecker는 RAG 시스템의 평가 및 최적화를 위한 새로운 도구를 제공합니다. 이는 개발자에게 RAG 시스템을 깊이 이해하고 정확하게 최적화하는 데 도움이 되는 "현미경"을 제공합니다. RAG 기술을 연구하는 학자이든, 더 스마트한 AI 애플리케이션을 개발하는 엔지니어이든, RAGChecker는 없어서는 안 될 오른손 조수가 될 것입니다. 독자는 https://github.com/amazon-science/RAGChecker를 방문하여 자세한 내용을 확인하거나 프로젝트 개발에 참여할 수 있습니다. 위 내용은 Amazon의 오픈 소스 RAGChecker 진단 도구를 사용하여 RAG 시스템에 포괄적인 '물리적 검사'를 제공합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!