Retrieval Augmented Generation(RAG)과 미세 조정(Fine-tuning)은 대규모 언어 모델의 성능을 향상시키는 두 가지 일반적인 방법이므로 어떤 방법이 더 낫습니까? 특정 도메인에서 애플리케이션을 구축할 때 어느 것이 더 효율적인가요? Microsoft에서 제공하는 이 문서는 선택 시 참조용입니다.
대규모 언어 모델 애플리케이션을 구축할 때 독점 및 도메인별 데이터를 통합하기 위해 검색 향상 생성과 미세 조정이라는 두 가지 접근 방식이 자주 사용됩니다. 검색 강화 생성은 외부 데이터를 도입하여 모델의 생성 기능을 향상시키는 반면, 미세 조정은 모델 자체에 추가 지식을 통합합니다. 그러나 이 두 가지 접근법의 장점과 단점에 대한 우리의 이해는 충분하지 않습니다.
이 기사에서는 Microsoft 연구원이 제안한 새로운 초점을 소개합니다. 이는 농업 산업을 위한 특정 상황 및 적응형 응답 기능을 갖춘 AI 도우미를 만드는 것입니다. 포괄적인 대규모 언어 모델 프로세스를 도입함으로써 고품질의 산업별 질문과 답변을 생성할 수 있습니다. 이 프로세스는 광범위한 농업 주제를 다루는 관련 문서를 식별하고 수집하는 것부터 시작하여 체계적인 일련의 단계로 구성됩니다. 그런 다음 이러한 문서를 정리하고 구조화하여 기본 GPT 모델을 사용하여 의미 있는 질문-답변 쌍을 생성합니다. 마지막으로 생성된 질문-답변 쌍은 품질에 따라 평가되고 필터링됩니다. 이러한 접근 방식은 농업 산업에 정확하고 실용적인 정보를 제공하여 농부와 관련 실무자가 다양한 문제와 과제를 더 잘 처리하는 데 도움이 되는 강력한 도구를 제공합니다.
이 기사는 농업을 사례 연구로 활용하여 농업 산업을 위한 귀중한 지식 자원을 창출하는 것을 목표로 합니다. 궁극적인 목표는 농업 부문에서 LLM의 발전에 기여하는 것입니다.
논문 주소: https://arxiv.org/pdf/2401.08406.pdf
논문 제목: RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture
본 문서 프로세스의 목표는 특정 업계 전문가 및 이해관계자의 요구 사항을 충족하는 도메인별 질문과 답변을 생성하는 것입니다. 이 업계에서 AI 비서가 기대하는 답변은 관련 업계별 요인을 기반으로 해야 합니다.
이 기사는 농업 연구에 관한 것이며 목표는 이 특정 분야에 대한 답변을 생성하는 것입니다. 따라서 연구의 출발점은 질문 및 답변 생성, 검색 향상 생성 및 미세 조정 프로세스의 세 가지 주요 구성 요소에 공급되는 농업 데이터 세트입니다. 질문-답변 생성은 농업 데이터 세트의 정보를 기반으로 질문-답변 쌍을 생성하고, 검색 증강 생성은 이를 지식 소스로 활용합니다. 생성된 데이터는 정제되어 여러 모델을 미세 조정하는 데 사용되며, 그 품질은 제안된 측정항목 세트를 통해 평가됩니다. 이러한 포괄적인 접근 방식을 통해 대규모 언어 모델의 힘을 활용하여 농업 산업과 기타 이해관계자에게 혜택을 제공합니다.
이 논문은 농업 분야에서 대규모 언어 모델을 이해하는 데 특별한 기여를 합니다.
1, LLM의 종합 평가: 이 논문은 대규모 언어 모델에 대한 광범위한 평가를 수행합니다. LlaMa2-13B, GPT-4 및 Vicuna를 포함하여 농업 관련 질문에 답변합니다. 평가에는 주요 농업 생산국의 벤치마크 데이터세트가 사용되었습니다. 이 분석에서 GPT-4는 지속적으로 다른 모델보다 성능이 뛰어나지만 미세 조정 및 추론과 관련된 비용을 고려해야 합니다.
2. 검색 기술 및 미세 조정이 성능에 미치는 영향: 이 논문에서는 검색 기술 및 미세 조정이 LLM 성능에 미치는 영향을 연구합니다. 연구에 따르면 검색 향상 생성과 미세 조정이 모두 LLM의 성능을 향상시키는 효과적인 기술인 것으로 나타났습니다.
3. 다양한 산업 분야에서 LLM의 잠재적 적용이 미치는 영향: LLM에 적용하기 위한 RAG 및 미세 조정 기술을 확립하려는 프로세스의 경우 이 기사는 선구적인 조치를 취하고 여러 산업 간의 협력을 촉진합니다.
방법론
이 문서의 2부에서는 데이터 수집 프로세스, 정보 추출 프로세스, 질문 및 답변 생성, 모델 미세 조정을 포함하여 채택된 방법론을 자세히 설명합니다. 방법론은 아래 그림 1과 같이 도메인별 보조자를 구축하기 위한 질문-답변 쌍을 생성하고 평가하도록 설계된 프로세스를 중심으로 진행됩니다.
이 프로세스는 정부 기관, 과학 지식 데이터베이스 등 다양한 고품질 저장소에서 데이터를 획득하고 필요할 경우 독점 데이터를 사용하는 데이터 수집으로 시작됩니다.
데이터 수집이 완료된 후에도 수집된 문서에서 정보를 추출하는 프로세스가 계속됩니다. 이 단계는 내용과 구조를 복구하기 위해 복잡하고 구조화되지 않은 PDF 파일을 구문 분석하는 것과 관련되므로 매우 중요합니다. 아래 그림 2는 데이터 세트의 PDF 파일 예를 보여줍니다.
프로세스의 다음 구성 요소는 질문과 답변 생성입니다. 여기서 목표는 추출된 텍스트의 내용을 정확하게 반영하는 상황 기반의 고품질 질문을 생성하는 것입니다. 이 방법은 입력과 출력의 구조적 구성을 제어하는 프레임워크를 채택하여 언어 모델이 생성하는 응답의 전반적인 효과를 향상시킵니다.
그런 다음 프로세스는 공식화된 질문에 대한 답변을 생성합니다. 여기에 채택된 접근 방식은 검색 강화 생성을 활용하고 검색 기능과 생성 메커니즘을 결합하여 고품질 답변을 생성합니다.
마지막으로 Q&A를 통해 모델을 미세 조정하는 과정이 진행됩니다. 최적화 프로세스에서는 LoRA(하위 조정)와 같은 방법을 사용하여 과학 문헌의 내용과 맥락에 대한 포괄적인 이해를 보장함으로써 이를 다양한 분야나 산업에서 귀중한 리소스로 만듭니다.
데이터 세트
이 연구에서는 미국, 브라질, 인도 등 세 가지 주요 작물 생산 국가의 상황 관련 질문과 답변 데이터 세트를 사용하여 미세 조정 및 검색 향상으로 생성된 언어 모델을 평가합니다. 본 글의 경우 산업 배경으로 농업을 사용하고 있다. 사용 가능한 데이터는 규제 문서부터 과학 보고서, 농경학 시험, 지식 데이터베이스에 이르기까지 형식과 내용이 매우 다양합니다.
이 기사는 미국 농무부, 주 농업 및 소비자 서비스 기관 등의 공개된 온라인 문서, 매뉴얼, 보고서에서 정보를 수집했습니다.
사용 가능한 문서에는 작물 및 가축 관리, 질병 및 모범 사례, 품질 보증 및 수출 규정, 지원 프로그램 세부 정보, 보험 및 가격 책정 지침에 대한 연방 규제 및 정책 정보가 포함됩니다. 수집된 데이터는 5천만 개가 넘는 토큰을 포함하고 미국 44개 주를 포함하는 총 23,000개 이상의 PDF 파일입니다. 연구원들은 질문 및 답변 생성 프로세스에 대한 입력으로 사용할 수 있는 텍스트 정보를 추출하기 위해 이러한 파일을 다운로드하고 전처리했습니다.
모델을 벤치마킹하고 평가하기 위해 이 기사에서는 2백만 개 이상의 토큰이 포함된 573개의 파일이 포함된 워싱턴 주 관련 문서를 사용합니다. 아래 목록 5에는 이러한 파일의 콘텐츠 예가 나와 있습니다.
메트릭
이 섹션의 주요 목적은 질문 및 답변 생성 프로세스의 품질 평가, 특히 미세 조정 및 검색 향상 평가를 안내할 목적으로 포괄적인 메트릭 세트를 설정하는 것입니다. 생성 방법.
측정항목을 개발할 때 몇 가지 주요 요소를 고려해야 합니다. 첫째, 질문 품질에 내재된 주관성은 심각한 문제를 야기합니다.
둘째, 측정항목은 문제의 관련성과 상황에 대한 실용성의 의존성을 고려해야 합니다.
셋째, 생성된 질문의 다양성과 참신성을 평가해야 합니다. 강력한 질문 생성 시스템은 특정 콘텐츠의 모든 측면을 다루는 광범위한 질문을 생성할 수 있어야 합니다. 그러나 다양성과 참신함을 정량화하는 것은 질문의 고유성과 콘텐츠, 기타 생성된 질문과의 유사성을 평가하는 것을 포함하기 때문에 어려울 수 있습니다.
마지막으로, 좋은 질문은 제공된 콘텐츠를 바탕으로 답변할 수 있어야 합니다. 사용 가능한 정보를 사용하여 질문에 정확하게 대답할 수 있는지 평가하려면 내용에 대한 깊은 이해와 질문에 대답하기 위한 관련 정보를 식별하는 능력이 필요합니다.
이러한 지표는 모델이 제공하는 답변이 질문에 정확하고 적절하며 효과적으로 답변하도록 보장하는 데 필수적인 역할을 합니다. 그러나 질문 품질을 평가하기 위해 특별히 고안된 지표가 상당히 부족합니다.
이러한 부족함을 인식하고 이 백서에서는 질문 품질을 평가하기 위해 고안된 측정항목 개발에 중점을 둡니다. 의미 있는 대화를 유도하고 유용한 답변을 생성하는 데 있어 질문의 중요한 역할을 고려할 때 질문의 품질을 보장하는 것은 답변의 품질을 보장하는 것만큼 중요합니다.
이 글에서 개발된 측정항목은 이 분야의 이전 연구와의 격차를 메우고 질문 품질을 종합적으로 평가하는 수단을 제공하는 것을 목표로 하며, 이는 질문 및 답변 생성 프로세스의 진행에 중요한 영향을 미칠 것입니다.
문제 평가
문제를 평가하기 위해 이 백서에서 개발한 측정항목은 다음과 같습니다.
다양한 성적
Details
Fluency
대규모 언어 모델은 길고 자세하며 유익한 대화식 답변을 생성하는 경향이 있으므로 생성된 답변을 평가하는 것은 어렵습니다.
진위성: 답변이 문맥에 포함된 정보와 논리적으로 일치하는지 여부를 정의하고 답변의 진위 여부를 판단하기 위해 정수 점수를 제공합니다.
모델 평가다양한 미세 조정 모델을 평가하기 위해 이 문서에서는 GPT-4를 평가자로 사용합니다. GPT-4를 실제 데이터 세트로 사용하여 농업 문서에서 약 270개의 질문과 답변 쌍이 생성되었습니다. 각 미세 조정 모델과 검색 증강 생성 모델에 대해 이러한 질문에 대한 답변이 생성됩니다.
이 문서는 여러 가지 측정 기준으로 LLM을 평가합니다.
지침을 사용한 평가: 각 질문-답변 실제 쌍에 대해 이 문서는 GPT-4에 포함된 내용에 대한 정답을 나열하는 평가 가이드를 생성하도록 요청합니다. . 그런 다음 GPT-4는 평가 가이드의 기준에 따라 0에서 1까지의 척도로 각 답변의 점수를 매기라는 메시지를 받았습니다. 예는 다음과 같습니다.
Succinctness: 간결하고 긴 답변에 포함될 수 있는 내용을 설명하는 기준표를 만듭니다. 이 루브릭을 바탕으로 실제 상황 답변과 LLM 답변 프롬프트 GPT-4는 1~5점 척도로 평가됩니다.
정확성: 이 글은 완전, 부분 정답, 오답에 포함되어야 하는 내용을 설명하는 루브릭을 만듭니다. 이 루브릭을 기반으로 실제 상황 답변과 LLM 답변 프롬프트를 바탕으로 GPT-4는 올바른지, 잘못된지, 부분적으로 올바른지 평가하도록 요청받습니다.
실험
이 문서의 실험은 여러 개의 독립적인 실험으로 나누어지며, 각 실험은 질문과 답변 생성 및 평가, 검색 향상 생성 및 미세 조정의 특정 측면에 중점을 둡니다.
이 실험에서는 다음 영역을 탐구합니다.
Q&A 품질
상황별 연구
모델에서 미터법 계산으로
결합 세대와 개별 세대
회수 절제 연구
미세 조정
질문 및 답변 품질
이 실험은 서로 다른 상황 설정에서 세 가지 대규모 언어 모델, 즉 GPT-3, GPT-3.5 및 GPT-4에서 생성된 질문 및 답변 쌍의 품질을 평가합니다. 품질 평가는 관련성, 적용 범위, 중복, 다양성을 포함한 다양한 측정항목을 기반으로 합니다.
컨텍스트 연구
이 실험은 다양한 컨텍스트 설정이 모델 생성 질문 및 답변의 성능에 미치는 영향을 연구합니다. 컨텍스트 없음, 컨텍스트 및 외부 컨텍스트의 세 가지 컨텍스트 설정에서 생성된 질문-답변 쌍을 평가합니다. 표 12에 예가 나와 있습니다.
컨텍스트 프리 설정에서 GPT-4는 세 모델 중 힌트의 적용 범위와 크기가 가장 높아 텍스트의 더 많은 부분을 다룰 수 있지만 더 긴 질문을 생성한다는 것을 나타냅니다. 그러나 세 가지 모델은 다양성, 중복, 관련성, 유창성에 대한 수치가 유사합니다.
컨텍스트를 포함하면 GPT-3.5는 GPT-3에 비해 적용 범위가 약간 증가한 반면 GPT-4는 가장 높은 적용 범위를 유지합니다. 크기 프롬프트의 경우 GPT-4의 값이 가장 크며, 이는 더 긴 질문과 답변을 생성할 수 있음을 나타냅니다.
다양성과 중복 측면에서 세 모델의 성능은 유사합니다. 관련성과 유창성 측면에서 GPT-4는 다른 모델에 비해 약간의 증가를 보여줍니다.
외부 컨텍스트 설정에서도 비슷한 상황이 있습니다.
또한 각 모델을 살펴보면 컨텍스트 프리 설정은 평균 적용 범위, 다양성, 중복, 관련성 및 유창성 측면에서 GPT-4에 가장 적합한 균형을 제공하는 것으로 보이지만 더 짧은 질문-답변 쌍을 생성합니다. 컨텍스트 설정으로 인해 질문-답변 쌍이 길어지고 크기를 제외한 다른 측정항목이 약간 감소했습니다. 외부 컨텍스트 설정은 가장 긴 질문-답변 쌍을 생성했지만 평균 범위를 유지하고 평균 관련성과 유창성을 약간 증가시켰습니다.
전반적으로 GPT-4의 경우 컨텍스트 프리 설정은 평균 적용 범위, 다양성, 중복, 관련성 및 유창성 측면에서 최고의 균형을 제공하는 것처럼 보이지만 답변이 더 짧습니다. 상황별 설정으로 인해 프롬프트가 길어지고 다른 측정항목이 약간 감소했습니다. 외부 컨텍스트 설정은 가장 긴 프롬프트를 생성했지만 평균 관련성과 유창성이 약간 증가하면서 평균 적용 범위를 유지했습니다.
따라서 이 세 가지 중 하나를 선택하는 것은 작업의 특정 요구 사항에 따라 달라집니다. 프롬프트의 길이를 고려하지 않는 경우 관련성과 유창성 점수가 높으므로 외부 컨텍스트가 최선의 선택일 수 있습니다.
측정항목 계산 모델
이 실험은 질문-답변 쌍의 품질을 평가하는 데 사용되는 측정항목 계산에서 GPT-3.5와 GPT-4의 성능을 비교합니다.
전반적으로 GPT-4는 생성된 질문-답변 쌍을 더 유창하고 상황에 맞는 것으로 평가하지만 GPT-3.5의 평가보다 다양성이 낮고 관련성이 낮습니다. 이러한 관점은 다양한 모델이 생성된 콘텐츠의 품질을 어떻게 인식하고 평가하는지 이해하는 데 중요합니다.
결합세대와 개인세대의 비교
본 실험은 개별 질문과 답변을 생성하는 것과 질문과 답변을 조합하여 생성하는 것의 장단점을 탐색하고, 토큰 사용 효율성 측면에서 비교에 중점을 둡니다.
전반적으로 질문 생성 전용 방법은 더 나은 적용 범위를 제공하고 다양성은 낮은 반면, 결합 생성 방법은 중복 및 상관 관계 측면에서 더 높은 점수를 제공합니다. 유창성 측면에서 두 방법 모두 유사하게 수행됩니다. 따라서 이 두 가지 방법 중 선택은 작업의 특정 요구 사항에 따라 달라집니다.
더 많은 정보를 다루고 더 많은 다양성을 유지하는 것이 목표라면 질문 전용 접근 방식이 선호됩니다. 그러나 원료 물질과 높은 수준의 중복이 유지되어야 한다면 결합 발전 방식이 더 나은 선택이 될 것입니다.
검색 절제 연구
이 실험은 질문 답변 중에 추가 컨텍스트를 제공하여 LLM의 고유 지식을 향상시키는 방법인 검색 향상 생성의 검색 기능을 평가합니다.
이 논문에서는 검색된 조각(즉, top-k) 수가 결과에 미치는 영향을 연구하고 그 결과를 표 16에 제시합니다. 더 많은 조각을 고려함으로써 검색 강화 생성은 원본 발췌문을 보다 일관되게 복구할 수 있습니다.
모델이 다양한 지리적 맥락과 현상의 문제를 처리할 수 있도록 하려면 다양한 주제를 포괄하도록 지원 문서의 코퍼스를 확장해야 합니다. 더 많은 문서가 고려될수록 인덱스 크기가 증가할 것으로 예상됩니다. 이는 검색 중에 유사한 세그먼트 간의 충돌 횟수를 증가시켜 입력 질문에 대한 관련 정보를 복구하는 능력을 방해하고 회상을 감소시킬 수 있습니다.
Fine-tuning
본 실험은 미세 조정 모델과 기본 명령 미세 조정 모델의 성능 차이를 평가합니다. 목표는 모델이 새로운 지식을 학습하는 데 도움이 되는 미세 조정의 잠재력을 이해하는 것입니다.
기본 모델의 경우 이 기사에서는 오픈 소스 모델 Llama2-13B-chat 및 Vicuna-13B-v1.5-16k를 평가합니다. 이 두 모델은 상대적으로 작으며 계산과 성능 간의 흥미로운 균형을 나타냅니다. 두 모델 모두 서로 다른 방법을 사용하여 Llama2-13B를 미세 조정한 버전입니다.
Llama2-13B-chat은 감독된 미세 조정 및 강화 학습을 통해 미세 조정된 교육입니다. Vicuna-13B-v1.5-16k는 ShareGPT 데이터세트에 대한 감독 미세 조정을 통해 미세 조정된 명령 버전입니다. 또한 이 문서에서는 기본 GPT-4를 더 크고, 더 비싸고, 더 강력한 대안으로 평가합니다.
미세 조정 모델의 경우 이 문서에서는 보다 일반적인 작업을 위해 미세 조정된 유사한 모델과 성능을 비교하기 위해 농업 데이터에서 직접 Llama2-13B를 미세 조정합니다. 또한 이 문서에서는 GPT-4를 미세 조정하여 매우 큰 모델에서 미세 조정이 여전히 유용한지 여부를 평가합니다. 지침에 따른 평가 결과는 표 18에 나와 있습니다.
답변의 품질을 완전히 측정하기 위해 이 기사에서는 정확성 외에도 답변의 단순성도 평가합니다.
표 21에서 볼 수 있듯이 이러한 모델은 항상 질문에 대한 완전한 답변을 제공하지는 않습니다. 예를 들어, 일부 응답에서는 토양 침식을 문제로 지적했지만 대기 질에 대해서는 언급하지 않았습니다.
전체적으로 참조 답변에 정확하고 간결하게 답변하는 측면에서 가장 우수한 모델은 Vicuna + 검색 강화 생성, GPT-4 + 검색 강화 생성, GPT-4 미세 조정 및 GPT-4 미세 조정입니다. + 검색 향상이 생성됩니다. 이러한 모델은 정확성, 단순성 및 정보 깊이가 균형 있게 혼합되어 있습니다.
Knowledge Discovery
이 논문의 연구 목표는 GPT-4가 응용 연구에 중요한 새로운 지식을 배울 수 있도록 미세 조정의 잠재력을 탐색하는 것입니다.
이를 테스트하기 위해 이 기사에서는 미국 50개 주 중 최소 3개 주에서 유사한 질문을 선택합니다. 그런 다음 임베딩의 코사인 유사성을 계산하고 1000개의 질문 목록을 식별했습니다. 이러한 질문은 훈련 세트에서 제거되고 검색 강화 생성을 통한 미세 조정 및 미세 조정을 사용하여 GPT-4가 서로 다른 상태 간의 유사성을 기반으로 새로운 지식을 학습할 수 있는지 여부를 평가합니다.
더 많은 실험 결과는 원본 논문을 참고해주세요.
위 내용은 RAG 또는 미세 조정? Microsoft는 특정 분야의 대형 모델 애플리케이션 구축 프로세스에 대한 가이드를 발표했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!