>  기사  >  기술 주변기기  >  Arthur Bench를 기반으로 LLM 평가를 수행하는 방법은 무엇입니까?

Arthur Bench를 기반으로 LLM 평가를 수행하는 방법은 무엇입니까?

WBOY
WBOY앞으로
2024-03-04 09:40:47340검색

안녕하세요 여러분 루가입니다. 오늘은 인공지능(AI) 생태분야인 LLM 평가 관련 기술에 대해 이야기해보겠습니다.

如何基于 Arthur Bench 进行 LLM 评估 ?

1. 전통적인 텍스트 평가가 직면한 과제

최근 몇 년간 대규모 언어 모델(LLM)의 급속한 발전과 개선으로 인해 전통적인 텍스트 평가 방법은 일부 측면에서 더 이상 적용되지 않을 수 있습니다. 텍스트 평가 분야에서는 BLEU와 같은 "단어 발생" 기반 평가 방법, BERTScore와 같은 "사전 훈련된 자연어 처리 모델" 기반 평가 방법 등을 들어봤을 것입니다.

이러한 방법은 과거에는 잘 수행되었지만 LLM 생태 기술의 지속적인 개발로 인해 현재 요구 사항을 완전히 충족시키지 못하는 것 같습니다.

LLM 기술의 급속한 발전과 지속적인 개선으로 우리는 새로운 도전과 기회에 직면해 있습니다. LLM은 기능과 성능 수준을 지속적으로 향상시키고 있으며, 이로 인해 단어 빈도 기반 평가 방법(예: BLEU)은 잠재적으로 LLM 생성 텍스트의 품질과 의미론적 정확성을 완전히 포착할 수 없게 됩니다. LLM은 보다 유창하고 일관되며 의미가 풍부한 텍스트를 생성할 수 있지만 기존의 단어 빈도 기반 평가 방법은 이러한 장점을 정확하게 평가하기 어렵습니다.

또한 BERTScore와 같은 사전 훈련된 모델을 기반으로 한 평가 방법에도 몇 가지 어려움이 있습니다. 사전 훈련된 모델은 많은 작업에서 우수한 성능을 발휘하지만 LLM의 특별한 특성과 특정 작업에 대한 성능을 완전히 고려하지 못할 수도 있습니다. LLM은 특정 작업을 처리할 때 사전 훈련된 모델과 다른 동작 및 성능을 나타낼 수 있으므로 사전 훈련된 모델을 기반으로 한 평가 방법에만 의존하면 LLM의 기능을 완전히 평가하지 못할 수 있습니다.

2. LLM 지도 평가가 필요한 이유는 무엇인가요?

일반적으로 실제 비즈니스 환경에서 LLM 방법의 가치는 주로 이 두 가지 측면에 반영됩니다. 가장 중요한 평가 지표입니다.

1. 효율적입니다

우선, 일반적으로 구현이 더 빠릅니다. 이전 평가 파이프라인에 필요한 작업량에 비해 LLM 기반 평가의 첫 번째 구현을 만드는 것은 상대적으로 빠르고 쉽습니다. LLM 기반 평가의 경우 평가 기준을 말로 설명하고 프롬프트 템플릿에 사용할 몇 가지 예를 제공하는 두 가지만 준비하면 됩니다. 추정기 역할을 하기 위해 사전 훈련된 NLP 모델을 구축하거나 기존 NLP 모델을 미세 조정하는 데 필요한 작업량과 데이터 수집에 비해 LLM을 사용하여 이러한 작업을 수행하는 것이 더 효율적입니다. LLM을 사용하면 평가 기준 반복이 훨씬 빨라집니다.

2. 감도

LLM은 일반적으로 더 높은 감도를 나타냅니다. LLM은 사전 훈련된 NLP 모델 및 이전에 논의된 평가 방법보다 다양한 상황을 처리하는 데 더 유연하기 때문에 이러한 민감도는 긍정적인 측면을 가질 수 있습니다. 그러나 이러한 높은 민감도로 인해 LLM 평가 결과를 예측하기 어려울 수도 있습니다. LLM 입력 데이터의 작은 변화는 상당한 영향을 미칠 수 있으며, 이로 인해 특정 작업을 처리할 때 더 큰 변동성을 나타낼 수 있습니다. 따라서 LLM을 평가할 때 결과의 안정성과 신뢰성을 보장하기 위해 민감도에 특별한 주의를 기울여야 합니다.

앞서 논의한 것처럼 LLM 평가자는 다른 평가 방법에 비해 더 민감합니다. LLM을 평가자로 구성하는 방법에는 여러 가지가 있으며 해당 동작은 선택한 구성에 따라 크게 달라질 수 있습니다. 한편, 또 다른 과제는 평가에 너무 많은 추론 단계가 포함되거나 너무 많은 변수를 동시에 처리해야 하는 경우 LLM 평가자가 정체될 수 있다는 것입니다.

LLM의 특성으로 인해 평가 결과는 다양한 구성 및 매개변수 설정에 의해 영향을 받을 수 있습니다. 이는 LLM을 평가할 때 모델이 예상대로 작동하도록 신중하게 선택하고 구성해야 함을 의미합니다. 구성이 다르면 출력 결과도 달라질 수 있으므로 평가자는 정확하고 신뢰할 수 있는 평가 결과를 얻기 위해 LLM의 설정을 조정하고 최적화하는 데 약간의 시간과 노력을 기울여야 합니다.

또한 평가자는 복잡한 추론이나 여러 변수의 동시 처리가 필요한 평가 작업에 직면할 때 몇 가지 어려움에 직면할 수 있습니다. 복잡한 상황을 다룰 때 LLM의 추론 능력이 제한될 수 있기 때문입니다. LLM은 평가의 정확성과 신뢰성을 보장하기 위해 이러한 작업을 해결하기 위한 추가 노력이 필요할 수 있습니다.

3. Arthur Bench란?

Arthur Bench는 생성 텍스트 모델(LLM)의 성능을 비교하는 데 사용되는 오픈 소스 평가 도구입니다. 다양한 LLM 모델, 단서 및 하이퍼 매개변수를 평가하고 다양한 작업에 대한 LLM 성능에 대한 자세한 보고서를 제공하는 데 사용할 수 있습니다.

Arthur Bench의 주요 기능은 다음과 같습니다. Arthur Bench의 주요 기능은 다음과 같습니다.

  • 다양한 LLM 모델 비교: Arthur Bench를 사용하면 다양한 공급업체의 모델, 다양한 버전의 모델, 다양한 교육 데이터 세트를 사용하는 모델을 비롯한 다양한 LLM 모델의 성능을 비교할 수 있습니다.
  • 팁 평가: Arthur Bench를 사용하면 다양한 팁이 LLM 성과에 미치는 영향을 평가할 수 있습니다. 프롬프트는 LLM이 텍스트를 생성하도록 안내하는 데 사용되는 지침입니다.
  • 초매개변수 테스트: Arthur Bench를 사용하여 다양한 초매개변수가 LLM 성능에 미치는 영향을 테스트할 수 있습니다. 하이퍼파라미터는 LLM의 동작을 제어하는 ​​설정입니다.

일반적으로 Arthur Bench 워크플로는 주로 다음 단계로 이루어지며, 자세한 분석은 다음과 같습니다.

如何基于 Arthur Bench 进行 LLM 评估 ?

1. 작업 정의

이 단계에서는 평가 목표를 명확히 해야 합니다, Arthur 벤치는 다음을 포함한 다양한 평가 작업을 지원합니다.

  • 질문과 답변: 개방형, 도전적 또는 모호한 질문을 이해하고 답변하는 LLM의 능력을 테스트합니다.
  • 요약: 텍스트에서 핵심 정보를 추출하고 간결한 요약을 생성하는 LLM의 능력을 평가하세요.
  • 번역: 다양한 언어를 정확하고 유창하게 번역하는 LLM의 능력을 살펴보세요.
  • 코드 생성: 자연어 설명을 기반으로 코드를 생성하는 LLM의 기능을 테스트합니다.

2. 모델 선정

이 단계에서는 평가 대상을 선정하는 것이 주요 작업입니다. Arthur Bench는 GPT-3, LaMDA, Megatron-Turing NLG 등과 같은 OpenAI, Google AI, Microsoft 등 유명 기관의 선도적인 기술을 다루는 다양한 LLM 모델을 지원합니다. 우리는 연구 요구에 따라 평가를 위한 특정 모델을 선택할 수 있습니다.

3. 매개변수 구성

모델 선택이 완료되면 다음 단계는 정밀한 제어를 수행하는 것입니다. LLM 성능을 보다 정확하게 평가하기 위해 Arthur Bench를 사용하면 힌트와 하이퍼파라미터를 구성할 수 있습니다.

  • 팁: 질문, 설명, 지침 등 생성된 텍스트의 방향과 내용으로 LLM을 안내하세요.
  • 하이퍼파라미터: 학습 속도, 훈련 단계 수, 모델 아키텍처 등과 같은 LLM 동작을 제어하는 ​​주요 설정입니다.

정교한 구성을 통해 다양한 매개변수 설정에서 LLM의 성능 차이를 심층적으로 탐색하고 더 많은 참조 값이 포함된 평가 결과를 얻을 수 있습니다.

4. 평가 실행: 자동화된 프로세스

마지막 단계는 자동화된 프로세스의 도움으로 작업 평가를 수행하는 것입니다. 일반적으로 Arthur Bench는 평가 작업을 실행하기 위해 간단한 구성이 필요한 자동화된 평가 프로세스를 제공합니다. 다음 단계가 자동으로 수행됩니다.

  • LLM 모델을 호출하고 텍스트 출력을 생성합니다.
  • 특정 작업에는 해당 평가 지표를 적용하여 분석하세요.
  • 상세 보고서를 생성하고 평가 결과를 제시합니다.

4. Arthur Bench 사용 시나리오 분석

빠른 데이터 기반 LLM 평가의 핵심으로 Arthur Bench는 주로 다음과 같은 솔루션을 제공합니다.

1 모델 선택 및 검증 이는 인공 지능 분야에서 중요한 단계이며 모델의 타당성과 신뢰성을 보장하는 데 매우 중요합니다. 이 과정에서 아서 벤치의 역할이 결정적이었다. 그의 목표는 일관된 지표와 평가 방법을 사용하여 기업이 다양한 LLM(대형 언어 모델) 옵션 중에서 정보에 근거한 결정을 내릴 수 있도록 신뢰할 수 있는 비교 프레임워크를 제공하는 것입니다.

如何基于 Arthur Bench 进行 LLM 评估 ?Arthur Bench는 자신의 전문 지식과 경험을 활용하여 각 LLM 옵션을 평가하고 일관된 측정 기준을 사용하여 강점과 약점을 비교하도록 합니다. 그는 기업이 정보를 바탕으로 명확한 선택을 할 수 있도록 모델 성능, 정확성, 속도, 리소스 요구 사항 등과 같은 요소를 고려할 것입니다.

Arthur Bench는 일관된 지표와 평가 방법론을 사용하여 기업에 신뢰할 수 있는 비교 프레임워크를 제공하여 각 LLM 옵션의 이점과 한계를 완전히 평가할 수 있도록 합니다. 이를 통해 기업은 정보에 입각한 결정을 내려 인공 지능의 급속한 발전을 극대화하고 애플리케이션에 대한 최상의 경험을 보장할 수 있습니다.

2. 예산 및 개인 정보 보호

AI 모델을 선택할 때 모든 애플리케이션에 가장 발전되거나 값비싼 대형 언어 모델(LLM)이 필요한 것은 아닙니다. 어떤 경우에는 저렴한 AI 모델을 사용하여 임무 요구 사항을 충족할 수 있습니다.

이 예산 최적화 접근 방식은 기업이 제한된 리소스로 현명한 선택을 하는 데 도움이 될 수 있습니다. 가장 비싸거나 최첨단 모델을 선택하는 대신 특정 요구 사항에 맞는 모델을 선택하세요. 보다 저렴한 모델은 일부 측면에서 최첨단 LLM보다 성능이 약간 떨어질 수 있지만 일부 간단하거나 표준적인 작업의 경우 Arthur Bench는 여전히 요구 사항을 충족하는 솔루션을 제공할 수 있습니다.

또한 Arthur Bench는 모델을 사내로 가져오면 데이터 개인 정보 보호를 더 잘 제어할 수 있다고 강조했습니다. 민감한 데이터 또는 개인 정보 보호 문제와 관련된 애플리케이션의 경우 회사는 외부 타사 LLM에 의존하기보다는 내부에서 교육받은 자체 모델을 사용하는 것을 선호할 수 있습니다. 내부 모델을 사용함으로써 기업은 데이터 처리 및 저장에 대한 통제력을 강화하고 데이터 개인정보 보호를 더욱 강화할 수 있습니다.

3. 학술 벤치마크를 실제 성과로 전환

학술 벤치마크는 학술 연구에서 확립된 모델 평가 지표 및 방법을 나타냅니다. 이러한 지표와 방법은 일반적으로 특정 작업이나 영역에 특정하며 해당 작업이나 영역에서 모델의 성능을 효과적으로 평가할 수 있습니다.

그러나 학문적 벤치마크가 항상 실제 세계에서의 모델 성능을 직접적으로 반영하는 것은 아닙니다. 이는 실제 세계의 애플리케이션 시나리오가 더 복잡하고 데이터 배포, 모델 배포 환경 등과 같이 더 많은 요소를 고려해야 하기 때문입니다.

Arthur Bench는 학문적 벤치마크를 실제 성과로 변환하는 데 도움이 됩니다. 이 목표는 다음과 같은 방법으로 달성됩니다.

  • 모델 정확성, 효율성, 견고성 등의 여러 측면을 포괄하는 포괄적인 평가 지표 세트를 제공합니다. 이러한 측정항목은 학문적 벤치마크에 따른 모델 성능뿐만 아니라 실제 세계에서 모델의 잠재적 성능도 반영할 수 있습니다.
  • 여러 모델 유형을 지원하고 다양한 유형의 모델을 비교할 수 있습니다. 이를 통해 기업은 애플리케이션 시나리오에 가장 적합한 모델을 선택할 수 있습니다.
  • 기업이 다양한 모델의 성능 차이를 직관적으로 이해할 수 있도록 시각적 분석 도구를 제공합니다. 이를 통해 기업은 보다 쉽게 ​​의사결정을 내릴 수 있습니다.

5. Arthur Bench 기능 분석

빠른 데이터 기반 LLM 평가의 핵심인 Arthur Bench에는 다음과 같은 기능이 있습니다.

1 전체 점수 지표 세트

Arthur Bench에는 완전한 점수 세트가 있습니다. 품질의 모든 측면을 요약하는 것부터 사용자 경험까지 모든 것을 다루는 지표입니다. 그는 언제든지 이러한 채점 지표를 사용하여 다양한 모델을 평가하고 비교할 수 있습니다. 이러한 점수 측정 지표를 결합하면 각 모델의 강점과 약점을 완전히 이해하는 데 도움이 될 수 있습니다.

이러한 채점 지표의 범위는 요약 품질, 정확성, 유창성, 문법적 정확성, 맥락 이해 능력, 논리적 일관성 등을 포함하되 이에 국한되지 않고 매우 넓습니다. Arthur Bench는 이러한 지표를 기준으로 각 모델을 평가하고 결과를 종합적인 점수로 결합하여 기업이 정보에 입각한 결정을 내릴 수 있도록 지원합니다.

또한 회사에 특정 요구 사항이나 우려 사항이 있는 경우 Arthur Bench는 회사의 요구 사항에 따라 사용자 정의 점수 측정 항목을 만들고 추가할 수도 있습니다. 이는 회사의 특정 요구 사항을 더 잘 충족하고 평가 프로세스가 회사의 목표 및 표준과 일치하는지 확인하기 위해 수행됩니다.

如何基于 Arthur Bench 进行 LLM 评估 ?

2. 로컬 및 클라우드 기반 버전

로컬 배포 및 자율 제어를 선호하는 사용자는 GitHub 저장소에서 액세스하여 Arthur Bench를 자신의 로컬 환경 중간에 배포할 수 있습니다. 이러한 방식으로 누구나 Arthur Bench의 작동을 완전히 마스터하고 제어할 수 있으며 자신의 필요에 따라 사용자 정의하고 구성할 수 있습니다.

한편, 편의성과 유연성을 선호하는 사용자를 위해 클라우드 기반 SaaS 제품도 제공됩니다. 클라우드를 통해 Arthur Bench에 액세스하고 사용하기 위해 등록하도록 선택할 수 있습니다. 이 방법을 사용하면 번거로운 로컬 설치 및 구성이 필요 없으며, 제공되는 기능과 서비스를 즉시 이용할 수 있습니다.

3. 완전 오픈소스

오픈소스 프로젝트로서 Arthur Bench는 투명성, 확장성, 커뮤니티 협업 측면에서 전형적인 오픈소스 특성을 보여줍니다. 이러한 오픈 소스 특성은 사용자에게 프로젝트 작동 방식을 더 깊이 이해하고 필요에 맞게 사용자 정의하고 확장할 수 있는 풍부한 이점과 기회를 제공합니다. 동시에 Arthur Bench의 개방성은 사용자가 커뮤니티 협업에 적극적으로 참여하고 다른 사용자와 협력하고 개발하도록 장려합니다. 이러한 개방형 협력 모델은 프로젝트의 지속적인 개발과 혁신을 촉진하는 동시에 사용자에게 더 큰 가치와 기회를 창출하는 데 도움이 됩니다.

즉, Arthur Bench는 사용자가 평가 지표를 맞춤 설정할 수 있는 개방적이고 유연한 프레임워크를 제공하며 금융 분야에서 널리 사용되고 있습니다. Amazon Web Services 및 Cohere와의 파트너십을 통해 프레임워크가 더욱 발전하여 개발자가 Bench에 대한 새로운 지표를 생성하고 언어 모델 평가 분야의 발전에 기여하도록 장려합니다.

참고자료:

  • [1] https://github.com/arthur-ai/bench
  • [2] https://neurohive.io/en/news/arthur-bench-framework-for-evaluating- 언어 모델/

위 내용은 Arthur Bench를 기반으로 LLM 평가를 수행하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제