>  기사  >  기술 주변기기  >  라마, 알파카, 비쿠냐, ChatGPT의 차이점은 무엇인가요? 7개의 대형 ChatGPT 모델 평가

라마, 알파카, 비쿠냐, ChatGPT의 차이점은 무엇인가요? 7개의 대형 ChatGPT 모델 평가

王林
王林앞으로
2023-05-22 14:28:061112검색

대규모 언어 모델(LLM)은 전 세계적으로 인기를 얻고 있으며 중요한 응용 프로그램 중 하나는 채팅이며 질문과 답변, 고객 서비스 및 기타 여러 측면에서 사용됩니다. 그러나 챗봇은 평가하기가 매우 어렵습니다. 정확히 어떤 상황에서 이러한 모델이 가장 잘 사용되는지는 아직 명확하지 않습니다. 따라서 LLM 평가는 매우 중요합니다.

이전에 Marco Tulio Ribeiro라는 중형 블로거가 일부 복잡한 작업에서 Vicuna-13B, MPT-7b-Chat 및 ChatGPT 3.5를 테스트했습니다. 결과에 따르면 Vicuna는 많은 작업에서 ChatGPT(3.5)에 대한 실행 가능한 대안인 반면 MPT는 아직 실제 사용이 가능하지 않은 것으로 나타났습니다. 최근 CMU 부교수 Graham Neubig은 기존 챗봇 7개에 대한 세부 평가를 실시하고 자동 비교를 위한 오픈 소스 도구를 제작하여 최종적으로 평가 보고서를 작성했습니다.


라마, 알파카, 비쿠냐, ChatGPT의 차이점은 무엇인가요? 7개의 대형 ChatGPT 모델 평가이 보고서에서 리뷰어는 사람들이 모든 최신 오픈 소스 모델과 API의 현재 상태를 더 쉽게 이해할 수 있도록 일부 챗봇의 예비 평가 및 비교 결과를 보여줍니다. 기반 모델.

구체적으로, 리뷰어는 LLM 평가를 위해 새로운 오픈 소스 툴킷인 Zeno Build를 만들었습니다. 이 툴킷은 (1) Hugging Face 또는 온라인 API를 통해 오픈 소스 LLM을 사용하기 위한 통합 인터페이스, (2) Zeno를 사용하여 결과를 찾아보고 분석하기 위한 온라인 인터페이스, (3) Critique를 사용하여 텍스트의 SOTA 평가를 위한 측정항목을 결합합니다.


라마, 알파카, 비쿠냐, ChatGPT의 차이점은 무엇인가요? 7개의 대형 ChatGPT 모델 평가

구체 참여 결과 : https://zeno-ml-chatbot-report.hf.space/

다음은 평가 결과 요약입니다.

평가자 평가 7개 언어 모델: GPT-2, LLaMa, Alpaca, Vicuna, MPT-Chat, Cohere Command 및 ChatGPT(gpt-3.5-turbo)
  • 이 모델은 인간과 유사한 이미지를 생성하는 데 기반을 두고 있습니다. 고객 서비스 데이터 세트에 대한
  • 의 반응성 처음 몇 라운드의 대화에서는 신속한 엔지니어링이 모델 대화의 성능을 향상시키는 데 매우 유용하지만 이후 라운드에서는 더 많은 맥락이 있을 때 그 효과가 그다지 뚜렷하지 않습니다.
  • ChatGPT만큼 강력한 모델에도 이 모델에는 환각, 추가 정보 탐색 실패, 반복되는 콘텐츠 등 명백한 문제가 많이 있습니다.
  • 리뷰 내용은 다음과 같습니다.
  • Setup
  • 모델 개요

리뷰어 는 DSTC11 고객 서비스 데이터세트

를 사용하고 있습니다. DSTC11은 댓글 게시물의 주관적인 지식을 활용하여 보다 유익하고 매력적인 작업 중심 대화를 지원하는 것을 목표로 하는 대화 시스템 기술 챌린지의 데이터 세트입니다.

DSTC11 데이터 세트에는 다중 회전 대화, 다중 도메인 대화 등과 같은 여러 하위 작업이 포함되어 있습니다. 예를 들어, 하위 작업 중 하나는 영화 리뷰를 기반으로 한 다중 회전 대화로, 사용자와 시스템 간의 대화는 사용자가 자신의 취향에 맞는 영화를 찾을 수 있도록 설계되었습니다.

다음 7개 모델을 테스트했습니다.

  • GPT-2: 2019년의 고전적인 언어 모델. 검토자는 이를 기준으로 포함하여 최근 언어 모델링의 발전이 더 나은 채팅 모델 구축에 얼마나 영향을 미치는지 확인했습니다.
  • LLaMa: 원래 직접적인 언어 모델링 목표를 사용하여 Meta AI가 훈련한 언어 모델입니다. 테스트에는 7B 버전의 모델이 사용되었으며 다음 오픈 소스 모델도 동일한 스케일 버전을 사용합니다.
  • Alpaca: LLaMa를 기반으로 하지만 명령 튜닝이 포함된 모델
  • Vicuna: 모델 LLaMa 기반, 챗봇 기반 애플리케이션에 맞게 더욱 명시적으로 조정됨
  • MPT-Chat: 더 많은 상용 라이센스가 있는 Vicuna와 유사한 방식으로 처음부터 훈련된 모델: API- 명령 준수 측면에서 미세 조정된 Cohere 기반 모델
  • ChatGPT(gpt-3.5-turbo): OpenAI에서 개발한 표준 API 기반 채팅 모델입니다.
  • 모든 모델에 대해 리뷰어는 기본 매개변수 설정을 사용했습니다. 여기에는 0.3의 온도, 4개의 이전 대화 턴에 대한 컨텍스트 창, "당신은 사람들과 잡담을 나누는 임무를 맡은 챗봇입니다."라는 표준 프롬프트가 포함됩니다.

평가 지표

평가자는 결과가 인간 고객 서비스 응답과 얼마나 유사한지를 기준으로 이러한 모델을 평가합니다. 이는 Critique 도구 상자에서 제공하는 측정항목을 사용하여 수행됩니다.

chrf: 문자열의 겹침을 측정합니다.

  • BERTScore: 두 담론 간의 삽입 겹침을 측정합니다.
  • UniEval Coherence: 얼마나 일관성이 있습니까? 예측 출력은 이전 채팅 라운드와 같습니다.
  • 또한 챗봇이 얼마나 수다스러운지 측정하기 위해 출력 길이를 최적의 인간 응답 길이로 나누어 길이 비율을 측정했습니다.

추가 분석

결과를 더 자세히 분석하기 위해 검토자는 Zeno의 분석 인터페이스, 특히 보고서 생성기를 사용하여 대화 위치에 따라 결과를 분석했습니다(처음, 초기, 인간 응답의 표준 길이(짧음, 중간, 긴)를 분석하고 탐색 인터페이스를 사용하여 자동화되지 않은 채점 사례를 확인하고 각 모델이 실패한 부분을 더 잘 이해합니다.

Results

모델의 전반적인 성능은 어떤가요?

이러한 모든 측정 항목에 따르면 gpt-3.5-turbo는 오픈 소스 우승자입니다. GPT-2와 LLaMa는 그다지 좋지 않아 채팅에서 직접 교육하는 것이 중요합니다.

이 순위는 인간 A/B 테스트를 사용하여 모델을 비교하는 lmsys 채팅 경기장의 순위와 대략 일치하지만 Zeno Build의 결과는 인간 평가 없이 얻습니다.

라마, 알파카, 비쿠냐, ChatGPT의 차이점은 무엇인가요? 7개의 대형 ChatGPT 모델 평가

출력 길이에 관해서는 gpt3.5-turbo의 출력이 다른 모델에 비해 많이 장황한데, 채팅 방향으로 튜닝한 모델은 일반적으로 장황한 출력을 내는 것 같습니다.


Gold Standard 응답 길이 정확도 라마, 알파카, 비쿠냐, ChatGPT의 차이점은 무엇인가요? 7개의 대형 ChatGPT 모델 평가

다음으로 검토자는 Zeno 보고서 UI를 사용하여 더 자세히 살펴보았습니다. 첫째, 그들은 인간의 반응 길이에 따라 정확도를 별도로 측정했습니다. 그들은 응답을 짧은(35자 이하), 중간(36-70자), 긴(71자 이상)의 세 가지 범주로 분류하고 정확성을 개별적으로 평가했습니다.

gpt-3.5-turbo 및 Vicuna는 더 긴 대화 라운드에서도 정확도를 유지하는 반면 다른 모델의 정확도는 감소합니다.

라마, 알파카, 비쿠냐, ChatGPT의 차이점은 무엇인가요? 7개의 대형 ChatGPT 모델 평가

다음 질문은 컨텍스트 창 크기가 얼마나 중요한가요? 리뷰어들은 Vicuna를 사용하여 실험을 수행했으며 컨텍스트 창의 범위는 이전 담화 1~4개였습니다. 컨텍스트 창을 늘리면 모델 성능이 향상되어 더 큰 컨텍스트 창이 중요하다는 것을 나타냅니다.


라마, 알파카, 비쿠냐, ChatGPT의 차이점은 무엇인가요? 7개의 대형 ChatGPT 모델 평가

평가 결과에 따르면 대화의 중간 및 후반 단계에서는 더 긴 맥락이 특히 중요하다는 것을 알 수 있습니다. 왜냐하면 이러한 위치의 답변에는 템플릿이 많지 않고 이전에 말한 내용에 더 많이 의존하기 때문입니다. .


라마, 알파카, 비쿠냐, ChatGPT의 차이점은 무엇인가요? 7개의 대형 ChatGPT 모델 평가

표준적인 더 짧은 출력을 생성하려고 할 때 더 많은 컨텍스트가 특히 중요합니다(아마 모호성이 더 많기 때문일 것입니다).


라마, 알파카, 비쿠냐, ChatGPT의 차이점은 무엇인가요? 7개의 대형 ChatGPT 모델 평가

프롬프트가 얼마나 중요합니까?

리뷰어는 5가지 다른 프롬프트를 시도했는데 그 중 4개는 보편적이고 다른 하나는 보험 분야의 고객 서비스 채팅 작업에 특별히 맞춰졌습니다.

  • 표준: "당신은 채팅을 담당하는 Chatbot입니다. "
  • 친절함: "당신은 친절하고 친근한 챗봇입니다. 당신의 임무는 사람들과 기분 좋게 채팅하는 것입니다."
  • 예 공손함: "당신은 매우 예의바른 챗봇입니다. 매우 정중하게 말합니다. 그리고 답변에 실수가 없도록 노력하세요."
  • 냉소적: "당신은 세계관에 대해 매우 어두운 시각을 가진 냉소적인 챗봇입니다. 일반적으로 가능한 문제를 지적하는 것을 좋아합니다. "
  • Special. 보험 업계에: "당신은 주로 보험금 청구 문제 해결을 돕는 리버타운 보험 헬프 데스크의 직원입니다."

일반적으로 이러한 프롬프트를 사용하면 검토자는 서로 다른 프롬프트로 인해 큰 차이를 발견하지 못했습니다. 하지만 "냉소적" 챗봇은 약간 나빴고, 맞춤형 "보험" 챗봇은 전체적으로 약간 나빴습니다.


라마, 알파카, 비쿠냐, ChatGPT의 차이점은 무엇인가요? 7개의 대형 ChatGPT 모델 평가

다른 프롬프트로 인한 차이는 대화의 첫 번째 차례에서 특히 분명하며, 이는 끌어낼 다른 맥락이 거의 없을 때 프롬프트가 가장 중요하다는 것을 보여줍니다.

라마, 알파카, 비쿠냐, ChatGPT의 차이점은 무엇인가요? 7개의 대형 ChatGPT 모델 평가

버그 발견 및 가능한 완화

마지막으로 리뷰어는 Zeno의 탐색 UI를 사용하여 gpt-3.5-turbo를 통해 가능한 버그를 찾으려고 했습니다. 특히 그들은 chrf가 낮은(


라마, 알파카, 비쿠냐, ChatGPT의 차이점은 무엇인가요? 7개의 대형 ChatGPT 모델 평가

프로브 고장

모델이 실제로 필요할 때 더 많은 정보를 조사할 수 없는 경우가 있습니다. 예를 들어 모델이 아직 번호 처리에 완벽하지 않습니다(전화번호는 11자리여야 하며, 모델에서 제공한 숫자의 길이가 답변과 일치하지 않습니다). . 이는 특정 정보의 필수 길이를 모델에 상기시키도록 프롬프트를 수정하여 완화할 수 있습니다.

라마, 알파카, 비쿠냐, ChatGPT의 차이점은 무엇인가요? 7개의 대형 ChatGPT 모델 평가

콘텐츠 중복

때때로 동일한 콘텐츠가 여러 번 반복되는 경우가 있습니다. 예를 들어 여기서 챗봇이 "감사합니다"라는 말을 두 번이나 했습니다.

라마, 알파카, 비쿠냐, ChatGPT의 차이점은 무엇인가요? 7개의 대형 ChatGPT 모델 평가

말이 되는 반응이지만 인간의 방식과는 다릅니다.

때때로 반응은 합리적이지만 인간과는 다릅니다.


라마, 알파카, 비쿠냐, ChatGPT의 차이점은 무엇인가요? 7개의 대형 ChatGPT 모델 평가

위는 평가 결과입니다. 마지막으로, 검토자들은 이 보고서가 연구자들에게 도움이 되기를 바랍니다! 계속해서 다른 모델, 데이터 세트, 프롬프트 또는 기타 하이퍼파라미터 설정을 시도하고 싶다면 zeno-build 저장소의 챗봇 예제로 이동하여 시험해 볼 수 있습니다.

위 내용은 라마, 알파카, 비쿠냐, ChatGPT의 차이점은 무엇인가요? 7개의 대형 ChatGPT 모델 평가의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제