대규모 언어 모델(LLM)은 전 세계적으로 인기를 얻고 있으며 중요한 응용 프로그램 중 하나는 채팅이며 질문과 답변, 고객 서비스 및 기타 여러 측면에서 사용됩니다. 그러나 챗봇은 평가하기가 매우 어렵습니다. 정확히 어떤 상황에서 이러한 모델이 가장 잘 사용되는지는 아직 명확하지 않습니다. 따라서 LLM 평가는 매우 중요합니다.
이전에 Marco Tulio Ribeiro라는 중형 블로거가 일부 복잡한 작업에서 Vicuna-13B, MPT-7b-Chat 및 ChatGPT 3.5를 테스트했습니다. 결과에 따르면 Vicuna는 많은 작업에서 ChatGPT(3.5)에 대한 실행 가능한 대안인 반면 MPT는 아직 실제 사용이 가능하지 않은 것으로 나타났습니다. 최근 CMU 부교수 Graham Neubig은 기존 챗봇 7개에 대한 세부 평가를 실시하고 자동 비교를 위한 오픈 소스 도구를 제작하여 최종적으로 평가 보고서를 작성했습니다.
이 보고서에서 리뷰어는 사람들이 모든 최신 오픈 소스 모델과 API의 현재 상태를 더 쉽게 이해할 수 있도록 일부 챗봇의 예비 평가 및 비교 결과를 보여줍니다. 기반 모델.
구체적으로, 리뷰어는 LLM 평가를 위해 새로운 오픈 소스 툴킷인 Zeno Build를 만들었습니다. 이 툴킷은 (1) Hugging Face 또는 온라인 API를 통해 오픈 소스 LLM을 사용하기 위한 통합 인터페이스, (2) Zeno를 사용하여 결과를 찾아보고 분석하기 위한 온라인 인터페이스, (3) Critique를 사용하여 텍스트의 SOTA 평가를 위한 측정항목을 결합합니다.
다음은 평가 결과 요약입니다.
평가자 평가 7개 언어 모델: GPT-2, LLaMa, Alpaca, Vicuna, MPT-Chat, Cohere Command 및 ChatGPT(gpt-3.5-turbo)
리뷰어 는 DSTC11 고객 서비스 데이터세트
DSTC11 데이터 세트에는 다중 회전 대화, 다중 도메인 대화 등과 같은 여러 하위 작업이 포함되어 있습니다. 예를 들어, 하위 작업 중 하나는 영화 리뷰를 기반으로 한 다중 회전 대화로, 사용자와 시스템 간의 대화는 사용자가 자신의 취향에 맞는 영화를 찾을 수 있도록 설계되었습니다.
다음 7개 모델을 테스트했습니다.
평가 지표
평가자는 결과가 인간 고객 서비스 응답과 얼마나 유사한지를 기준으로 이러한 모델을 평가합니다. 이는 Critique 도구 상자에서 제공하는 측정항목을 사용하여 수행됩니다.
chrf: 문자열의 겹침을 측정합니다.
추가 분석
결과를 더 자세히 분석하기 위해 검토자는 Zeno의 분석 인터페이스, 특히 보고서 생성기를 사용하여 대화 위치에 따라 결과를 분석했습니다(처음, 초기, 인간 응답의 표준 길이(짧음, 중간, 긴)를 분석하고 탐색 인터페이스를 사용하여 자동화되지 않은 채점 사례를 확인하고 각 모델이 실패한 부분을 더 잘 이해합니다.
Results모델의 전반적인 성능은 어떤가요?
이러한 모든 측정 항목에 따르면 gpt-3.5-turbo는 오픈 소스 우승자입니다. GPT-2와 LLaMa는 그다지 좋지 않아 채팅에서 직접 교육하는 것이 중요합니다.
이 순위는 인간 A/B 테스트를 사용하여 모델을 비교하는 lmsys 채팅 경기장의 순위와 대략 일치하지만 Zeno Build의 결과는 인간 평가 없이 얻습니다.
출력 길이에 관해서는 gpt3.5-turbo의 출력이 다른 모델에 비해 많이 장황한데, 채팅 방향으로 튜닝한 모델은 일반적으로 장황한 출력을 내는 것 같습니다.
Gold Standard 응답 길이 정확도
다음으로 검토자는 Zeno 보고서 UI를 사용하여 더 자세히 살펴보았습니다. 첫째, 그들은 인간의 반응 길이에 따라 정확도를 별도로 측정했습니다. 그들은 응답을 짧은(35자 이하), 중간(36-70자), 긴(71자 이상)의 세 가지 범주로 분류하고 정확성을 개별적으로 평가했습니다.
gpt-3.5-turbo 및 Vicuna는 더 긴 대화 라운드에서도 정확도를 유지하는 반면 다른 모델의 정확도는 감소합니다.
다음 질문은 컨텍스트 창 크기가 얼마나 중요한가요? 리뷰어들은 Vicuna를 사용하여 실험을 수행했으며 컨텍스트 창의 범위는 이전 담화 1~4개였습니다. 컨텍스트 창을 늘리면 모델 성능이 향상되어 더 큰 컨텍스트 창이 중요하다는 것을 나타냅니다.
평가 결과에 따르면 대화의 중간 및 후반 단계에서는 더 긴 맥락이 특히 중요하다는 것을 알 수 있습니다. 왜냐하면 이러한 위치의 답변에는 템플릿이 많지 않고 이전에 말한 내용에 더 많이 의존하기 때문입니다. .
표준적인 더 짧은 출력을 생성하려고 할 때 더 많은 컨텍스트가 특히 중요합니다(아마 모호성이 더 많기 때문일 것입니다).
프롬프트가 얼마나 중요합니까?
리뷰어는 5가지 다른 프롬프트를 시도했는데 그 중 4개는 보편적이고 다른 하나는 보험 분야의 고객 서비스 채팅 작업에 특별히 맞춰졌습니다.
일반적으로 이러한 프롬프트를 사용하면 검토자는 서로 다른 프롬프트로 인해 큰 차이를 발견하지 못했습니다. 하지만 "냉소적" 챗봇은 약간 나빴고, 맞춤형 "보험" 챗봇은 전체적으로 약간 나빴습니다.
다른 프롬프트로 인한 차이는 대화의 첫 번째 차례에서 특히 분명하며, 이는 끌어낼 다른 맥락이 거의 없을 때 프롬프트가 가장 중요하다는 것을 보여줍니다.
마지막으로 리뷰어는 Zeno의 탐색 UI를 사용하여 gpt-3.5-turbo를 통해 가능한 버그를 찾으려고 했습니다. 특히 그들은 chrf가 낮은(
프로브 고장
모델이 실제로 필요할 때 더 많은 정보를 조사할 수 없는 경우가 있습니다. 예를 들어 모델이 아직 번호 처리에 완벽하지 않습니다(전화번호는 11자리여야 하며, 모델에서 제공한 숫자의 길이가 답변과 일치하지 않습니다). . 이는 특정 정보의 필수 길이를 모델에 상기시키도록 프롬프트를 수정하여 완화할 수 있습니다.
콘텐츠 중복
때때로 동일한 콘텐츠가 여러 번 반복되는 경우가 있습니다. 예를 들어 여기서 챗봇이 "감사합니다"라는 말을 두 번이나 했습니다.
말이 되는 반응이지만 인간의 방식과는 다릅니다.
때때로 반응은 합리적이지만 인간과는 다릅니다.
위는 평가 결과입니다. 마지막으로, 검토자들은 이 보고서가 연구자들에게 도움이 되기를 바랍니다! 계속해서 다른 모델, 데이터 세트, 프롬프트 또는 기타 하이퍼파라미터 설정을 시도하고 싶다면 zeno-build 저장소의 챗봇 예제로 이동하여 시험해 볼 수 있습니다.
위 내용은 라마, 알파카, 비쿠냐, ChatGPT의 차이점은 무엇인가요? 7개의 대형 ChatGPT 모델 평가의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!