>  기사  >  기술 주변기기  >  생성 AI 모델 빅 PK——GPT-4, Claude 2.1 및 Claude 3.0 Opus

생성 AI 모델 빅 PK——GPT-4, Claude 2.1 및 Claude 3.0 Opus

王林
王林원래의
2024-06-07 18:32:371046검색

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

AIGC에 대해 더 알고 싶다면 다음을 방문하세요.

51CTO AI에 대한 새로운 평가가 매일 게시되는 것으로 보이며 그 중 다수가 프레임워크의 검색 단계에 중점을 둡니다. 문제의. 그러나 생성적 측면(모델이 검색된 정보를 어떻게 합성하고 표현하는지)도 실제로 똑같이 중요할 수 있습니다. 많은 실제 적용 사례에서는 시스템이 컨텍스트에서 데이터를 반환해야 할 뿐만 아니라 이 정보를 보다 복잡한 응답으로 변환해야 함을 입증합니다.

이를 위해 GPT-4, Claude 2.1 및 Claude 3 Opus 세 가지 모델의 세대 성능을 평가하고 비교하기 위해 여러 가지 실험을 수행했습니다. 이 기사에서는 우리가 그 과정에서 접한 이러한 모델의 연구 방법, 결과 및 뉘앙스를 자세히 설명하고 이것이 생성 AI를 구축하는 데 중요한 이유를 설명합니다.

관심 있는 독자가 위 실험의 결과를 재현하고 싶다면 실험에 필요한 모든 것을 GitHub 저장소(https://github.com/Arize-ai/LLMTest_NeedleInAHaystack)에서 찾을 수 있습니다.

추가 참고 사항

초기 조사 결과 Claude가 GPT-4보다 우수한 것으로 나타났지만, 후속 테스트에서는 전략적 프롬프트 엔지니어링 기술의 출현으로 GPT-4가 더 광범위한 평가 성능을 능가하는 것으로 나타났습니다. 즉, RAG 시스템의 고유한 모델 동작과 신속한 엔지니어링에는 여전히 많은 문제가 있습니다.

프롬프트 템플릿에 "자신을 설명하고 질문에 답해주세요"를 추가하면 GPT-4의 성능이 두 배 이상 크게 향상됩니다. LLM이 답변을 말하면 아이디어를 더욱 발전시키는 데 도움이 되는 것임이 분명합니다. 해석을 통해 모델은 임베딩/어텐션 공간에서 정답을 다시 실행하는 것이 가능합니다.

    RAG 단계 및 생성의 중요성
그림 1: 작성자가 만든 다이어그램

검색 증강 생성 시스템에서 검색 부분은 가장 관련성이 높은 정보를 식별하고 검색하는 역할을 담당하지만 이는 세대입니다. 이러한 원시 데이터를 획득하여 일관되고 의미 있고 상황에 맞는 응답으로 변환하는 단계입니다. 생성 단계의 임무는 검색된 정보를 종합하고, 공백을 메우고, 이해하기 쉽고 사용자 쿼리와 관련된 방식으로 제시하는 것입니다. 생성 단계의 임무는 검색된 정보를 종합하고, 공백을 메우고, 이해하기 쉽고 사용자 쿼리와 관련된 방식으로 제시하는 것입니다. 생성 단계에서는 관련 정보를 완전하고 이해하기 쉽게 해석하기 위해 빈 정보가 채워집니다. 동시에 사용자는 필요에 따라 관련 방식으로 제시된 정보를 쿼리할 수 있습니다. 생성단계에서의 처리를 통해 빈칸 정보를 채워줌으로써 최종 생성된 결과가 더욱 완전해지고 이해하기 쉬워집니다. 이를 통해 관련 정보를 이해하고 쿼리할 수 있어 사용자가 더 깊이 탐색하고 조사할 수 있습니다.

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus많은 실제 응용 프로그램에서 RAG 시스템의 가치는 특정 사실이나 정보를 찾는 능력뿐만 아니라 더 넓은 프레임워크 내에서 정보를 통합하고 맥락화하는 능력에도 있습니다. 생성 단계를 통해 RAG 시스템은 단순한 사실 검색을 넘어 진정한 지능적이고 적응 가능한 응답을 제공할 수 있습니다.

테스트 #1: 날짜 매핑

우리가 실행한 초기 테스트는 무작위로 검색된 두 개의 숫자(하나는 월을 나타내고 다른 하나는 일을 나타냄)에서 날짜 문자열을 생성하는 것으로 구성되었습니다. 모델의 임무는 다음과 같습니다.

난수 #1 검색

마지막 숫자를 분리하고 1씩 증가시킵니다.

결과를 기반으로 날짜 문자열에 대한 월을 생성합니다.
  • 난수 #2 검색
  • 생성 난수 2의 날짜 문자열의 날짜
  • 예를 들어 난수 4827143과 17은 4월 17일을 나타냅니다.
  • 그림은 다양한 깊이와 다양한 길이의 맥락에 배치되어 있습니다. 이 모델은 처음에 이 작업을 수행하는 데 다소 어려움을 겪었습니다.

그림 2: 초기 테스트 결과

두 모델 모두 성능이 좋지 않았지만 Claude 2.1은 초기 테스트에서 GPT-4보다 훨씬 뛰어난 성능을 보여 성공률이 거의 4배에 달했습니다. 상세하고 설명적인 답변을 제공하는 Claude 모델의 장황한 특성이 GPT-4의 원래 간결한 답변에 비해 더 정확한 결과를 가져오는 확실한 이점을 제공하는 것으로 보입니다.

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus이러한 예상치 못한 실험 결과에 힘입어 우리는 실험에 새로운 변수를 도입했습니다. 우리는 GPT-4에게 "자신을 설명하고 질문에 답하라"고 지시했는데, 이는 Claude 모델에서 자연스럽게 출력된 것과 유사한 보다 자세한 응답을 장려하는 프롬프트였습니다. 따라서 이 작은 조정의 영향은 광범위합니다.

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

그림 3: 타겟 프롬프트 결과의 초기 테스트

GPT-4 모델의 성능이 크게 향상되어 후속 테스트에서 완벽한 결과를 얻었습니다. Claude 모델의 결과도 향상되었습니다.

이 실험은 언어 모델이 생성 작업을 처리하는 방식의 차이점을 강조할 뿐만 아니라 힌트 엔지니어링이 성능에 미치는 잠재적인 영향도 보여줍니다. Claude의 강점은 장황한 것으로 보이며 이는 GPT-4에 대한 복제 가능한 전략으로 밝혀졌으며 모델이 추론을 처리하고 제시하는 방식이 생성 작업의 정확성에 큰 영향을 미칠 수 있음을 시사합니다. 전반적으로, 겉보기에 작아 보이는 "설명하십시오" 문장을 포함하여 우리의 모든 실험에서 모델의 성능을 향상시키는 역할을 했습니다.

추가 테스트 및 결과

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

그림 4: 세대를 평가하기 위한 4가지 추가 테스트

검색된 정보를 다양한 형식으로 합성하고 변환하기 위한 주류 모델을 평가하기 위해 4가지 추가 테스트를 수행했습니다. 능력:

  • 문자열 연결 : 텍스트 조각을 일관된 문자열로 결합하여 모델의 기본 텍스트 조작 기술을 테스트합니다.
  • 통화 형식: 숫자를 통화 형식으로 지정하고, 반올림하고, 백분율 변화를 계산하여 모델의 정확성과 숫자 데이터 처리 능력을 평가합니다.
  • 날짜 매핑: 숫자 표현을 월 이름과 날짜로 변환하려면 하이브리드 검색과 컨텍스트 이해가 필요합니다.
  • 모듈식 연산: 복소수 연산을 수행하여 모델의 수학적 생성 기능을 테스트합니다.

예상대로 각 모델은 문자열 연결에서 강력한 성능을 보였으며, 이는 또한 텍스트 조작이 언어 모델의 근본적인 강점이라는 이전 이해를 반복합니다.

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

그림 5: 통화 형식 테스트 결과

통화 형식 테스트에서는 Claude 3와 GPT-4가 거의 완벽하게 수행되었습니다. Claude 2.1의 성능은 일반적으로 좋지 않습니다. 정확도는 마크 길이에 따라 크게 달라지지 않지만 일반적으로 포인터가 컨텍스트 창의 시작 부분에 가까울수록 정확도는 낮아집니다.

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

그림 6: Haystack 웹사이트의 공식 테스트 결과

한 세대의 테스트에서 우수한 결과를 얻었음에도 불구하고 Claude 3의 정확도는 검색 전용 실험에서 떨어졌습니다. 이론적으로는 단순히 숫자를 검색하는 것이 숫자를 조작하는 것보다 더 쉬울 것입니다. 이는 성능 저하를 놀랍게 만들고 이 영역을 추가로 테스트할 계획입니다. 오히려 이러한 반직관적인 하락은 RAG로 개발할 때 검색과 생성을 모두 테스트해야 한다는 생각을 더욱 확증해 줍니다.

결론

다양한 생성 작업을 테스트한 결과 Claude와 GPT-4 두 모델 모두 문자열 조작과 같은 사소한 작업에 능숙하지만 보다 복잡한 시나리오에서는 장단점이 분명해졌습니다(https:/ /arize.com/blog-course/research-techniques-for-better-retrieved- Generation-rag/). LLM은 여전히 ​​수학에 능숙하지 않습니다! 또 다른 주요 결과는 "자체 설명" 힌트의 도입으로 GPT-4의 성능이 크게 향상되어 모델 힌트를 제공하는 방법과 모델의 추론을 명확하게 하는 방법의 중요성이 강조된다는 점입니다. 결과.

이러한 결과는 LLM 평가에 더 넓은 의미를 갖습니다. 상세한 Claude와 처음에는 덜 상세한 GPT-4와 같은 모델을 비교할 때 RAG 평가(https://arize.com/blog-course/rag-evaluation/) 기준은 이전의 강조점을 넘어서야 한다는 것이 분명해졌습니다. 올바른 섹스를 하는 것입니다. 모델 응답의 장황함은 인식된 성능에 큰 영향을 미칠 수 있는 변수를 도입합니다. 이러한 미묘한 차이는 모델의 기능을 더 잘 이해하고 보다 공정한 비교를 보장하기 위해 향후 모델 평가에서 평균 응답 길이를 주목할만한 요소로 고려해야 함을 시사할 수 있습니다.

번역가 소개

Zhu Xianzhong, 51CTO 커뮤니티 편집자, 51CTO 전문 블로거, 강사, 웨이팡 대학의 컴퓨터 교사이자 프리랜스 프로그래밍 업계의 베테랑입니다.

원제: 검색 증강 세대에서 세대 부분을 올바르게 얻는 팁, 저자: Aparna Dhinakaran

링크:

nce.com/tips-for-getting-the- Generation-part-right-in-retrieval-augmented -세대-7deaa26f28dc.

AIGC에 대해 자세히 알아보려면 다음을 방문하세요.

51CTO AI.x 커뮤니티

https://www.51cto.com/aigc/

위 내용은 생성 AI 모델 빅 PK——GPT-4, Claude 2.1 및 Claude 3.0 Opus의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.