>  기사  >  기술 주변기기  >  GPT-3.5를 선택하거나 Llama 2와 같은 오픈 소스 모델을 미세 조정하시겠습니까? 종합적으로 비교해보면 답은 이렇습니다.

GPT-3.5를 선택하거나 Llama 2와 같은 오픈 소스 모델을 미세 조정하시겠습니까? 종합적으로 비교해보면 답은 이렇습니다.

WBOY
WBOY앞으로
2023-10-16 14:17:06838검색

GPT-3.5를 미세 조정하는 데는 비용이 매우 많이 드는 것으로 알려져 있습니다. 이 문서에서는 실험을 통해 수동으로 미세 조정된 모델이 적은 비용으로 GPT-3.5의 성능에 접근할 수 있는지 여부를 확인합니다. 흥미롭게도 이 기사는 바로 그 일을 하고 있습니다. SQL 작업과 기능적 표현 작업에 대한

결과를 비교한 이 기사에서는 다음과 같은 사실을 발견했습니다.

  • GPT-3.5가 두 데이터 세트(Spider 데이터 세트의 하위 세트 및 Viggo 기능 표현 데이터 세트)에서 더 좋습니다. ) Lora가 미세 조정한 Code Llama 34B 이후보다 약간 더 나은 성능을 보였습니다.
  • GPT-3.5는 훈련 비용과 배포 비용이 4~6배 더 비쌉니다.

이 실험의 결론 중 하나는 초기 검증 작업에는 GPT-3.5 미세 조정이 적합하지만 그 이후에는 Llama 2와 같은 모델이 최선의 선택이 될 수 있다는 것입니다. 미세 조정이 특정 작업/데이터 세트를 해결하는 올바른 방법인지 확인하고 싶거나 완전히 관리되는 환경을 원한다면 GPT-3.5를 미세 조정하세요.

  • 비용을 절약하고, 데이터 세트에서 최대 성능을 얻고 싶고, 인프라 교육 및 배포에 더 많은 유연성을 갖고 싶거나 일부 개인 데이터를 유지하고 싶다면 오픈 소스 모델인 Llama 2와 같은 것을 미세 조정하세요.
  • 다음으로 이 문서가 어떻게 구현되는지 살펴보겠습니다.

아래 그림은 SQL 작업과 함수형 표현 작업을 융합하도록 훈련된 Code Llama 34B와 GPT-3.5의 성능을 보여줍니다. 결과는 GPT-3.5가 두 작업 모두에서 더 나은 정확도를 달성한다는 것을 보여줍니다.

하드웨어 사용량 측면에서 실험에서는 시간당 약 $0.475의 A40 GPU를 사용했습니다. 选择GPT-3.5、还是微调Llama 2等开源模型?综合比较后答案有了

选择GPT-3.5、还是微调Llama 2等开源模型?综合比较后答案有了또한 실험에서는 미세 조정에 매우 적합한 두 개의 데이터 세트인 Spider 데이터 세트의 하위 세트와 Viggo 기능 표현 데이터 세트를 선택했습니다.

GPT-3.5 모델과의 공정한 비교를 위해 실험에서는 Llama에 대해 최소한의 하이퍼 매개변수 미세 조정을 수행했습니다.

이 기사의 실험에서 두 가지 주요 선택은 전체 매개변수 미세 조정 대신 Code Llama 34B 및 Lora 미세 조정을 사용하는 것입니다.

실험은 주로 Lora 하이퍼 매개변수 미세 조정에 대한 규칙을 따랐으며 Lora 어댑터 구성은 다음과 같습니다.

选择GPT-3.5、还是微调Llama 2等开源模型?综合比较后答案有了SQL 프롬프트 예는 다음과 같습니다.

选择GPT-3.5、还是微调Llama 2等开源模型?综合比较后答案有了 SQL 프롬프트 부분 표시, 전체 팁은 원본 블로그를 확인하세요

실험에서는 전체 Spider 데이터 세트를 사용하지 않았습니다. 구체적인 형식은 다음과 같습니다

department : Department_ID [ INT ] primary_key Name [ TEXT ] Creation [ TEXT ] Ranking [ INT ] Budget_in_Billions [ INT ] Num_Employees [ INT ] head : head_ID [ INT ] primary_key name [ TEXT ] born_state [ TEXT ] age [ INT ] management : department_ID [ INT ] primary_key management.department_ID = department.Department_ID head_ID [ INT ] management.head_ID = head.head_ID temporary_acting [ TEXT ]

실험에서는 SQL- create-context 데이터 세트 및 Spider 데이터 세트. 모델에 제공되는 컨텍스트는 다음과 같은 SQL 생성 명령입니다.

CREATE TABLE table_name_12 (class VARCHAR, frequency_mhz VARCHAR, city_of_license VARCHAR)

SQL 작업에 대한 코드 및 데이터: https://github.com/samlhuillier/spider-sql-finetune

기능적 표현 팁 예는 다음과 같습니다.

选择GPT-3.5、还是微调Llama 2等开源模型?综合比较后答案有了기능적 표현 팁은 부분적으로 표시됩니다. 전체 팁을 보려면 원본 블로그를 확인하세요.

출력은 다음과 같습니다.

verify_attribute(name[Little Big Adventure], rating[average], has_multiplayer[no], platforms[PlayStation])

평가 단계에서 , 두 실험은 빠르게 완료되었습니다. Converged:

기능적 표현 작업 코드 및 데이터 주소: https://github.com/samlhuillier/viggo-finetune选择GPT-3.5、还是微调Llama 2等开源模型?综合比较后答案有了

자세한 내용은 원본 블로그를 확인하세요. .

위 내용은 GPT-3.5를 선택하거나 Llama 2와 같은 오픈 소스 모델을 미세 조정하시겠습니까? 종합적으로 비교해보면 답은 이렇습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제