>  기사  >  기술 주변기기  >  소규모 전문 모델을 빠르게 훈련하세요. 명령 1개, $5, 20분이면 Prompt2Model을 사용해 보세요!

소규모 전문 모델을 빠르게 훈련하세요. 명령 1개, $5, 20분이면 Prompt2Model을 사용해 보세요!

WBOY
WBOY앞으로
2023-09-11 16:33:021149검색

대규모 언어 모델(LLM)을 사용하면 사용자는 힌트와 상황별 학습을 통해 강력한 자연어 처리 시스템을 구축할 수 있습니다. 그러나 다른 관점에서 볼 때 LLM은 일부 특정 자연어 처리 작업에서 특정 회귀를 보여줍니다. 이러한 모델을 배포하려면 많은 컴퓨팅 리소스가 필요하며 API를 통해 모델과 상호 작용하면 잠재적인 개인 정보 보호 문제가 발생할 수 있습니다. 이러한 문제를 해결하기 위해 Carnegie Mellon University(CMU)와 Tsinghua University의 연구원들은 Prompt2Model 프레임워크를 공동으로 출시했습니다. 이 프레임워크의 목표는 LLM 기반 데이터 생성 및 검색 방법을 결합하여 위의 과제를 극복하는 것입니다. Prompt2Model 프레임워크를 사용하면 사용자는 LLM과 동일한 프롬프트만 제공하면 자동으로 데이터를 수집하고 특정 작업에 적합한 소규모 특수 모델을 효율적으로 교육할 수 있습니다.

연구원들은 세 가지 자연어 처리 하위 시스템 작업에 대해 연구한 실험을 수행했습니다. 그들은 소수의 샘플 프롬프트를 입력으로 사용했으며 데이터 수집과 20분의 교육에 5달러만 소비했습니다. Prompt2Model 프레임워크를 통해 생성된 모델의 성능은 강력한 LLM 모델 gpt-3.5-turbo보다 ​​20% 더 높습니다. 동시에 모델의 크기도 700배로 줄어들었습니다. 연구원들은 실제 시나리오에서 이러한 데이터가 모델 성능에 미치는 영향을 추가로 확인하여 모델 개발자가 배포 전에 모델의 신뢰성을 추정할 수 있도록 했습니다. 프레임워크는 오픈 소스 형식으로 제공되었습니다:

소규모 전문 모델을 빠르게 훈련하세요. 명령 1개, $5, 20분이면 Prompt2Model을 사용해 보세요!


프레임워크의 GitHub 저장소 주소: https://github.com/neulab/prompt2model

  • 프레임워크 데모 비디오 링크: youtu. be/LYYQ_EhGd -Q
  • 프레임워크 관련 논문 링크: https://arxiv.org/abs/2308.12261
  • Background

특정 자연어 처리 작업을 위한 시스템을 구축하는 것은 일반적으로 매우 복잡합니다. 시스템 구축자는 작업 범위를 명확하게 정의하고, 특정 데이터 세트를 획득하고, 적절한 모델 아키텍처를 선택하고, 모델을 훈련 및 평가한 후 실제 적용을 위해 배포해야 합니다.

대규모 언어 모델( GPT-3과 같은 LLM)은 이 프로세스에 대한 더 간단한 솔루션을 제공합니다. 사용자는 작업 지침과 몇 가지 예만 제공하면 LLM이 해당 텍스트 출력을 생성할 수 있습니다. 그러나 힌트에서 텍스트를 생성하는 것은 계산 집약적일 수 있으며 힌트를 사용하는 것은 특별히 훈련된 모델보다 덜 안정적입니다. 또한 LLM의 유용성은 비용, 속도 및 개인 정보 보호로 인해 제한됩니다. 이러한 문제를 해결하기 위해 연구원들은 Prompt2Model 프레임워크를 개발했습니다. 이 프레임워크는 LLM 기반 데이터 생성 및 검색 기술을 결합하여 위의 한계를 극복합니다. 시스템은 먼저 프롬프트 정보에서 주요 정보를 추출한 다음 훈련 데이터를 생성 및 검색하고 마지막으로 배포 준비가 된 특수 모델을 생성합니다

Prompt2Model 프레임워크는 자동으로 다음 핵심 단계를 수행합니다. 1. 데이터 전처리: 입력 데이터를 정리하고 표준화하여 모델 교육에 적합한지 확인합니다. 2. 모델 선택: 작업 요구 사항에 따라 적절한 모델 아키텍처와 매개변수를 선택합니다. 3. 모델 훈련: 전처리된 데이터를 사용하여 선택한 모델을 훈련하여 모델의 성능을 최적화합니다. 4. 모델 평가: 특정 작업에 대한 성능을 결정하기 위한 평가 지표를 통해 훈련된 모델의 성능을 평가합니다. 5. 모델 튜닝: 평가 결과를 바탕으로 모델을 튜닝하여 성능을 더욱 향상시킵니다. 6. 모델 배포: 훈련된 모델을 실제 애플리케이션 환경에 배포하여 예측 또는 추론 기능을 달성합니다. Prompt2Model 프레임워크는 이러한 핵심 단계를 자동화함으로써 사용자가 고성능 자연어 처리 모델

데이터 세트 및 모델 검색: 관련 데이터 세트 및 사전 훈련된 모델을 수집합니다.

데이터세트 생성: LLM을 사용하여 의사 레이블이 지정된 데이터세트를 만듭니다.

  • 모델 미세 조정: 검색된 데이터와 생성된 데이터를 혼합하여 모델을 미세 조정합니다.
  • 모델 테스트: 테스트 데이터 세트와 사용자가 제공한 실제 데이터 세트에서 모델을 테스트합니다.
  • 다양한 작업에 대한 실증적 평가를 통해 Prompt2Model의 비용이 대폭 절감되고 모델의 크기도 대폭 줄어들었지만 성능은 gpt-3.5-turbo를 능가하는 것으로 나타났습니다. Prompt2Model 프레임워크는 자연어 처리 시스템을 효율적으로 구축하기 위한 도구로 사용할 수 있을 뿐만 아니라 모델 통합 교육 기술을 탐색하기 위한 플랫폼으로도 사용할 수 있습니다

Framework

소규모 전문 모델을 빠르게 훈련하세요. 명령 1개, $5, 20분이면 Prompt2Model을 사용해 보세요!

Prompt2Model 프레임워크의 핵심 기능은 높은 수준의 자동화입니다. 위 그림과 같이 프로세스에는 데이터 수집, 모델 교육, 평가 및 배포가 포함됩니다. 그 중 자동화된 데이터 수집 시스템은 데이터 세트 검색 및 LLM 기반 데이터 생성을 통해 사용자 요구와 밀접하게 관련된 데이터를 얻는 핵심 역할을 합니다. 다음으로 사전 훈련된 모델을 검색하고 획득한 데이터 세트에서 미세 조정합니다. 마지막으로 훈련된 모델은 테스트 세트에서 평가되고 모델과 상호 작용하기 위한 웹 사용자 인터페이스(UI)가 생성됩니다.

Prompt2Model 프레임워크의 주요 기능은 다음과 같습니다.

  • Prompt 드라이버: Prompt2Model 핵심 아이디어 프롬프트를 드라이버로 사용하면 사용자가 기계 학습의 구체적인 구현 세부 사항을 다루지 않고도 필요한 작업을 직접 설명할 수 있다는 점입니다.
  • 자동 데이터 수집: 프레임워크는 데이터 세트 검색 및 생성 기술을 사용하여 사용자의 작업과 매우 일치하는 데이터를 획득함으로써 훈련에 필요한 데이터 세트를 구축합니다.
  • 사전 훈련된 모델: 프레임워크는 사전 훈련된 모델을 활용하고 이를 미세 조정하여 많은 훈련 비용과 시간을 절약합니다.
  • 효과 평가: Prompt2Model은 실제 데이터 세트에 대한 모델 테스트 및 평가를 지원하므로 모델을 배포하기 전에 예비 예측 및 성능 평가가 가능하여 모델의 신뢰성이 향상됩니다.

Prompt2Model 프레임워크는 다음과 같은 특징을 가지고 있어 자연어 처리 시스템의 구축 프로세스를 효율적으로 완료할 수 있는 강력한 도구이며, 자동 데이터 수집, 모델 평가, 사용자 상호 작용 인터페이스 등의 고급 기능을 제공합니다.

실험 및 결과

Prompt2Model 시스템의 성능을 평가하기 위해 실험 설계에서 연구원은 세 가지 작업을 선택했습니다.

  • 기계 판독 QA: SQuAD를 실제 평가 데이터 세트로 사용.
  • 일본어 NL-to-Code: MCoNaLa를 실제 평가 데이터 세트로 사용합니다.
  • 시간적 표현 정규화: 시간적 데이터세트를 실제 평가 데이터세트로 사용합니다.

또한 연구진은 비교를 위한 기준 모델로 GPT-3.5-터보를 사용했습니다. 실험 결과는 다음과 같은 결론에 이르렀습니다.

  • 코드 생성 작업을 제외한 다양한 작업에서 Prompt2Model 시스템에 의해 생성된 모델은 생성된 모델 매개변수 규모가 GPT-3.5 터보보다 훨씬 작습니다.
  • 검색된 데이터 세트와 훈련을 위해 생성된 데이터 세트를 혼합하면 실제 데이터 세트 훈련을 직접 사용한 것과 유사한 결과를 얻을 수 있습니다. 이는 Prompt2Model 프레임워크가 수동 주석 비용을 크게 줄일 수 있음을 확인합니다.
  • 데이터 생성기로 생성된 테스트 데이터 세트는 실제 데이터 세트에서 다양한 모델의 성능을 효과적으로 구분할 수 있습니다. 이는 생성된 데이터의 품질이 높으며 모델 학습에 충분한 효과가 있음을 나타냅니다.
  • 일본어를 코드로 변환하는 작업에서 Prompt2Model 시스템은 GPT-3.5-turbo보다 ​​성능이 나쁩니다.

생성된 데이터 세트의 품질이 낮고 사전 훈련된 적절한 모델이 부족하기 때문일 수 있습니다.

요약하자면 Prompt2Model 시스템은 여러 작업에서 고품질 소형 모델을 성공적으로 생성하여 비용을 크게 줄였습니다. 데이터에 수동으로 주석을 달 필요가 있습니다. 그러나 일부 작업에서는 여전히 추가 개선이 필요합니다.

소규모 전문 모델을 빠르게 훈련하세요. 명령 1개, $5, 20분이면 Prompt2Model을 사용해 보세요!

소규모 전문 모델을 빠르게 훈련하세요. 명령 1개, $5, 20분이면 Prompt2Model을 사용해 보세요!

요약

Prompt2Model 프레임워크는 자연어 프롬프트를 통해 작업별 모델을 자동으로 구축하는 연구팀이 개발한 혁신적인 기술입니다. 이 기술의 도입으로 맞춤형 자연어 처리 모델 구축의 어려움이 크게 줄어들고 NLP 기술의 적용 범위가 더욱 확장됩니다

검증 실험 결과에 따르면 Prompt2Model 프레임워크로 생성된 모델의 크기는 더 큰 언어 모델에 비해 크게 줄어들었으며 여러 작업에서 GPT-3.5-turbo 및 기타 모델보다 더 나은 성능을 발휘하는 것으로 나타났습니다. 동시에, 이 프레임워크에서 생성된 평가 데이터 세트는 실제 데이터 세트에 대한 다양한 모델의 성능을 평가하는 데 효과적인 것으로 입증되었습니다. 이는 모델의 최종 배포를 안내하는 데 중요한 가치를 제공합니다

Prompt2Model 프레임워크는 업계와 광범위한 사용자에게 특정 요구 사항을 충족하는 NLP 모델을 얻을 수 있는 저렴하고 사용하기 쉬운 방법을 제공합니다. 이는 NLP 기술의 광범위한 적용을 촉진하는 데 큰 의미가 있습니다. 향후 작업은 프레임워크의 성능을 더욱 최적화하는 데 계속 전념할 것입니다.

기사 순서대로 이 기사의 작성자는 다음과 같습니다. 재작성된 내용: 기사 순서에 따라 이 기사의 저자는 다음과 같습니다:

Vijay Viswanathan: http://www.cs.cmu.edu/~vijayv/

Zhao Chenyang: https //zhaochenyang20.github.io/Eren_Chenyang_Zhao/

Amanda Bertsch: https://www.cs.cmu.edu/~abertsch/ 아만다 벨치: https://www.cs.cmu.edu/~abertsch/

Wu Tongshuang: https://www.cs.cmu.edu/~sherryw/

Graham · Newbig: http: //www.phontron.com/

위 내용은 소규모 전문 모델을 빠르게 훈련하세요. 명령 1개, $5, 20분이면 Prompt2Model을 사용해 보세요!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제