1.LLaMA
LLaMA 프로젝트에는 70억에서 650억 개의 매개변수 크기를 가진 기본 언어 모델 세트가 포함되어 있습니다. 이러한 모델은 수백만 개의 토큰에 대해 훈련되었으며 공개적으로 사용 가능한 데이터 세트에 대해 완전히 훈련되었습니다. 그 결과 LLaMA-13B는 GPT-3(175B)을 능가했고, LLaMA-65B는 Chinchilla-70B, PaLM-540B 등 최고 모델과 비슷한 성능을 보였다.
이미지 출처: LLaMA
출처:
- 연구 논문: "LLaMA: 개방적이고 효율적인 기초 언어 모델(arxiv.org)" [https://arxiv.org/abs/2302.13971]
- GitHub: facebookresearch/llama [https://github.com/facebookresearch/llama]
- Demo: Baize Lora 7B [https://huggingface.co/spaces/project-baize/Baize-7B]
2.Alpaca
스탠포드 대학교의 Alpaca는 ChatGPT와 경쟁할 수 있으며 누구나 $600 미만의 가격으로 복사할 수 있다고 주장합니다. Alpaca 7B는 52K 지침에 따른 데모를 통해 LLaMA 7B 모델에서 미세 조정되었습니다.
교육 내용|스탠포드 대학교 CRFM 사진
자료:
- 블로그: 스탠포드 대학교 CRFM. [https://crfm.stanford.edu/2023/03/13/alpaca.html]
- GitHub: tatsu-lab/stanford_alpaca [https://github.com/tatsu-lab/stanford_alpaca]
- 데모: Alpaca - LoRA (공식 데모는 없어졌습니다. 알파카 모델의 변형입니다) [https://huggingface.co/spaces/tloen/alpaca-lora]
3.Vicuna
Vicuna는 ShareGPT에서 수집된 공유된 사용자 대화를 기반으로 LLaMA 모델을 미세 조정합니다. Vicuna-13B 모델은 OpenAI ChatGPT 및 Google Bard 품질의 90% 이상에 도달했습니다. 또한 LLaMA 및 Stanford Alpaca 모델보다 90% 더 나은 성능을 보였습니다. 비쿠나를 훈련시키는 데 드는 비용은 약 $300입니다.
Vicuna의 이미지
출처:
- 블로그 게시물: "Vicuna: 90%* ChatGPT 품질로 GPT-4를 감동시키는 오픈 소스 챗봇" [https://vicuna.lmsys.org/]
- GitHub: lm-sys/FastChat [https://github.com/lm-sys/FastChat#fine-tuning]
- 데모: FastChat(lmsys.org) [https://chat.lmsys.org/]
4.OpenChatKit
OpenChatKit: ChatGPT의 오픈 소스 대안으로, 챗봇 생성을 위한 완벽한 툴킷입니다. 이는 사용자 자신의 지침 조정을 교육하기 위한 대규모 언어 모델, 미세 조정된 모델, 봇 응답 업데이트를 위한 확장 가능한 검색 시스템 및 질문에 대한 봇 검토 필터링을 위한 지침을 제공합니다.
Pictures from TOGETHER
GPT-NeoXT-Chat-Base-20B 모델은 질문과 답변, 추출 및 분류 작업에서 기본 모드인 GPT-NoeX보다 성능이 더 우수하다는 것을 알 수 있습니다.
리소스:
- 블로그 게시물: "OpenChatKit 발표" - TOGETHER [https://www.together.xyz/blog/openchatkit]
- GitHub: togethercomputer/OpenChatKit [https://github.com/togethercomputer/OpenChatKit ]
- 데모: OpenChatKit [https://huggingface.co/spaces/togethercomputer/OpenChatKit]
- 모델 카드: togethercomputer/GPT-NeoXT-Chat-Base-20B [https://huggingface.co/togethercomputer/GPT- NeoXT-Chat-Base-20B]
5.GPT4ALL
GPT4ALL은 커뮤니티 중심 프로젝트이며 코드, 스토리, 설명 및 여러 라운드 대화를 포함한 대규모 보조 상호 작용 코퍼스에 대해 훈련되었습니다. 팀은 오픈 소스를 활성화하기 위해 데이터 세트, 모델 가중치, 데이터 관리 프로세스 및 훈련 코드를 제공했습니다. 또한 노트북에서 실행할 수 있는 모델의 양자화된 4비트 버전도 출시했습니다. Python 클라이언트를 사용하여 모델 추론을 실행할 수도 있습니다.
GPT4ALL의 사진
출처:
- 기술 보고서: GPT4All [https://s3.amazonaws.com/static.nomic.ai/gpt4all/2023_GPT4All_Technical_Report.pdf]
- GitHub: nomic-ai/gpt4al [https://github.com/nomic-ai /gpt4all]
- 데모: GPT4All(비공식). [https://huggingface.co/spaces/rishiraj/GPT4All]
- 모델 카드: nomic-ai/gpt4all-lora · 허깅 페이스 [https://huggingface.co/nomic-ai/gpt4all-lora]
6.Raven RWKV
Raven RWKV 7B는 RWKV 언어 모델로 구동되는 오픈 소스 챗봇이며 ChatGPT와 유사한 결과를 생성합니다. 이 모델은 품질과 확장성 측면에서 변환기와 일치할 수 있는 RNN을 사용하는 동시에 더 빠르고 VRAM을 절약합니다. Raven은 Stanford Alpaca, code-alpaca 및 기타 데이터 세트에서 미세 조정되었습니다.
이미지 출처: Raven RWKV 7B
출처:
- GitHub: BlinkDL/ChatRWKV [https://github.com/BlinkDL/ChatRWKV]
- Demo: Raven RWKV 7B [https://huggingface.co /spaces/BlinkDL/Raven-RWKV-7B]
- 모델 카드: BlinkDL/rwkv-4-raven [https://huggingface.co/BlinkDL/rwkv-4-raven]
7.OPT
OPT: Open Pre-trained Transformer 언어 모델은 ChatGPT만큼 강력하지는 않지만 제로샷 및 퓨샷 학습과 고정관념 편향 분석에서 탁월한 기능을 보여줍니다. 더 나은 결과를 위해 Alpa, Colossal-AI, CTranslate2 및 FasterTransformer와 통합할 수도 있습니다. 참고: 이 목록에 오른 이유는 텍스트 생성 카테고리에서 월간 다운로드가 624,710회에 달하는 인기 때문입니다.
이미지 출처(arxiv.org)
리소스:
- 연구 논문: "OPT: Open Pre-trained Transformer Language Models(arxiv.org)" [https://arxiv.org/abs/2205.01068 ]
- GitHub: facebookresearch/metaseq [https://github.com/facebookresearch/metaseq]
- 데모: LLM용 워터마크 [https://huggingface.co/spaces/tomg-group-umd/lm-watermarking]
- 모델 카드: facebook/opt-1.3b [https://huggingface.co/facebook/opt-1.3b]
8.Flan-T5-XXL
Flan-T5-XXL The T5 모델은 명령어 형태로 표현된 데이터 세트에 대해 미세 조정됩니다. 지침을 미세 조정하면 PaLM, T5 및 U-PaLM과 같은 다양한 모델 클래스의 성능이 크게 향상되었습니다. Flan-T5-XXL 모델은 더 많은 언어를 포괄하는 1000개 이상의 추가 작업에 대해 미세 조정되었습니다.
Flan-T5-XXL
이미지 출처:
- 연구 논문: "Scaling Instruction-Fine Tuned Language Models" [https://arxiv.org/pdf/2210.11416.pdf]
- GitHub: google-research/t5x [https://github.com/google-research/t5x]
- 데모: 채팅 Llm 스트리밍 [https://huggingface.co/spaces/olivierdehaene/chat-llm-streaming]
- 모델 카드 :google/flan-t5-xxl [https://huggingface.co/google/flan-t5-xxl?text=Q%3A+%28+False+or+not+False+or+False+%29+is%3F +A%3A+Let%27s+think+step+by+step]
Summary
선택할 수 있는 오픈 소스 대형 모델이 많이 있습니다. 이 기사에는 가장 인기 있는 대형 모델 8개가 포함되어 있습니다.
위 내용은 ChatGPT와 Bard는 너무 비싸기 때문에 8가지 무료 오픈 소스 대형 모델 솔루션을 소개합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!