>  기사  >  기술 주변기기  >  Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.

Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.

王林
王林앞으로
2023-04-30 10:55:061262검색

ChatGPT의 출시는 전체 AI 분야를 뒤흔들었고 주요 기술 회사, 스타트업 및 대학 팀이 이를 따르고 있습니다. 최근 하트 오브 더 머신(Heart of the Machine)에는 수많은 스타트업 기업과 대학팀의 연구 결과가 보도됐다.

어제 또 다른 대규모 국내 AI 대화 모델이 출시되었습니다. Tsinghua의 기술 성과를 변형하고 GLM-130B 1000억 기본 모델을 기반으로 한 회사의 스마트 스펙트럼 AI인 ChatGLM이 이제 초대 전용 대화 모델을 시작했습니다. 내부 베타.

Zhipu AI가 단일 소비자급 그래픽 카드에서 추론을 지원하는 중국어-영어 이중 언어 대화 모델 ChatGLM-6B도 오픈 소스로 제공했다는 점은 언급할 가치가 있습니다.

Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.

내부 베타 애플리케이션 웹사이트: chatglm.cn

ChatGLM 현재 버전의 성능 향상은 주로 고유한 1000억 베이스 모델인 GLM-130B에서 비롯된 것으로 이해됩니다. . BERT, GPT-3, T5와는 다른 아키텍처로 다중 목적 함수를 포함하는 자동 회귀 사전 학습 모델입니다.

2022년 8월, Tsinghua University와 Zhipu AI는 1,300억 개의 매개변수를 갖춘 중국어-영어 이중 언어 밀도 모델 GLM-130B를 연구 커뮤니티 및 업계에 공개했습니다. 중국어 및 영어 모두

  • 높은 정확도(영어): 공개 영어 자연어 목록 LAMBADA, MMLU 및 Big-bench-lite(API: davinci, 기본 모델)에서 GPT-3 175B보다 우수함 및 OPT-175B BLOOM-176B;
  • 높은 정확도(중국어): 7개의 제로 샘플 CLUE 데이터 세트 및 5개의 제로 샘플 FewCLUE 데이터 세트에서 ERNIE TITAN 3.0 260B 및 YUAN 1.0-245B보다 훨씬 우수합니다.
  • 빠른 추론: INT4 정량화를 구현하는 최초의 1000억 모델로 4카드 3090 또는 8카드 2080Ti 서버로 빠르고 기본적으로 무손실 추론을 지원합니다.
  • 재현성: 모든 결과(각 작업당 30개 이상)를 공개를 통해 재현할 수 있습니다. 소스 코드 및 모델 매개변수
  • 크로스 플랫폼: 국내 Haiguang DCU, Huawei Ascend 910 및 Sunway 프로세서, 미국 NVIDIA 칩에 대한 교육 및 추론을 지원합니다.
  • 이제 ChatGPT의 디자인 아이디어를 참조하여 ChatGLM은 Supervised Fine-Tuning과 같은 기술을 통해 인간 의도 정렬을 달성하기 위해 코드 사전 훈련을 GLM-130B 기본 모델에 주입했습니다.

Heart of the Machine이 비공개 베타 초대 코드를 획득했습니다. ChatGLM과의 간단한 대화 내용은 다음과 같습니다.

"Station"의 실제 의미를 이해할 수 있습니다. CP": Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.

Give ChatGLM 수학 문제를 풀어보세요:

두 변수의 선형 방정식을 배웠기 때문에 이와 같은 기본적인 "같은 우리 안의 닭과 토끼" 문제는 더 이상 문제가 되지 않습니다. : Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.

오픈 소스 ChatGLM-6B

ChatGLM-6B는 중국어와 영어 이중 언어 질문과 답변을 지원하고 중국어에 최적화된 오픈 소스 대화 언어 모델입니다. 이 모델은 GLM(General Language Model) 아키텍처를 기반으로 하며 62억 개의 매개변수를 가지고 있습니다. 모델 양자화 기술과 결합하여 사용자는 이를 소비자급 그래픽 카드에 로컬로 배포할 수 있습니다(INT4 양자화 수준에서는 최소 6GB의 비디오 메모리가 필요함). ChatGLM-6B는 ChatGLM과 동일한 기술을 사용하며 중국어 Q&A 및 대화에 최적화되어 있습니다. 감독된 미세 조정, 피드백 셀프 서비스, 인간 피드백 강화 학습 및 기타 기술로 보완된 약 1T 식별자를 사용하여 중국어와 영어로 이중 언어 훈련을 마친 후 62억 개의 매개 변수 ChatGLM-6B(1000억 모델만큼 크지는 않지만) 추론 비용을 크게 줄이고 효율성을 향상시켰으며 이미 인간의 선호도와 상당히 일치하는 답변을 생성할 수 있습니다.

모델 오픈 소스 주소: https://github.com/THUDM/ChatGLM-6B

특히 ChatGLM-6B에는 다음과 같은 기능이 있습니다.

  • 중국어 전체 이중 언어 사전 교육 및 영어 : ChatGLM-6B는 중국어와 영어 자료에 대해 1:1 비율로 1T 토큰을 교육했으며 이중 언어 기능을 갖추고 있습니다.
  • 최적화된 모델 아키텍처 및 크기: GLM-130B 교육 경험을 바탕으로 기존 FFN 구조를 사용하여 2D RoPE 위치 인코딩 구현이 수정되었습니다. 6B(62억)의 매개변수 크기를 통해 연구원과 개인 개발자가 ChatGLM-6B를 직접 미세 조정하고 배포할 수도 있습니다.
  • 낮은 배포 임계값: FP16 절반 정밀도에서 ChatGLM-6B는 추론을 위해 최소 13GB의 비디오 메모리가 필요하며 모델 양자화 기술과 결합하여 이 요구 사항을 10GB(INT8) 및 6GB(INT4)로 더 줄일 수 있습니다. ChatGLM-6B를 소비자급 그래픽 카드에 배포할 수 있습니다.
  • 더 긴 시퀀스 길이: GLM-10B(시퀀스 길이 1024)에 비해 ChatGLM-6B의 시퀀스 길이는 2048로 더 긴 대화와 애플리케이션을 지원합니다.
  • 인간 의도 정렬 훈련: 지도형 미세 조정, 피드백 부트스트랩, 인간 피드백을 통한 강화 학습 및 기타 방법을 사용하여 모델이 처음에 인간 지시 능력의 의도를 이해할 수 있습니다. 출력 형식은 쉽게 표시할 수 있도록 마크다운입니다.

ChatGLM-6B 모델의 용량이 작기 때문에 필연적으로 다음과 같은 몇 가지 제한 사항과 단점이 있습니다.

  • 모델 메모리 및 언어 기능이 상대적으로 약합니다. ChatGLM-6B는 많은 사실적 지식 작업에 직면할 때 잘못된 정보를 생성할 수 있으며 논리적 문제(수학, 프로그래밍 등)를 해결하는 데는 그리 좋지 않습니다.
  • 유해한 설명이나 편향된 콘텐츠를 생성할 수 있음: ChatGLM-6B는 인간의 의도에 부합하는 예비 언어 모델일 뿐이며 유해하고 편향된 콘텐츠를 생성할 수 있습니다.
  • 약한 다단계 대화 능력: ChatGLM-6B의 문맥 이해 능력이 충분하지 않습니다. 긴 답변 생성 및 다단계 대화 시나리오에 직면하면 문맥 손실 및 이해 오류가 발생할 수 있습니다.

GLM 팀은 ChatGLM이 여전히 최고의 국제 대형 모델 연구 및 제품에 비해 훨씬 뒤떨어져 있다고 밝혔습니다. 앞으로도 ChatGLM 및 관련 모델의 업데이트 버전을 계속 개발하고 오픈 소스할 것입니다. GLM 팀은 또한 ChatGLM-6B를 다운로드하고 이를 기반으로 연구 및 (비상업적) 애플리케이션 개발을 수행하는 모든 사람을 환영합니다.

위 내용은 Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제