Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.

王林

Apr 30, 2023 am 10:55 AM

모델

ChatGPT의 출시는 전체 AI 분야를 뒤흔들었고 주요 기술 회사, 스타트업 및 대학 팀이 이를 따르고 있습니다. 최근 하트 오브 더 머신(Heart of the Machine)에는 수많은 스타트업 기업과 대학팀의 연구 결과가 보도됐다.

어제 또 다른 대규모 국내 AI 대화 모델이 출시되었습니다. Tsinghua의 기술 성과를 변형하고 GLM-130B 1000억 기본 모델을 기반으로 한 회사의 스마트 스펙트럼 AI인 ChatGLM이 이제 초대 전용 대화 모델을 시작했습니다. 내부 베타.

Zhipu AI가 단일 소비자급 그래픽 카드에서 추론을 지원하는 중국어-영어 이중 언어 대화 모델 ChatGLM-6B도 오픈 소스로 제공했다는 점은 언급할 가치가 있습니다.

Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.

내부 베타 애플리케이션 웹사이트: chatglm.cn

ChatGLM 현재 버전의 성능 향상은 주로 고유한 1000억 베이스 모델인 GLM-130B에서 비롯된 것으로 이해됩니다. . BERT, GPT-3, T5와는 다른 아키텍처로 다중 목적 함수를 포함하는 자동 회귀 사전 학습 모델입니다.

2022년 8월, Tsinghua University와 Zhipu AI는 1,300억 개의 매개변수를 갖춘 중국어-영어 이중 언어 밀도 모델 GLM-130B를 연구 커뮤니티 및 업계에 공개했습니다. 중국어 및 영어 모두

높은 정확도(영어): 공개 영어 자연어 목록 LAMBADA, MMLU 및 Big-bench-lite(API: davinci, 기본 모델)에서 GPT-3 175B보다 우수함 및 OPT-175B BLOOM-176B;
높은 정확도(중국어): 7개의 제로 샘플 CLUE 데이터 세트 및 5개의 제로 샘플 FewCLUE 데이터 세트에서 ERNIE TITAN 3.0 260B 및 YUAN 1.0-245B보다 훨씬 우수합니다.
빠른 추론: INT4 정량화를 구현하는 최초의 1000억 모델로 4카드 3090 또는 8카드 2080Ti 서버로 빠르고 기본적으로 무손실 추론을 지원합니다.
재현성: 모든 결과(각 작업당 30개 이상)를 공개를 통해 재현할 수 있습니다. 소스 코드 및 모델 매개변수
크로스 플랫폼: 국내 Haiguang DCU, Huawei Ascend 910 및 Sunway 프로세서, 미국 NVIDIA 칩에 대한 교육 및 추론을 지원합니다.
이제 ChatGPT의 디자인 아이디어를 참조하여 ChatGLM은 Supervised Fine-Tuning과 같은 기술을 통해 인간 의도 정렬을 달성하기 위해 코드 사전 훈련을 GLM-130B 기본 모델에 주입했습니다.

Heart of the Machine이 비공개 베타 초대 코드를 획득했습니다. ChatGLM과의 간단한 대화 내용은 다음과 같습니다.

"Station"의 실제 의미를 이해할 수 있습니다. CP": Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.

Give ChatGLM 수학 문제를 풀어보세요:

두 변수의 선형 방정식을 배웠기 때문에 이와 같은 기본적인 "같은 우리 안의 닭과 토끼" 문제는 더 이상 문제가 되지 않습니다. : Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.

오픈 소스 ChatGLM-6B

ChatGLM-6B는 중국어와 영어 이중 언어 질문과 답변을 지원하고 중국어에 최적화된 오픈 소스 대화 언어 모델입니다. 이 모델은 GLM(General Language Model) 아키텍처를 기반으로 하며 62억 개의 매개변수를 가지고 있습니다. 모델 양자화 기술과 결합하여 사용자는 이를 소비자급 그래픽 카드에 로컬로 배포할 수 있습니다(INT4 양자화 수준에서는 최소 6GB의 비디오 메모리가 필요함). ChatGLM-6B는 ChatGLM과 동일한 기술을 사용하며 중국어 Q&A 및 대화에 최적화되어 있습니다. 감독된 미세 조정, 피드백 셀프 서비스, 인간 피드백 강화 학습 및 기타 기술로 보완된 약 1T 식별자를 사용하여 중국어와 영어로 이중 언어 훈련을 마친 후 62억 개의 매개 변수 ChatGLM-6B(1000억 모델만큼 크지는 않지만) 추론 비용을 크게 줄이고 효율성을 향상시켰으며 이미 인간의 선호도와 상당히 일치하는 답변을 생성할 수 있습니다.

모델 오픈 소스 주소: https://github.com/THUDM/ChatGLM-6B

특히 ChatGLM-6B에는 다음과 같은 기능이 있습니다.

중국어 전체 이중 언어 사전 교육 및 영어 : ChatGLM-6B는 중국어와 영어 자료에 대해 1:1 비율로 1T 토큰을 교육했으며 이중 언어 기능을 갖추고 있습니다.
최적화된 모델 아키텍처 및 크기: GLM-130B 교육 경험을 바탕으로 기존 FFN 구조를 사용하여 2D RoPE 위치 인코딩 구현이 수정되었습니다. 6B(62억)의 매개변수 크기를 통해 연구원과 개인 개발자가 ChatGLM-6B를 직접 미세 조정하고 배포할 수도 있습니다.
낮은 배포 임계값: FP16 절반 정밀도에서 ChatGLM-6B는 추론을 위해 최소 13GB의 비디오 메모리가 필요하며 모델 양자화 기술과 결합하여 이 요구 사항을 10GB(INT8) 및 6GB(INT4)로 더 줄일 수 있습니다. ChatGLM-6B를 소비자급 그래픽 카드에 배포할 수 있습니다.
더 긴 시퀀스 길이: GLM-10B(시퀀스 길이 1024)에 비해 ChatGLM-6B의 시퀀스 길이는 2048로 더 긴 대화와 애플리케이션을 지원합니다.
인간 의도 정렬 훈련: 지도형 미세 조정, 피드백 부트스트랩, 인간 피드백을 통한 강화 학습 및 기타 방법을 사용하여 모델이 처음에 인간 지시 능력의 의도를 이해할 수 있습니다. 출력 형식은 쉽게 표시할 수 있도록 마크다운입니다.

ChatGLM-6B 모델의 용량이 작기 때문에 필연적으로 다음과 같은 몇 가지 제한 사항과 단점이 있습니다.

모델 메모리 및 언어 기능이 상대적으로 약합니다. ChatGLM-6B는 많은 사실적 지식 작업에 직면할 때 잘못된 정보를 생성할 수 있으며 논리적 문제(수학, 프로그래밍 등)를 해결하는 데는 그리 좋지 않습니다.
유해한 설명이나 편향된 콘텐츠를 생성할 수 있음: ChatGLM-6B는 인간의 의도에 부합하는 예비 언어 모델일 뿐이며 유해하고 편향된 콘텐츠를 생성할 수 있습니다.
약한 다단계 대화 능력: ChatGLM-6B의 문맥 이해 능력이 충분하지 않습니다. 긴 답변 생성 및 다단계 대화 시나리오에 직면하면 문맥 손실 및 이해 오류가 발생할 수 있습니다.

GLM 팀은 ChatGLM이 여전히 최고의 국제 대형 모델 연구 및 제품에 비해 훨씬 뒤떨어져 있다고 밝혔습니다. 앞으로도 ChatGLM 및 관련 모델의 업데이트 버전을 계속 개발하고 오픈 소스할 것입니다. GLM 팀은 또한 ChatGLM-6B를 다운로드하고 이를 기반으로 연구 및 (비상업적) 애플리케이션 개발을 수행하는 모든 사람을 환영합니다.

위 내용은 Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

메타의 새로운 AI 어시스턴트 : 생산성 부스터 또는 시간 싱크?May 01, 2025 am 11:18 AM

Meta는 NVIDIA, IBM 및 DELL과 같은 파트너와 함께 LLAMA 스택의 엔터프라이즈 수준 배포 통합을 확장했습니다. 보안 측면에서 Meta는 Llama Guard 4, Llamafirewall 및 Cyberseceval 4와 같은 새로운 도구를 출시했으며 AI 보안을 향상시키기 위해 LLAMA Defenders 프로그램을 시작했습니다. 또한 Meta는 공공 서비스, 건강 관리 및 교육을 개선하기 위해 노력하는 신생 기업을 포함하여 10 개의 글로벌 기관에 LLAMA Impact Grants의 150 만 달러를 배포했습니다. Llama 4에 의해 구동되는 새로운 Meta AI 응용 프로그램, Meta AI로 생각됩니다.

Gen Zers의 80%가 AI : 연구와 결혼 할 것입니다May 01, 2025 am 11:17 AM

인간 -AI 상호 작용을 개척하는 회사 인 Joi AI는 이러한 진화하는 관계를 설명하기 위해 "AI-Lationships"라는 용어를 도입했습니다. Joi AI의 관계 치료사 인 Jaime Bronstein은 이것이 인간 C를 대체하는 것이 아니라는 것을 분명히합니다.

AI는 인터넷의 봇 문제를 악화시키고 있습니다. 이 20 억 달러 규모의 스타트 업은 최전선에 있습니다May 01, 2025 am 11:16 AM

온라인 사기와 봇 공격은 비즈니스에 큰 도전을 제기합니다. 소매 업체는 봇과 싸우고, 은행은 전투 계정 인수 및 소셜 미디어 플랫폼이 사천자와 어려움을 겪고 있습니다. AI의 부상은이 문제를 악화시킨다

로봇에 판매 : 비즈니스를 만들거나 파괴 할 마케팅 혁명May 01, 2025 am 11:15 AM

AI 에이전트는 마케팅에 혁명을 일으킬 준비가되어 있으며 이전 기술 변화의 영향을 능가 할 수 있습니다. 생성 AI의 상당한 발전을 나타내는이 에이전트는 Chatgpt와 같은 정보뿐만 아니라 Actio도 취합니다.

컴퓨터 비전 기술이 NBA 플레이 오프를 혁신하는 방법May 01, 2025 am 11:14 AM

중요한 NBA 게임 4 결정에 대한 AI의 영향 두 가지 중추적 인 게임 4 NBA 매치업은 AI의 게임 변화 역할을 선보였습니다. 첫 번째로 덴버의 Nikola Jokic의 놓친 3 점은 Aaron Gordon의 마지막으로 골목길을 이끌었습니다. 소니의 매

AI가 재생 의학의 미래를 가속화하는 방법May 01, 2025 am 11:13 AM

전통적으로 전 세계적으로 재생 의학 전문 지식을 확장하여 광범위한 여행, 실습 교육 및 수년간의 멘토링을 요구했습니다. 이제 AI는이 환경을 변화시키고 지리적 한계를 극복하고 EN을 통한 진행 상황을 가속화하고 있습니다.

Intel Foundry Direct Connect 2025의 주요 테이크 아웃May 01, 2025 am 11:12 AM

인텔은 제조 공정을 선도적 인 위치로 반환하기 위해 노력하고 있으며 팹 반도체 고객을 유치하여 팹에서 칩을 만들려고 노력하고 있습니다. 이를 위해 인텔은 프로세스의 경쟁력을 증명할뿐만 아니라 파트너가 친숙하고 성숙한 워크 플로우, 일관되고 신뢰할 수있는 방식으로 칩을 제조 할 수 있음을 보여주기 위해 업계에 대한 신뢰를 더 많이 구축해야합니다. 오늘 내가 듣는 모든 것은 인텔 이이 목표를 향해 나아가고 있다고 믿게 만듭니다. 새로운 CEO 인 탄 리바이 (Tan Libai)의 기조 연설이 그 날을 시작했다. Tan Libai는 간단하고 간결합니다. 그는 Intel의 Foundry Services에서 몇 가지 과제를 간략하게 설명하고 회사가 이러한 과제를 해결하고 향후 인텔의 파운드리 서비스를위한 성공적인 경로를 계획하기 위해 취한 조치를 취했습니다. Tan Libai는 고객을 더 많이 만들기 위해 인텔의 OEM 서비스가 구현되는 과정에 대해 이야기했습니다.

ai 잘못 되었나요? 이제 보험이 있습니다May 01, 2025 am 11:11 AM

AI 위험과 관련된 점점 더 많은 문제를 해결하기 위해, 글로벌 특수 재보험 회사 인 Chaucer Group 및 Armilla AI는 TPL (Third-Party Liability) 보험 상품을 도입하기 위해 힘을 합쳤습니다. 이 정책은 비즈니스를 보호합니다

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.