찾다
기술 주변기기일체 포함Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.

ChatGPT의 출시는 전체 AI 분야를 뒤흔들었고 주요 기술 회사, 스타트업 및 대학 팀이 이를 따르고 있습니다. 최근 하트 오브 더 머신(Heart of the Machine)에는 수많은 스타트업 기업과 대학팀의 연구 결과가 보도됐다.

어제 또 다른 대규모 국내 AI 대화 모델이 출시되었습니다. Tsinghua의 기술 성과를 변형하고 GLM-130B 1000억 기본 모델을 기반으로 한 회사의 스마트 스펙트럼 AI인 ChatGLM이 이제 초대 전용 대화 모델을 시작했습니다. 내부 베타.

Zhipu AI가 단일 소비자급 그래픽 카드에서 추론을 지원하는 중국어-영어 이중 언어 대화 모델 ChatGLM-6B도 오픈 소스로 제공했다는 점은 언급할 가치가 있습니다.

Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.

내부 베타 애플리케이션 웹사이트: chatglm.cn

ChatGLM 현재 버전의 성능 향상은 주로 고유한 1000억 베이스 모델인 GLM-130B에서 비롯된 것으로 이해됩니다. . BERT, GPT-3, T5와는 다른 아키텍처로 다중 목적 함수를 포함하는 자동 회귀 사전 학습 모델입니다.

2022년 8월, Tsinghua University와 Zhipu AI는 1,300억 개의 매개변수를 갖춘 중국어-영어 이중 언어 밀도 모델 GLM-130B를 연구 커뮤니티 및 업계에 공개했습니다. 중국어 및 영어 모두

  • 높은 정확도(영어): 공개 영어 자연어 목록 LAMBADA, MMLU 및 Big-bench-lite(API: davinci, 기본 모델)에서 GPT-3 175B보다 우수함 및 OPT-175B BLOOM-176B;
  • 높은 정확도(중국어): 7개의 제로 샘플 CLUE 데이터 세트 및 5개의 제로 샘플 FewCLUE 데이터 세트에서 ERNIE TITAN 3.0 260B 및 YUAN 1.0-245B보다 훨씬 우수합니다.
  • 빠른 추론: INT4 정량화를 구현하는 최초의 1000억 모델로 4카드 3090 또는 8카드 2080Ti 서버로 빠르고 기본적으로 무손실 추론을 지원합니다.
  • 재현성: 모든 결과(각 작업당 30개 이상)를 공개를 통해 재현할 수 있습니다. 소스 코드 및 모델 매개변수
  • 크로스 플랫폼: 국내 Haiguang DCU, Huawei Ascend 910 및 Sunway 프로세서, 미국 NVIDIA 칩에 대한 교육 및 추론을 지원합니다.
  • 이제 ChatGPT의 디자인 아이디어를 참조하여 ChatGLM은 Supervised Fine-Tuning과 같은 기술을 통해 인간 의도 정렬을 달성하기 위해 코드 사전 훈련을 GLM-130B 기본 모델에 주입했습니다.

Heart of the Machine이 비공개 베타 초대 코드를 획득했습니다. ChatGLM과의 간단한 대화 내용은 다음과 같습니다.

"Station"의 실제 의미를 이해할 수 있습니다. CP": Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.

Give ChatGLM 수학 문제를 풀어보세요:

두 변수의 선형 방정식을 배웠기 때문에 이와 같은 기본적인 "같은 우리 안의 닭과 토끼" 문제는 더 이상 문제가 되지 않습니다. : Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.

오픈 소스 ChatGLM-6B

ChatGLM-6B는 중국어와 영어 이중 언어 질문과 답변을 지원하고 중국어에 최적화된 오픈 소스 대화 언어 모델입니다. 이 모델은 GLM(General Language Model) 아키텍처를 기반으로 하며 62억 개의 매개변수를 가지고 있습니다. 모델 양자화 기술과 결합하여 사용자는 이를 소비자급 그래픽 카드에 로컬로 배포할 수 있습니다(INT4 양자화 수준에서는 최소 6GB의 비디오 메모리가 필요함). ChatGLM-6B는 ChatGLM과 동일한 기술을 사용하며 중국어 Q&A 및 대화에 최적화되어 있습니다. 감독된 미세 조정, 피드백 셀프 서비스, 인간 피드백 강화 학습 및 기타 기술로 보완된 약 1T 식별자를 사용하여 중국어와 영어로 이중 언어 훈련을 마친 후 62억 개의 매개 변수 ChatGLM-6B(1000억 모델만큼 크지는 않지만) 추론 비용을 크게 줄이고 효율성을 향상시켰으며 이미 인간의 선호도와 상당히 일치하는 답변을 생성할 수 있습니다.

모델 오픈 소스 주소: https://github.com/THUDM/ChatGLM-6B

특히 ChatGLM-6B에는 다음과 같은 기능이 있습니다.

  • 중국어 전체 이중 언어 사전 교육 및 영어 : ChatGLM-6B는 중국어와 영어 자료에 대해 1:1 비율로 1T 토큰을 교육했으며 이중 언어 기능을 갖추고 있습니다.
  • 최적화된 모델 아키텍처 및 크기: GLM-130B 교육 경험을 바탕으로 기존 FFN 구조를 사용하여 2D RoPE 위치 인코딩 구현이 수정되었습니다. 6B(62억)의 매개변수 크기를 통해 연구원과 개인 개발자가 ChatGLM-6B를 직접 미세 조정하고 배포할 수도 있습니다.
  • 낮은 배포 임계값: FP16 절반 정밀도에서 ChatGLM-6B는 추론을 위해 최소 13GB의 비디오 메모리가 필요하며 모델 양자화 기술과 결합하여 이 요구 사항을 10GB(INT8) 및 6GB(INT4)로 더 줄일 수 있습니다. ChatGLM-6B를 소비자급 그래픽 카드에 배포할 수 있습니다.
  • 더 긴 시퀀스 길이: GLM-10B(시퀀스 길이 1024)에 비해 ChatGLM-6B의 시퀀스 길이는 2048로 더 긴 대화와 애플리케이션을 지원합니다.
  • 인간 의도 정렬 훈련: 지도형 미세 조정, 피드백 부트스트랩, 인간 피드백을 통한 강화 학습 및 기타 방법을 사용하여 모델이 처음에 인간 지시 능력의 의도를 이해할 수 있습니다. 출력 형식은 쉽게 표시할 수 있도록 마크다운입니다.

ChatGLM-6B 모델의 용량이 작기 때문에 필연적으로 다음과 같은 몇 가지 제한 사항과 단점이 있습니다.

  • 모델 메모리 및 언어 기능이 상대적으로 약합니다. ChatGLM-6B는 많은 사실적 지식 작업에 직면할 때 잘못된 정보를 생성할 수 있으며 논리적 문제(수학, 프로그래밍 등)를 해결하는 데는 그리 좋지 않습니다.
  • 유해한 설명이나 편향된 콘텐츠를 생성할 수 있음: ChatGLM-6B는 인간의 의도에 부합하는 예비 언어 모델일 뿐이며 유해하고 편향된 콘텐츠를 생성할 수 있습니다.
  • 약한 다단계 대화 능력: ChatGLM-6B의 문맥 이해 능력이 충분하지 않습니다. 긴 답변 생성 및 다단계 대화 시나리오에 직면하면 문맥 손실 및 이해 오류가 발생할 수 있습니다.

GLM 팀은 ChatGLM이 여전히 최고의 국제 대형 모델 연구 및 제품에 비해 훨씬 뒤떨어져 있다고 밝혔습니다. 앞으로도 ChatGLM 및 관련 모델의 업데이트 버전을 계속 개발하고 오픈 소스할 것입니다. GLM 팀은 또한 ChatGLM-6B를 다운로드하고 이를 기반으로 연구 및 (비상업적) 애플리케이션 개발을 수행하는 모든 사람을 환영합니다.

위 내용은 Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
메타의 새로운 AI 어시스턴트 : 생산성 부스터 또는 시간 싱크?메타의 새로운 AI 어시스턴트 : 생산성 부스터 또는 시간 싱크?May 01, 2025 am 11:18 AM

Meta는 NVIDIA, IBM 및 DELL과 같은 파트너와 함께 LLAMA 스택의 엔터프라이즈 수준 배포 통합을 확장했습니다. 보안 측면에서 Meta는 Llama Guard 4, Llamafirewall 및 Cyberseceval 4와 같은 새로운 도구를 출시했으며 AI 보안을 향상시키기 위해 LLAMA Defenders 프로그램을 시작했습니다. 또한 Meta는 공공 서비스, 건강 관리 및 교육을 개선하기 위해 노력하는 신생 기업을 포함하여 10 개의 글로벌 기관에 LLAMA Impact Grants의 150 만 달러를 배포했습니다. Llama 4에 의해 구동되는 새로운 Meta AI 응용 프로그램, Meta AI로 생각됩니다.

Gen Zers의 80%가 AI : 연구와 결혼 할 것입니다Gen Zers의 80%가 AI : 연구와 결혼 할 것입니다May 01, 2025 am 11:17 AM

인간 -AI 상호 작용을 개척하는 회사 인 Joi AI는 이러한 진화하는 관계를 설명하기 위해 "AI-Lationships"라는 용어를 도입했습니다. Joi AI의 관계 치료사 인 Jaime Bronstein은 이것이 인간 C를 대체하는 것이 아니라는 것을 분명히합니다.

AI는 인터넷의 봇 문제를 악화시키고 있습니다. 이 20 억 달러 규모의 스타트 업은 최전선에 있습니다AI는 인터넷의 봇 문제를 악화시키고 있습니다. 이 20 억 달러 규모의 스타트 업은 최전선에 있습니다May 01, 2025 am 11:16 AM

온라인 사기와 봇 공격은 비즈니스에 큰 도전을 제기합니다. 소매 업체는 봇과 싸우고, 은행은 전투 계정 인수 및 소셜 미디어 플랫폼이 사천자와 어려움을 겪고 있습니다. AI의 부상은이 문제를 악화시킨다

로봇에 판매 : 비즈니스를 만들거나 파괴 할 마케팅 혁명로봇에 판매 : 비즈니스를 만들거나 파괴 할 마케팅 혁명May 01, 2025 am 11:15 AM

AI 에이전트는 마케팅에 혁명을 일으킬 준비가되어 있으며 이전 기술 변화의 영향을 능가 할 수 있습니다. 생성 AI의 상당한 발전을 나타내는이 에이전트는 Chatgpt와 같은 정보뿐만 아니라 Actio도 취합니다.

컴퓨터 비전 기술이 NBA 플레이 오프를 혁신하는 방법컴퓨터 비전 기술이 NBA 플레이 오프를 혁신하는 방법May 01, 2025 am 11:14 AM

중요한 NBA 게임 4 결정에 대한 AI의 영향 두 가지 중추적 인 게임 4 NBA 매치업은 AI의 게임 변화 역할을 선보였습니다. 첫 번째로 덴버의 Nikola Jokic의 놓친 3 점은 Aaron Gordon의 마지막으로 골목길을 이끌었습니다. 소니의 매

AI가 재생 의학의 미래를 가속화하는 방법AI가 재생 의학의 미래를 가속화하는 방법May 01, 2025 am 11:13 AM

전통적으로 전 세계적으로 재생 의학 전문 지식을 확장하여 광범위한 여행, 실습 교육 및 수년간의 멘토링을 요구했습니다. 이제 AI는이 환경을 변화시키고 지리적 한계를 극복하고 EN을 통한 진행 상황을 가속화하고 있습니다.

Intel Foundry Direct Connect 2025의 주요 테이크 아웃Intel Foundry Direct Connect 2025의 주요 테이크 아웃May 01, 2025 am 11:12 AM

인텔은 제조 공정을 선도적 인 위치로 반환하기 위해 노력하고 있으며 팹 반도체 고객을 유치하여 팹에서 칩을 만들려고 노력하고 있습니다. 이를 위해 인텔은 프로세스의 경쟁력을 증명할뿐만 아니라 파트너가 친숙하고 성숙한 워크 플로우, 일관되고 신뢰할 수있는 방식으로 칩을 제조 할 수 있음을 보여주기 위해 업계에 대한 신뢰를 더 많이 구축해야합니다. 오늘 내가 듣는 모든 것은 인텔 이이 목표를 향해 나아가고 있다고 믿게 만듭니다. 새로운 CEO 인 탄 리바이 (Tan Libai)의 기조 연설이 그 날을 시작했다. Tan Libai는 간단하고 간결합니다. 그는 Intel의 Foundry Services에서 몇 가지 과제를 간략하게 설명하고 회사가 이러한 과제를 해결하고 향후 인텔의 파운드리 서비스를위한 성공적인 경로를 계획하기 위해 취한 조치를 취했습니다. Tan Libai는 고객을 더 많이 만들기 위해 인텔의 OEM 서비스가 구현되는 과정에 대해 이야기했습니다.

ai 잘못 되었나요? 이제 보험이 있습니다ai 잘못 되었나요? 이제 보험이 있습니다May 01, 2025 am 11:11 AM

AI 위험과 관련된 점점 더 많은 문제를 해결하기 위해, 글로벌 특수 재보험 회사 인 Chaucer Group 및 Armilla AI는 TPL (Third-Party Liability) 보험 상품을 도입하기 위해 힘을 합쳤습니다. 이 정책은 비즈니스를 보호합니다

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구