>  기사  >  기술 주변기기  >  오픈 소스 이중 언어 대화 모델은 GitHub에서 인기를 얻고 있으며 AI는 말도 안되는 소리를 수정할 필요가 없다고 주장합니다.

오픈 소스 이중 언어 대화 모델은 GitHub에서 인기를 얻고 있으며 AI는 말도 안되는 소리를 수정할 필요가 없다고 주장합니다.

王林
王林앞으로
2023-04-24 17:49:09913검색

이 글은 AI 뉴미디어 큐빗(공개 계정 ID: QbitAI)의 승인을 받아 재인쇄되었습니다. 재인쇄를 원하시면 출처로 문의해주세요

가정용 대화 로봇 ChatGLM은 GPT-4와 같은 날 탄생했습니다.

Zhipu AI와 Tsinghua University KEG Laboratory가 공동으로 출시한 알파 내부 베타 버전이 출시되었습니다.

오픈 소스 이중 언어 대화 모델은 GitHub에서 인기를 얻고 있으며 AI는 말도 안되는 소리를 수정할 필요가 없다고 주장합니다.

이 우연은 Zhipu AI의 창립자이자 CEO인 Zhang Peng에게 설명할 수 없는 복잡한 감정을 안겨주었습니다. 그러나 OpenAI의 기술이 얼마나 훌륭해졌는지 보고, AI의 새로운 발전에 무감각했던 이 기술 베테랑은 갑자기 다시 흥분했습니다.

특히 GPT-4 컨퍼런스 생방송에 이어 화면 속 사진을 보다가 잠시 웃다가 다른 코너를 보다가 한참을 웃었다.

Zhang Peng이 이끄는 Zhipu AI는 창립 이래 대형 모델 분야의 일원으로 활동하며 "기계가 인간처럼 생각하도록 만든다"는 비전을 세웠습니다.

하지만 이 길은 늘 울퉁불퉁해요. 거의 모든 대규모 모델 회사와 마찬가지로 데이터 부족, 기계 부족, 자금 부족 등 동일한 문제에 직면합니다. 다행히도 그 과정에서 무료 지원을 제공하는 일부 조직과 회사가 있습니다.

지난해 8월 회사는 여러 과학 연구 기관과 협력하여 오픈 소스 이중 언어 사전 훈련된 대형 언어 모델 GLM-130B를 개발했습니다. 이는 GPT-3 175B(davinci)와 비슷하거나 동등한 수준입니다. 나중에 ChatGLM의 기반이 된 정확성 및 악의적 지표의 조건입니다. 또한 ChatGLM과 동시에 오픈 소스로 제공되는 것은 62억 개의 매개변수 버전인 ChatGLM-6B이며, 이는 1,000위안의 단일 카드로 실행할 수 있습니다.

GLM-130B 외에도 Zhipu의 또 다른 유명 제품은 학계의 유명 인사들이 플레이하는 AI 인재 풀 AMiner입니다.

오픈 소스 이중 언어 대화 모델은 GitHub에서 인기를 얻고 있으며 AI는 말도 안되는 소리를 수정할 필요가 없다고 주장합니다.

이번에는 같은 날 GPT-4와 충돌했습니다. OpenAI의 속도와 기술로 인해 Zhang Peng과 Zhipu 팀은 많은 압박을 받고 있습니다.

'심각한 말도 안되는 소리'는 바로잡아야 하는 걸까요?

ChatGLM의 내부 베타 테스트 후 Qubit은 즉시 할당량을 확보하고 ​​인간 인간 평가​​를 시작했습니다.

다른 얘기는 하지 마세요. 몇 차례의 테스트를 거친 후 ChatGLM에는 ChatGPT와 New Bing이 모두 가지고 있는 기술이 있다는 것을 어렵지 않게 발견할 수 있습니다. 같은 우리에서 문제의 계산은 -33 마리입니다.

대화형 AI를 '장난감'이나 사무 보조 정도로 생각하는 대부분의 사람들에게 정확성을 어떻게 향상시킬지는 특별한 관심과 중요성의 포인트입니다.

대화 AI가 진지하게 헛소리를 하고 있는데 고쳐주실 수 있나요? 정말 바로잡아야 하는 걸까요?

오픈 소스 이중 언어 대화 모델은 GitHub에서 인기를 얻고 있으며 AI는 말도 안되는 소리를 수정할 필요가 없다고 주장합니다.

ΔChatGPT의 고전적인 넌센스 인용문

Zhang Peng은 개인적인 의견을 표명하며 이 "고집이 심한 질병"을 교정하는 것 자체가 매우 이상한 일이라고 말했습니다.

(말하는 것이 모두 맞는지 확인하세요) 인간도 할 수 없는 일이지만, 인간이 만든 기계가 그런 실수를 하지 않기를 바랍니다.

이 주제에 대한 다양한 견해는 다양한 사람들의 기계에 대한 이해와 밀접한 관련이 있습니다. Zhang Peng에 따르면 이러한 행동에 대해 AI를 비판하는 사람들은 기계에 대해 항상 세심한 이해를 갖고 있었을 수 있으며, 이는 0 또는 1이며 엄격하고 정확합니다. .

무슨 일이 일어나고 있는지 아는 것이 이유를 아는 것만큼 중요합니다. "이는 전체 기술의 진화와 변화는 물론 기술의 본질에 대한 모든 사람의 심층적인 이해가 부족하기 때문일 수 있습니다." 비유로서의 인간 학습:

AI 기술 논리와 원리는 실제로 여전히 인간의 두뇌를 시뮬레이션하고 있습니다.

배운 것 앞에서는 첫째, 지식 자체가 잘못되었거나 업데이트될 수 있습니다(예: 에베레스트 산의 고도). 둘째, 배운 지식 사이에 갈등이 발생할 가능성도 있습니다. 실수하거나 혼란스러울 때

AI도 사람이 실수하는 것처럼 실수를 합니다. 그 이유는 지식이 부족하거나 특정 지식을 잘못 적용하기 때문입니다.

간단히 말하면 이것은 정상적인 일입니다.

동시에 Zhipu는 물론 OpenAI가 CloseAI로 조용히 전환하는 것에 주목하고 있습니다.

GPT-3에서 비공개 소스를 선택하는 것부터 GPT-4까지, 아키텍처 수준에서 더 많은 세부 사항을 다루기 위해 OpenAI가 외부 대응을 하는 두 가지 이유는 경쟁과 보안입니다.

Zhang Peng은 OpenAI의 의도를 이해한다고 표현했습니다.

"그렇다면 오픈 소스 경로를 택하면 Zhipu는 경쟁과 보안을 고려하지 않을까요?"

"분명 그럴 것입니다. 하지만 폐쇄 소스가 확실히 보안 문제를 해결할 수 있을까요? 저는 그렇게 생각하지 않습니다. 그리고 저는 그것이 현명하다고 믿습니다. 경쟁은 전체 산업과 생태계의 급속한 발전을 위한 훌륭한 촉매제입니다.

여기서 따라잡기는 OpenAI의 연구 방향이 더 많은 목표를 달성할 수 있는 유일한 방법이지만 OpenAI를 따라잡는 것이 궁극적인 목표는 아니라는 믿음에 기초한 진술 과정입니다.

따라잡는다는 것은 우리가 따라잡는 과정을 멈출 수 있다는 것을 의미하지 않으며, 실리콘밸리 모델을 그대로 따라해야 한다는 것을 의미하지 않습니다. 우리는 최고 수준의 디자인을 동원하는 중국의 특성과 장점까지 활용할 수 있습니다. 큰 일에 집중하여 개발 속도의 차이를 보완할 수 있습니다.

2019년부터 현재까지 4년이 넘는 경험을 가지고 있음에도 불구하고 Zhipu는 감히 어떤 함정에 대한 안내도 제공하지 않습니다. 그러나 Zhipu는 전반적인 방향을 이해하고 있습니다. 이는 Zhipu가 CCF와 논의하고 있는 공통 아이디어이기도 합니다.

대형 모델 기술의 탄생은 매우 포괄적이고 복잡한 체계적인 프로젝트입니다.

더 이상 몇 명의 똑똑한 머리가 실험실에서 숙고하고, 머리카락 몇 개 떨어뜨리고, 실험하고, 논문을 발표하는 문제가 아닙니다. 독창적인 이론적 혁신 외에도 강력한 엔지니어링 구현 및 체계화 기능, 심지어 우수한 제품 기능도 필요합니다.

ChatGPT처럼 적절한 시나리오를 선택하고 80세부터 8세까지 사용할 수 있는 제품을 설정하고 패키징하세요.

컴퓨팅 파워, 알고리즘, 데이터는 모두 과거보다 훨씬 중요한 인재, 특히 시스템 엔지니어링 실무자가 뒷받침합니다.

이러한 이해를 바탕으로 Zhang Peng은 대형 모델 분야에 지식 시스템(지식 그래프)을 추가하고 두 가지가 좌뇌와 우뇌처럼 체계적으로 작동하도록 하는 것이 스마트 그래프 연구 및 실험의 다음 단계라고 밝혔습니다.

GitHub의 가장 인기 있는 이중 언어 대화 모델

ChatGLM은 전체적으로 ChatGPT의 디자인 아이디어를 나타냅니다.

즉, 코드 사전 훈련이 GLM-130B 이중 언어 기본 모델에 주입되고 감독된 미세 조정 및 기타 기술을 통해 인간의 의도 정렬이 달성됩니다(즉, 기계의 답변이 인간의 가치와 인간의 가치에 부합하도록 만드는 것입니다) 기대).

1,300억 개의 매개변수를 갖춘 GLM-130B는 Zhipu와 Tsinghua University의 KEG 연구소가 공동 개발했습니다. BERT, GPT-3 및 T5의 아키텍처와 달리 GLM-130B는 여러 목적 함수를 포함하는 자동 회귀 사전 학습 모델입니다.

지난해 8월, GLM-130B가 일반 공개와 동시에 오픈소스화되었습니다. Standford 보고서에서는 여러 작업에서 그 성과가 눈에 띄게 나타났습니다.

오픈 소스 이중 언어 대화 모델은 GitHub에서 인기를 얻고 있으며 AI는 말도 안되는 소리를 수정할 필요가 없다고 주장합니다.

오픈 소스에 대한 고집은 Zhipu가 AGI로 가는 길에서 외로운 선구자가 되고 싶지 않다는 사실에서 비롯됩니다.

GLM-130B 오픈에 이어 올해도 ChatGLM-6B 소스를 계속해서 오픈할 예정인 이유이기도 합니다.

ChatGLM-6B는 62억 개의 매개변수 크기를 갖춘 모델의 "축소 버전"입니다. 기술 기반은 ChatGLM과 동일하며 중국어 질문과 답변 및 대화 기능이 포함되기 시작했습니다.

두 가지 이유로 계속해서 소스를 오픈합니다.

하나는 사전 훈련된 모델의 생태계를 확장하고, 대규모 모델 연구에 투자할 더 많은 사람들을 유치하고, 기존의 많은 연구 문제를 해결하는 것입니다. 후속 값.

오픈소스 커뮤니티에 참여하는 것은 정말 매력적입니다. ChatGLM의 내부 테스트 후 며칠 만에 ChatGLM-6B는 GitHub에서 8.5,000개의 별을 얻었으며 한때 인기 목록에서 1위를 차지했습니다.

오픈 소스 이중 언어 대화 모델은 GitHub에서 인기를 얻고 있으며 AI는 말도 안되는 소리를 수정할 필요가 없다고 주장합니다.이 대화에서 Qubit은 내 앞에 있는 실무자의 목소리도 들었습니다.

버그도 자주 발생하지만 사람들은 OpenAI에서 출시한 ChatGPT와 Google 대화 로봇 Bard, Baidu에 만족하지 않습니다. Wenxinyiyan의 관용 수준은 크게 다릅니다.

이것은 공평하기도 하고 불공평하기도 합니다.

순전히 기술적 관점에서 보면 심사기준이 달라서 불공평하지만, 구글이나 바이두 같은 대기업이 더 많은 자원을 차지하기 때문에 누구나 당연히 기술력이 더 강하고 더 좋은 제품을 만들 수 있다고 생각합니다. 뭔가 기대가 더 커집니다.

"Baidu든, 우리든, 다른 기관이든 모두가 좀 더 인내심을 가질 수 있기를 바랍니다."

오픈 소스 이중 언어 대화 모델은 GitHub에서 인기를 얻고 있으며 AI는 말도 안되는 소리를 수정할 필요가 없다고 주장합니다.위 대화에서 Qubit은 또한 Zhang Peng과 구체적으로 이야기를 나눴습니다. ChatGLM을 경험해 보세요.

아래에 대화 내용을 첨부합니다. 읽기의 편의를 위해 원래의 의미를 바꾸지 않고 편집하고 정리했습니다.

대화 기록

Qubit: 내부 베타 버전에 부여된 라벨은 그다지 "보편적"이지 않은 것 같습니다. 공식 웹사이트에서는 해당 분야에 대해 교육, 의료 및 금융이라는 세 가지 원을 정의합니다.

Zhang Peng: 이는 주로 응용 시나리오를 고려할 때 훈련 데이터와 관련이 없습니다.

ChatGLM은 ChatGPT와 유사하며 대화 모델입니다. 자연스럽게 대화 시나리오에 더 가까운 응용 분야는 무엇입니까? 고객 서비스, 의사 상담, 온라인 금융 서비스 등입니다. 이러한 시나리오에서는 ChatGLM 기술이 역할을 수행하는 데 더 적합합니다.

Qubit: 하지만 의료 분야에서는 의사를 만나고 싶은 사람들이 AI에 대해 여전히 더 조심스럽습니다.

장펑: 큰 모델만 가지고 공격할 수는 없어요! (웃음) 인간을 완전히 대체하려면 그래도 조심해야 해요.

이 단계에서는 사람의 작업을 대체하는 데 사용되는 것이 아니라 실무자에게 작업 효율성을 향상할 수 있는 제안을 제공하는 지원 역할에 가깝습니다.

Qubit: ChatGLM에 GLM-130B 논문 링크를 던져서 주제를 간략하게 요약해달라고 요청했는데 오랫동안 계속 윙윙거렸지만 전혀 이 기사에 관한 것이 아니라는 것이 밝혀졌습니다.

Zhang Peng: ChatGLM 설정이 링크를 얻을 수 없도록 되어 있습니다. 기술적인 문제는 아니지만, 주로 보안적인 측면에서 외부 링크에 임의로 접근하는 것을 원하지 않습니다.

130B 종이 텍스트를 복사해서 입력창에 던져보세요. 일반적으로 말도 안되는 소리는 하지 않을 것입니다.

Qubit: 닭과 토끼도 같은 우리에 넣어서 -33마리의 닭을 계산했습니다.

Zhang Peng: 수학적 처리 및 논리적 추론 측면에서 여전히 특정 결함이 있으며 그다지 좋지 않습니다. 우리는 실제로 클로즈 베타 지침에서 이에 대해 썼습니다.

오픈 소스 이중 언어 대화 모델은 GitHub에서 인기를 얻고 있으며 AI는 말도 안되는 소리를 수정할 필요가 없다고 주장합니다.

Qubit: Zhihu에서 누군가 평가를 했는데, 코드 작성 능력은 보통인 것 같습니다.

장펑: 코드 작성 능력은 꽤 좋은 것 같은데요? 귀하의 테스트 방법이 무엇인지 모르겠습니다. 하지만 누구와 비교하느냐에 따라 ChatGPT와 비교했을 때 ChatGLM 자체는 코드 데이터에 그렇게 많은 투자를 하지 않을 수 있습니다.

ChatGLM과 ChatGLM-6B의 비교와 마찬가지로 후자에는 전체 논리, 답변 시 환상, 길이, 축소 버전과의 격차 등 전체 기능 측면에서 6B(62억)개의 매개변수만 있습니다. 원본 버전은 분명합니다.

그러나 "축소 버전"은 일반 컴퓨터에 배포할 수 있어 사용성은 더 높고 임계값은 더 낮습니다.

Qubit: 새로운 정보를 잘 파악한다는 장점이 있습니다. 현재 트위터의 CEO가 Musk인 것으로 알고 있으며, He Kaiming이 3월 10일에 학계로 복귀했다는 것도 알고 있습니다. GPT-4가 출시되었습니다. 하하.

Zhang Peng: 우리는 특별한 기술 처리를 했습니다.

Qubit: 그게 뭐죠?

Zhang Peng: 구체적인 내용은 다루지 않겠습니다. 그러나 비교적 최근의 새로운 정보를 처리하는 방법이 있습니다.

Qubit: 비용을 알려주실 수 있나요? GLM-130B 교육 비용은 여전히 ​​수백만입니다. ChatGLM에서 질문과 답변을 수행하는 데 드는 비용은 얼마나 저렴합니까?

Zhang Peng: 비용을 대략적으로 테스트하고 추정했는데, 이는 OpenAI가 지난번에 두 번째로 발표한 비용과 유사하고 그보다 약간 낮습니다.

그러나 OpenAI의 최신 제안은 원래 가격의 10%, 즉 $0.002/750 단어로 우리보다 낮은 가격으로 인하되었습니다. 이 비용은 실로 엄청난 수준입니다. 모델 압축, 양자화, 최적화 등을 수행한 것으로 추정됩니다. 그렇지 않으면 이 비용을 이렇게 낮은 수준으로 줄이는 것이 불가능할 것입니다.

저희도 관련된 일을 하고 있으며 비용을 절감할 수 있기를 바랍니다.

Qubits: 시간이 지나면 검색 비용만큼 낮아질 수 있나요?

Zhang Peng: 언제 이렇게 낮은 수준으로 떨어질까요? 나도 모른다. 시간이 좀 걸릴 거예요.

실제로 본업과 관련된 검색가격당 평균비용 계산을 본 적이 있습니다. 예를 들어, 검색엔진의 주요 사업은 광고이므로, 비용을 계산하려면 총 광고 수익을 상한선으로 사용해야 합니다. 이렇게 계산할 경우 고려해야 할 것은 소비비용이 아니라 기업의 이윤과 편익의 균형점이다.

모델 추론을 수행하려면 AI 컴퓨팅 성능이 필요하며 이는 CPU 컴퓨팅 성능만 사용하여 검색하는 것보다 확실히 더 비쌉니다. 하지만 모두가 열심히 일하고 있고, 많은 사람들이 계속해서 모델을 압축하고 양자화하는 등 몇 가지 아이디어를 내놓았습니다.

CPU가 더 저렴하고 용량이 더 크기 때문에 모델을 변환하여 CPU에서 실행하려는 사람들도 있습니다.

Qubit: 마지막으로 인재에 관한 몇 가지 주제에 대해 이야기하고 싶습니다. 이제 모두가 대형 모델 인재를 찾기 위해 경쟁하고 있습니다. Zhipu는 인력을 채용하지 못할까 봐 걱정하고 있나요?

Zhang Peng: 우리는 Tsinghua KEG의 기술 프로젝트에서 인큐베이션되었으며 항상 다양한 대학과 좋은 관계를 유지해 왔습니다. 게다가 회사는 젊은 사람들에게 상대적으로 개방적인 분위기를 갖고 있어요. 동료 중 75%가 젊은 사람들이에요. 빅 모델 인재는 지금은 정말 보기 드문 상품이지만 아직 채용에 대한 걱정은 없습니다.

반면에 우리는 사실 남들에게 착취당할까봐 더 걱정합니다.

위 내용은 오픈 소스 이중 언어 대화 모델은 GitHub에서 인기를 얻고 있으며 AI는 말도 안되는 소리를 수정할 필요가 없다고 주장합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제