GPT-4는 ChatGPT에 비해 어떤 점이 개선되었나요? Jen-Hsun Huang은 OpenAI 공동 창립자와 '노변 담화'를 가졌습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

GPT-4는 ChatGPT에 비해 어떤 점이 개선되었나요? Jen-Hsun Huang은 OpenAI 공동 창립자와 '노변 담화'를 가졌습니다.

PHPz

Mar 31, 2023 pm 10:39 PM

chatgptgpt-4신경망

ChatGPT와 GPT-4의 가장 중요한 차이점은 GPT-4를 기반으로 구축하면 다음 문자를 더 높은 정확도로 예측한다는 것입니다. 신경망이 텍스트의 다음 단어를 더 잘 예측할수록 텍스트를 더 잘 이해할 수 있습니다.

제작: 빅데이터 다이제스트

저자: Caleb

엔비디아가 OpenAI를 만나면 어떤 불꽃을 일으키게 될까요?

방금 NVIDIA 창립자이자 CEO인 Jensen Huang은 GTC 노변담화에서 OpenAI 공동 창립자인 Ilya Sutskever와 심도 있는 대화를 나눴습니다.

GPT-4는 ChatGPT에 비해 어떤 점이 개선되었나요? Jen-Hsun Huang은 OpenAI 공동 창립자와 노변 담화를 가졌습니다.

동영상 링크:

https://www.nvidia.cn/gtc-global/session-catalog/?tab.catalogallsessinotallow=16566177511100015Kus#/session/1669748941314001t6Nv

이틀 전, OpenAI 현재까지 가장 강력한 인공지능 모델인 GPT-4를 출시했습니다. OpenAI는 공식 웹사이트에서 GPT-4를 "OpenAI의 가장 진보된 시스템"이라고 부르며 "더 안전하고 유용한 응답을 생성할 수 있습니다"라고 설명합니다.

Sutskever는 또한 대화 중에 GPT-4가 ChatGPT에 비해 여러 측면에서 "상당한 개선"을 나타냈다고 말하면서 새 모델이 이미지와 텍스트를 읽을 수 있다는 점을 지적했습니다. 그는 "향후 버전에서는 [사용자]가 질문과 문의에 대한 응답으로 차트를 얻을 수도 있다"고 말했습니다.

ChatGPT 및 GPT-4가 전 세계적으로 인기를 끌면서 이것이 ChatGPT 관련 주제를 포함한 GPT-4 및 이전 버전 외에도 Huang Renxun 및 Sutskever도 이 대화의 초점이 되었다는 것은 의심의 여지가 없습니다. 심층 신경망의 기능과 한계, 내부 작동 방식에 대해 이야기하고 향후 AI 발전에 대한 예측도 이야기했습니다.

다음은 Digest Fungus와의 대화로 들어가 보겠습니다~

아무도 네트워크 규모와 컴퓨팅 규모에 관심이 없던 시절부터 시작하세요

아마도 많은 사람들이 Sutskever라는 이름을 들으면 가장 먼저 떠오르는 것은 OpenAI와 관련 AI 제품일 것입니다. 하지만 Sutskever의 이력서는 Google Brain 연구 과학자이자 Seq2Seq 모델의 공동 개발자인 Andrew Ng의 박사후 과정까지 추적할 수 있다는 점을 알아야 합니다.

딥러닝은 처음부터 Sutskever에 묶여 있었다고 할 수 있습니다.

수츠케버는 딥러닝에 대한 자신의 이해에 대해 이야기하면서 이제부터 딥러닝이 실제로 세상을 변화시켰다고 말했습니다. 그러나 그의 개인적인 출발점은 AI의 엄청난 영향력 잠재력에 대한 직관, 의식과 인간 경험에 대한 강한 관심, 그리고 AI의 개발이 이러한 질문에 답하는 데 도움이 될 것이라는 그의 믿음에 더 있습니다.

2002-03년 동안 사람들은 일반적으로 학습은 인간만이 할 수 있는 것이고 컴퓨터는 배울 수 없다고 믿었습니다. 그리고 컴퓨터에 학습 능력이 부여된다면 이는 AI 분야에서 획기적인 발전이 될 것입니다.

이것은 Sutskever가 AI 분야에 정식으로 진출하는 기회가 되기도 했습니다.

그래서 Sutskever는 같은 대학의 Jeff Hinton을 찾았습니다. 그의 견해로는 Hinton이 작업하고 있는 신경망이 획기적인 것입니다. 왜냐하면 신경망의 특성은 자동으로 학습하고 프로그래밍할 수 있는 병렬 컴퓨터에 있기 때문입니다.

당시에는 네트워크 크기와 계산 규모의 중요성에 대해 아무도 관심을 두지 않았습니다. 사람들은 50~100개의 신경망만 훈련시켰고, 그 중 수백 개는 이미 큰 것으로 간주되었으며, 100만 개의 매개변수도 매우 큰 것으로 간주되었습니다.

또한 BLAS를 이해하는 사람이 없기 때문에 최적화되지 않은 CPU 코드에서만 프로그램을 실행할 수 있습니다. 그들은 최적화된 Matlab을 사용하여 어떤 종류의 질문을 하는 것이 더 좋은지 등의 실험을 수행합니다.

그러나 문제는 이것이 매우 분산된 실험이고 실제로 기술 진보를 촉진할 수 없다는 것입니다.

컴퓨터 비전을 위한 신경망 구축

그 당시 Sutskever는 지도 학습이 미래를 향한 길임을 깨달았습니다.

이것은 직관일 뿐만 아니라 확실한 사실입니다. 신경망이 충분히 깊고 크다면 몇 가지 어려운 작업을 해결할 수 있는 능력을 갖게 될 것입니다. 그러나 사람들은 아직 깊고 큰 신경망에 집중하지 않았으며 심지어 신경망에도 전혀 집중하지 않았습니다.

좋은 솔루션을 찾으려면 적당히 큰 데이터 세트와 많은 계산이 필요합니다.

ImageNet이 바로 그 데이터입니다. 당시 ImageNet은 매우 어려운 데이터 세트였지만 대규모 컨볼루션 신경망을 훈련하려면 그에 맞는 컴퓨팅 성능이 있어야 합니다.

다음으로 GPU가 나타날 차례입니다. Jeff Hinton의 제안에 따라 그들은 ImageNet 데이터 세트의 출현으로 컨볼루션 신경망이 GPU에 매우 적합한 모델이므로 매우 빠르게 만들 수 있고 규모가 점점 더 커지고 있다는 것을 발견했습니다.

그러면 이는 이전 방법의 연속을 기반으로 한 것이 아니라 데이터 세트 자체의 난이도와 범위에 있습니다.

OpenAI: 100명에서 ChatGPT까지

OpenAI 초기에 Sutskever는 프로젝트를 홍보하는 방법을 완전히 확신하지 못했다고 솔직하게 인정했습니다.

2016년 초에는 신경망이 그다지 발달하지 않았고 지금보다 연구자 수도 훨씬 적었습니다. Sutskever는 당시 회사에 직원이 100명에 불과했고 그들 대부분은 여전히 Google이나 DeepMind에서 일하고 있었다고 회상했습니다.

하지만 그 당시 그들은 두 가지 큰 아이디어를 가지고 있었습니다.

그 중 하나가 압축을 통한 비지도 학습입니다. 2016년에는 비지도 학습이 머신러닝에서 해결되지 않은 문제였으며 이를 구현하는 방법을 아는 사람이 아무도 없었습니다. 압축은 최근 사람들이 흔히 이야기하는 주제가 아니었는데 갑자기 GPT가 실제로 훈련 데이터를 압축한다는 사실을 모두가 깨달았습니다.

수학적으로 말하면 이러한 자동 회귀 생성 모델을 훈련하면 데이터가 압축되며 직관적으로 작동 이유를 알 수 있습니다. 데이터가 충분히 잘 압축되면 그 안에 있는 모든 숨겨진 정보를 추출할 수 있습니다. 이는 또한 감정 뉴런에 대한 OpenAI의 관련 연구로 직접 이어졌습니다.

동시에 Amazon 리뷰의 다음 문자를 예측하기 위해 동일한 LSTM을 적용했을 때 다음 문자를 충분히 잘 예측하면 LSTM 내에 해당 감정에 해당하는 뉴런이 있다는 것을 발견했습니다. 이는 비지도 학습의 효과를 잘 보여주며 다음 문자 예측에 대한 아이디어도 검증합니다.

하지만 비지도 학습에 대한 데이터는 어디서 얻을 수 있나요? Sutskever는 비지도 학습의 문제점은 데이터보다는 이를 수행하는 이유에 대해 더 많이 설명하고 다음 캐릭터를 예측하기 위해 신경망을 훈련하는 것이 추구하고 탐구할 가치가 있다는 것을 깨닫는 것이라고 말했습니다. 거기에서 이해 가능한 표현을 학습합니다.

또 다른 큰 아이디어는 강화 학습입니다. Sutskever는 항상 더 큰 것이 더 낫다고 믿어왔습니다. OpenAI의 목표 중 하나는 올바른 확장 방법을 찾는 것입니다.

OpenAI가 완성한 첫 번째 대규모 프로젝트는 전략 게임 Dota 2의 구현이었습니다. 당시 OpenAI는 강화학습 에이전트를 훈련시켜 자신과 싸우도록 했습니다. 목표는 일정 수준에 도달하여 인간 플레이어와 게임을 할 수 있게 하는 것이었습니다.

Dota의 강화 학습에서 GPT 출력 기술 기반이 결합된 인간 피드백 강화 학습으로의 전환이 오늘날의 ChatGPT가 되었습니다.

OpenAI가 대규모 신경망을 훈련하는 방법

인터넷의 다양한 텍스트에서 다음 단어를 정확하게 예측하기 위해 대규모 신경망을 훈련할 때 OpenAI가 하는 일은 세계의 모델을 학습하는 것입니다.

텍스트로만 통계적 상관관계를 학습하는 것처럼 보이지만 실제로 이러한 통계적 상관관계를 학습하면 이 지식을 매우 잘 압축할 수 있습니다. 신경망이 학습하는 것은 텍스트를 생성하는 과정에서 몇 가지 표현입니다. 이 텍스트는 실제로 세계의 지도이기 때문에 신경망은 인간과 사회를 보는 관점을 점점 더 많이 배울 수 있습니다. 이는 다음 단어를 정확하게 예측하는 작업에서 신경망이 실제로 학습하는 것입니다.

동시에 다음 단어에 대한 예측이 정확할수록 복원 정도가 높아지며, 이 과정에서 얻은 세계의 해상도도 높아집니다. 이는 사전 훈련 단계의 역할이지만 신경망이 우리가 원하는 대로 작동하도록 만들지는 않습니다.

언어 모델이 실제로 하려는 일은 인터넷에 임의의 텍스트가 있으면 접두사나 힌트로 시작하여 무엇을 완성하는 것입니다.

물론 인터넷에서 텍스트를 찾아 채워 넣을 수도 있지만 이는 원래 고안된 것이 아니므로 여기에는 미세 조정, 인간 교사의 강화 학습 및 기타 형태의 AI 지원이 필요합니다. 활동할 수 있습니다.

그러나 이것은 새로운 지식을 가르치는 것이 아니라 지식과 소통하고 우리가 원하는 것을 전달하는 것입니다. 여기에는 경계도 포함됩니다. 이 프로세스가 더 잘 수행될수록 신경망은 더 유용하고 신뢰할 수 있으며 경계의 충실도는 더 높아집니다.

GPT-4에 대해 다시 이야기합시다

ChatGPT가 가장 빠르게 성장하는 사용자를 보유한 애플리케이션이 된 지 얼마 지나지 않아 GPT-4가 공식적으로 출시되었습니다.

둘의 차이점에 대해 Sutskever는 GPT-4가 ChatGPT에 비해 여러 측면에서 상당한 개선을 이루었다고 말했습니다.

ChatGPT와 GPT-4의 가장 중요한 차이점은 GPT-4를 기반으로 구축하면 더 높은 정확도로 다음 문자를 예측한다는 것입니다. 신경망이 텍스트의 다음 단어를 더 잘 예측할수록 텍스트를 더 잘 이해할 수 있습니다.

예를 들어, 당신이 탐정 소설을 읽었다고 가정해 보겠습니다. 줄거리는 매우 복잡하고 많은 줄거리와 등장인물이 산재해 있으며 신비한 단서가 많이 묻혀 있습니다. 책의 마지막 장에서 형사는 모든 단서를 수집하고 모두를 불러 모아 이제 범인이 누구인지, 그 사람이 누구인지 밝힐 것이라고 하는데...

GPT-4가 예측할 수 있는 것은 이것이다.

사람들은 딥러닝이 논리적 추론을 할 수 없다고 말합니다. 하지만 이 예이든 GPT가 할 수 있는 일이든 어느 정도 추론 능력을 보여줍니다.

Sutskever는 우리가 논리적 추론을 정의할 때, 다음 결정을 내릴 때 어떤 방식으로 생각해 볼 수 있다면 더 나은 답을 얻을 수도 있다고 대답했습니다. 신경망이 얼마나 멀리까지 갈 수 있는지는 아직 알 수 없으며 OpenAI는 아직 그 잠재력을 완전히 활용하지 못했습니다.

실제로 일부 신경망에는 이미 이런 기능이 있지만 대부분은 충분히 신뢰할 수 없습니다. 신뢰성은 이러한 모델을 유용하게 만드는 데 가장 큰 장애물이자 현재 모델의 주요 병목 현상이기도 합니다. 모델에 특정 기능이 있는지 여부가 아니라 얼마나 많은 기능이 있는지가 중요합니다.

Sutskever도 GPT-4가 출시되었을 때 검색 기능이 내장되어 있지 않았다고 말했습니다. 단지 다음 단어를 예측할 수 있는 좋은 도구일 뿐이었지만 이 기능을 완전히 갖추고 있다고 말할 수 있습니다. 검색이 더 잘 됩니다.

GPT-4의 또 다른 중요한 개선 사항은 이미지 응답 및 처리입니다. 다중 모드 학습은 여기서 중요한 역할을 합니다. Sutskever는 다중 모드에는 두 가지 차원이 있다고 말했습니다. 첫 번째는 다중 모드가 신경망, 특히 비전에 유용하다는 것입니다. 이미지에서 배웠습니다.

인공지능의 미래

수츠케버는 AI를 활용해 AI를 훈련할 때 이 부분의 데이터를 무시해서는 안 된다고 말했습니다.

언어 모델의 향후 발전을 예측하기는 어렵지만, Sutskever의 견해에 따르면 이 분야는 계속해서 발전할 것이며 AI는 능력의 경계에서 그 힘으로 계속해서 인류에게 충격을 줄 것이라고 믿을 만한 충분한 이유가 있습니다. AI의 신뢰성은 신뢰할 수 있는지 여부에 따라 결정되며, 미래에는 반드시 완전히 신뢰할 수 있는 지점에 도달할 것입니다.

완전히 이해하지 못하면 질문을 해서 알아내기도 하고, 모른다고 말하기도 합니다. 이러한 부분이 AI 사용성이 가장 큰 영향을 미치고 앞으로 가장 큰 발전을 보일 것입니다. .

이제 우리는 긴 문서를 요약하거나 요약을 얻기 위해 신경망을 원하는 문제에 직면했습니다. 중요한 세부 사항이 간과되지 않았는지 확인하는 방법은 무엇입니까? 모든 독자가 동의할 만큼 중요한 점이 분명하다면 신경망에 의해 요약된 내용을 신뢰할 수 있는 것으로 받아들일 수 있습니다.

신경망이 사용자 의도를 명확하게 따르는지 여부에도 동일하게 적용됩니다.

앞으로 2년 동안 이와 같은 기술이 점점 더 많이 등장하여 이 기술의 신뢰성이 더욱 높아질 것입니다.

관련 보고서: https://blogs.nvidia.com/blog/2023/03/22/sutskever-openai-gtc/

위 내용은 GPT-4는 ChatGPT에 비해 어떤 점이 개선되었나요? Jen-Hsun Huang은 OpenAI 공동 창립자와 '노변 담화'를 가졌습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51cto에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는