>  기사  >  기술 주변기기  >  과도한 해석을 피하기 위해 대규모 모델을 도입하는 쉽고 객관적인 방법

과도한 해석을 피하기 위해 대규모 모델을 도입하는 쉽고 객관적인 방법

王林
王林앞으로
2023-05-12 18:13:06941검색

1. 소개

이 글의 목적은 컴퓨터 공학 배경 지식이 없는 독자에게 ChatGPT 및 이와 유사한 인공 지능 시스템(예: GPT-3, GPT-4, Bing Chat, Bard 등)의 작동 방식에 대한 몇 가지 원칙을 제공하는 것입니다. ChatGPT는 대화형 상호작용을 위해 대규모 언어 모델을 기반으로 구축된 챗봇입니다. 이러한 용어는 모호할 수 있으므로 설명하겠습니다. 동시에 우리는 그 뒤에 있는 핵심 개념에 대해 논의할 것이며, 이 기사에서는 독자에게 기술적 또는 수학적 배경 지식이 필요하지 않습니다. 관련 개념을 더 잘 이해하기 위해 비유를 많이 사용하여 관련 개념을 설명할 것입니다. 또한 이러한 기술의 의미와 ChatGPT와 같은 대규모 언어 모델을 사용하여 수행할 수 있는 작업과 수행할 수 없는 작업에 대해 논의합니다.

다음으로, 전문적인 전문 용어를 최대한 사용하지 않는 방식으로 기본적인 "인공지능이란 무엇인가"부터 시작하여, 점차적으로 대형 언어 모델 및 ChatGPT와 관련된 용어와 개념에 대해 심도있게 논의하고 비유를 사용할 것입니다. 그들을 설명하기 위해. 동시에 이러한 기술이 무엇을 의미하는지, 그리고 기술이 무엇을 할 수 있을 것으로 기대해야 하는지, 기대하지 말아야 하는지에 대해서도 이야기하겠습니다.

2. 인공지능이란 무엇인가

먼저, 자주 들을 수 있는 기본 용어부터 시작하겠습니다. 그렇다면 인공지능이란 무엇인가?

인공지능: 인간이 지능적이라고 생각하는 것과 유사한 행동을 보일 수 있는 개체를 말합니다. 인공지능을 정의하기 위해 '지능'을 사용하는 데에는 몇 가지 문제가 있습니다. '지능' 자체에는 명확한 정의가 없기 때문입니다. 그러나 이 정의는 여전히 적절합니다. 이는 기본적으로 흥미롭고 유용하며 겉으로는 어려워 보이는 행동을 수행하는 인간이 만든 것을 본다면 그것이 지능적이라고 말할 수 있다는 것을 의미합니다. 예를 들어, 컴퓨터 게임에서는 컴퓨터로 제어되는 캐릭터를 “AI”라고 부르는 경우가 많습니다. 이러한 역할의 대부분은 if-then-else 코드(예: "플레이어가 범위 내에 있으면 발사하고, 그렇지 않으면 가장 가까운 돌로 이동하여 숨습니다")를 기반으로 하는 간단한 프로그램입니다. 그러나 캐릭터가 명백히 어리석은 일을 하지 않으면서 우리를 계속 참여시키고 즐겁게 할 수 있다면, 우리는 그 캐릭터가 실제보다 더 복잡하다고 생각할 수도 있습니다.

무엇이 어떻게 작동하는지 이해하고 나면 그것이 마술적이라고 생각하지 않을 수도 있지만 그 이면에는 더 복잡한 것이 있을 것으로 예상합니다. 그것은 모두 우리가 뒤에서 무슨 일이 일어나고 있는지 얼마나 잘 아는지에 달려 있습니다.

중요한 것은 인공지능이 마법이 아니라는 점입니다. 그것은 마술이 아니기 때문에 설명이 가능하다.

3. 머신러닝이란 무엇인가요

인공지능과 자주 연관되는 또 다른 용어는 머신러닝입니다.

머신러닝: 데이터를 수집하고 모델을 구성한 후 모델을 실행하여 행동을 생성하는 방법입니다. 때로는 복잡한 현상(예: 언어)을 포착하기 위해 여러 개의 if-then-else 문을 수동으로 생성하는 것이 어려울 수 있습니다. 이 경우 우리는 대량의 데이터를 찾고 데이터에서 패턴을 찾을 수 있는 알고리즘을 사용하여 이를 모델링하려고 합니다.

그럼 모델이란 무엇일까요? 모델은 복잡한 현상을 단순화한 버전입니다. 예를 들어, 자동차 모델은 실제 자동차의 많은 속성을 공유하는 실제 자동차의 더 작고 간단한 버전이지만 물론 원래 버전을 완전히 대체할 수는 없습니다. 모형 자동차는 사실적으로 보일 수 있으며 실험할 때 유용합니다.

과도한 해석을 피하기 위해 대규모 모델을 도입하는 쉽고 객관적인 방법

더 작고 단순한 자동차를 만들 수 있는 것처럼 더 작고 단순한 인간 언어 모델도 만들 수 있습니다. 이러한 모델은 사용해야 하는 메모리(비디오 메모리) 양의 관점에서 볼 때 매우 크기 때문에 "대형 언어 모델"이라는 용어를 사용합니다. ChatGPT, GPT-3, GPT-4 등 현재 생산 중인 가장 큰 모델은 크기가 너무 커서 생성 및 실행을 위해 데이터 센터 서버에서 실행되는 슈퍼컴퓨터가 필요합니다.

4. 신경망이란 무엇인가요?

데이터를 통해 모델을 학습하는 방법에는 여러 가지가 있으며, 신경망도 그 중 하나입니다. 이 기술은 인간 두뇌의 구조를 대략적으로 기반으로 하며, 두뇌 사이에 전기 신호를 전달하는 일련의 상호 연결된 뉴런으로 구성되어 있어 다양한 작업을 완료할 수 있습니다. 신경망의 기본 개념은 1940년대에 발명되었고, 신경망을 훈련시키는 방법에 대한 기본 개념은 1980년대에 발명되었습니다. 당시 신경망은 2017년쯤 컴퓨터 하드웨어가 업그레이드되고 나서야 매우 비효율적이었습니다. 대규모로 사용할 수 있습니다.

그러나 저는 개인적으로 신경망을 시뮬레이션하기 위해 회로라는 비유를 사용하는 것을 선호합니다. 저항, 즉 전선을 통한 전류의 흐름을 통해 신경망의 작동을 시뮬레이션할 수 있습니다.

우리가 고속도로에서 운전할 수 있는 자율주행차를 만들고 싶다고 상상해 보세요. 차량의 전면, 후면, 측면에 거리 센서를 설치했습니다. 거리 센서는 물체가 접근하면 1의 값을 보고하고 근처에 감지할 수 있는 물체가 없으면 0의 값을 보고합니다.

핸들 조작, 브레이크 조작, 가속 조작을 위한 로봇도 설치했어요. 스로틀 값이 1이면 최대 가속도를 사용하고, 값이 0이면 가속이 없음을 의미합니다. 마찬가지로 제동 메커니즘에 값 1이 전송되면 긴급 제동을 의미하고 0은 제동이 없음을 의미합니다. 조향 메커니즘은 -1에서 +1 사이의 값을 허용하며, 음수는 좌회전을 나타내고 양수는 우회전을 나타내고 0은 직선을 나타냅니다.

물론 운전 데이터를 기록해야 합니다. 전방의 경로가 명확해지면 속도가 빨라집니다. 앞에 차가 있으면 속도를 줄입니다. 왼쪽에서 차가 너무 가까워지면 당연히 오른쪽에 차가 없다고 가정하고 오른쪽으로 방향을 틀어 차선을 변경합니다. 이 프로세스는 매우 복잡하고 센서 정보의 다양한 조합을 기반으로 다양한 작업(좌회전, 우회전, 가속 또는 감속, 제동)이 필요하므로 각 센서를 각 로봇 메커니즘에 연결해야 합니다.

과도한 해석을 피하기 위해 대규모 모델을 도입하는 쉽고 객관적인 방법

도로에서 운전하면 어떻게 되나요? 모든 센서에서 모든 로봇 액추에이터로 전류가 흐르고 차량은 좌회전, 우회전, 가속 및 제동을 동시에 수행합니다. 그것은 혼란을 야기할 것이다.

과도한 해석을 피하기 위해 대규모 모델을 도입하는 쉽고 객관적인 방법

특정 센서와 특정 로봇 팔 사이에 전류가 더 자유롭게 흐를 수 있도록 저항기를 꺼내 회로의 다른 부분에 배치하기 시작하세요. 예를 들어 전류가 조향 메커니즘보다 전면 근접 센서에서 브레이크로 더 자유롭게 흐르기를 원합니다. 또한 스위치를 트리거하기에 충분한 전하가 축적될 때까지 전류 흐름을 차단하거나(전면 및 후면 근접 센서가 모두 높은 숫자를 보고할 때만 전류가 흐르도록 허용) 게이트라는 요소를 설치했습니다. 입력 전력 강도가 낮을 ​​때 전력을 앞으로 보냅니다(전방 근접 센서가 낮은 값을 보고하면 가속기에 더 많은 전력을 보냅니다).

그런데 이 저항기와 게이트를 어디에 배치해야 할까요? 나도 모른다. 다양한 위치에 무작위로 배치하세요. 그런 다음 다시 시도해 보세요. 아마도 이번에는 차가 더 잘 운전할 수도 있습니다. 즉, 데이터가 브레이크를 밟고 조향하는 것이 가장 좋다고 말할 때 가끔 브레이크를 밟고 조향하지만 매번 제대로 작동하지는 않는다는 뜻입니다. 그리고 더 나쁜 일이 몇 가지 있습니다(데이터에 따르면 때때로 브레이크를 밟아야 함을 시사하면 가속됩니다). 그래서 우리는 저항기와 게이트의 다양한 조합을 무작위로 계속 시도했습니다. 결국 우리는 충분히 좋은 조합을 발견하고 성공을 선언하게 될 것입니다. 예를 들어, 다음 조합:

과도한 해석을 피하기 위해 대규모 모델을 도입하는 쉽고 객관적인 방법

(실제로는 문을 추가하거나 제거하지 않지만, 더 낮은 에너지로 아래에서 활성화할 수 있도록 문을 수정하거나 아래에서 출력하려면 더 많은 에너지가 필요하도록 수정하겠습니다. 또는 아래에 에너지가 거의 없을 때만 많은 에너지를 방출합니다. 기술적으로 이것은 게이트의 바이어스를 조정하여 수행됩니다. 일반적으로 이와 같은 다이어그램에는 표시되지 않습니다. 회로 비유적 관점에서는 전원 공급 장치에 직접 연결되는 케이블로 생각할 수 있으며 다른 모든 케이블과 마찬가지로 변형이 가능합니다. )

과도한 해석을 피하기 위해 대규모 모델을 도입하는 쉽고 객관적인 방법

무작위로 시도하는 것은 좋지 않습니다. 역전파(backpropagation)라는 알고리즘은 회로 구성 변경에 대해 매우 좋은 추측을 제공합니다. 알고리즘의 세부 사항은 중요하지 않습니다. 데이터가 제안하는 것과 더 가깝게 동작하도록 회로를 미세 조정하고 수천 번의 미세 조정 후에 결국 데이터와 일치하는 결과를 얻을 수 있다는 점만 알아두세요.

저항과 게이트는 실제로 어디에나 있기 때문에 매개변수라고 부르며, 역전파 알고리즘은 각 저항이 더 강하거나 약하다고 선언합니다. 따라서 회로의 레이아웃과 매개변수 값을 알면 전체 회로를 다른 자동차에 복제할 수 있습니다.

위 내용은 과도한 해석을 피하기 위해 대규모 모델을 도입하는 쉽고 객관적인 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제