>  기사  >  기술 주변기기  >  Deep Thinking | 대형 모델의 역량 경계는 어디입니까?

Deep Thinking | 대형 모델의 역량 경계는 어디입니까?

PHPz
PHPz앞으로
2023-09-08 17:41:051245검색

우리에게 무한한 데이터, 무한한 컴퓨팅 파워, 무한한 모델, 완벽한 최적화 알고리즘, 일반화 성능 등 무한한 자원이 있다면, 결과적으로 사전 학습된 모델을 사용하여 모든 문제를 해결할 수 있을까요?

이것은 모두가 매우 우려하는 질문이지만 기존의 기계 학습 이론으로는 이에 답할 수 없습니다. 모델이 무한하고 표현 능력도 당연히 무한하기 때문에 표현 능력 이론과는 아무런 관련이 없습니다. 또한 알고리즘의 최적화 및 일반화 성능이 완벽하다고 가정하기 때문에 최적화 및 일반화 이론과도 관련이 없습니다. 즉, 이전 이론 연구의 문제는 더 이상 여기에 존재하지 않습니다!

오늘은 제가 ICML'2023에서 발표한 On the Power of Foundation Models 논문을 소개하고, 카테고리 이론의 관점에서 답변을 드리겠습니다.

범주 이론이란 무엇인가요?

수학 전공자가 아니라면 범주론이 낯설 수도 있습니다. 범주 이론은 수학 중의 수학이라 불리며 현대 수학의 기본 언어를 제공합니다. 거의 모든 현대 수학 분야는 대수 위상수학, 대수 기하학, 대수 그래프 이론 등과 같은 범주 이론의 언어로 설명됩니다. 범주 이론은 구조와 관계에 대한 연구입니다. 집합 이론에서 집합은 여러 가지 요소를 포함하며 범주 이론에서는 요소를 기록할 뿐만 아니라 요소 간의 관계도 기록합니다. .

Martin Kuppe는 한때 수학 지도를 그려서 범주 이론을 지도 상단에 배치하여 수학의 모든 분야를 빛나게 했습니다.

深度思考 | 大模型的能力边界在哪里?

범주 이론에 대한 소개가 인터넷에 많이 있습니다. 몇 가지에 대해 간단히 이야기해 보겠습니다. 기본 개념은 다음과 같습니다.

深度思考 | 大模型的能力边界在哪里?

지도 학습의 범주 이론 관점

深度思考 | 大模型的能力边界在哪里?

지난 10년 정도 동안 사람들은 지도 학습 프레임워크에 대해 많은 연구를 수행하여 많은 아름다운 결론을 얻었습니다. 그러나 이 프레임워크는 AI 알고리즘에 대한 사람들의 이해를 제한하므로 사전 훈련된 대규모 모델을 이해하기가 매우 어렵습니다. 예를 들어, 기존 일반화 이론은 모델의 교차 모달 학습 기능을 설명하기 어렵습니다.

深度思考 | 大模型的能力边界在哪里?

입력 및 출력 데이터를 샘플링하여 이 펑터를 학습할 수 있나요?

이 과정에서는 X와 Y 두 범주의 내부 구조를 고려하지 않았습니다. 실제로 지도학습은 카테고리 내의 구조에 대해 어떠한 가정도 하지 않기 때문에 두 카테고리 내의 두 객체 사이에는 아무런 관계도 없다고 볼 수 있다. 그러므로 우리는 X와 Y를 완전히 두 집합으로 간주할 수 있습니다. 이때 일반화 이론의 유명한 공짜 점심 없음 정리는 추가 가정 없이는 (대량 샘플이 없는 한) X에서 Y까지 펑터를 학습하는 것이 불가능하다는 것을 알려줍니다.

深度思考 | 大模型的能力边界在哪里?

얼핏 보면 이 새로운 관점은 쓸모가 없습니다. 카테고리에 제약 조건을 추가하든, 펑터에 제약 조건을 추가하든, 본질적인 차이는 없는 것 같습니다. 사실, 새로운 관점은 기존 프레임워크의 거세된 버전에 더 가깝습니다. 이는 지도 학습에서 매우 중요한 손실 함수 개념을 언급조차 하지 않으며 훈련의 수렴 또는 일반화 속성을 분석하는 데 사용할 수 없습니다. 연산. 그렇다면 우리는 이 새로운 관점을 어떻게 이해해야 할까요?

범주 이론은 조감도를 제공한다고 생각합니다. 이는 그 자체로 더 구체적인 지도 학습 프레임워크를 대체하거나 더 나은 지도 학습 알고리즘을 생성하는 데 사용되어서는 안 됩니다. 대신 지도 학습 프레임워크는 특정 문제를 해결하는 데 사용할 수 있는 도구인 "하위 모듈"입니다. 따라서 범주 이론은 손실 함수나 최적화 절차에 관심이 없습니다. 이는 알고리즘의 구현 세부 사항과 비슷합니다. 카테고리와 펑터의 구조에 더 중점을 두고 특정 펑터가 학습 가능한지 여부를 이해하려고 합니다. 이러한 문제는 기존 지도 학습 프레임워크에서는 매우 어렵지만 카테고리 관점에서는 더 간단해집니다.

자기 지도 학습의 범주 이론 관점

사전 훈련 작업 및 범주

深度思考 | 大模型的能力边界在哪里?

먼저 사전 훈련 작업에서 범주의 정의를 명확히 하겠습니다. 실제로 사전 훈련 작업을 설계하지 않으면 범주의 개체 간에 관계가 없지만 사전 훈련 작업을 설계한 후에는 인간의 사전 지식을 작업 형식으로 범주에 주입합니다. 그리고 이러한 구조는 대형 모델이 소유한 지식이 됩니다.

구체적으로:

深度思考 | 大模型的能力边界在哪里?

즉, 데이터 세트에 대한 사전 학습 작업을 정의한 후 해당 관계 구조를 포함하는 카테고리를 정의합니다. 사전 훈련 작업의 학습 목표는 모델이 이 범주를 잘 학습하도록 하는 것입니다. 구체적으로 이상모델의 개념을 살펴본다.

이상적 모델

深度思考 | 大模型的能力边界在哪里?

여기서 "데이터 독립적"이란 데이터를 보기 전에 이 미리 정의되어 있지만 아래 첨자 f는 f와 를 블랙박스 호출을 통해 사용할 수 있음을 의미합니다. 두 가지 기능. 즉, 는 "간단한" 함수이지만 모델 f의 기능을 활용하여 더 복잡한 관계를 나타낼 수 있습니다. 이는 이해하기 쉽지 않을 수 있습니다. 압축 알고리즘을 비유로 사용해 보겠습니다. 압축 알고리즘 자체는 데이터에 따라 달라질 수 있습니다. 예를 들어 데이터 배포를 위해 특별히 최적화될 수 있습니다. 그러나 데이터 독립적인 함수 에서는 데이터 분포에 액세스할 수 없지만 "압축 알고리즘 호출" 작업이 데이터 독립적이기 때문에 압축 알고리즘을 호출하여 데이터의 압축을 풀 수 있습니다.

다양한 사전 학습 작업에 대해 서로 다르게 정의할 수 있습니다.

:

深度思考 | 大模型的能力边界在哪里?

따라서 다음과 같이 말할 수 있습니다.

사전 학습 과정은 이상적인 모델을 찾는 과정입니다. f.

그러나

이 확실하더라도 정의상 이상적인 모델은 고유하지 않습니다. 이론적으로 모델 f는 매우 지능적일 수 있으며 C에서 데이터를 학습하지 않고도 무엇이든 할 수 있습니다. 이 경우 f 의 기능에 대해 의미 있는 설명을 할 수 없습니다. 따라서 문제의 다른 측면을 살펴봐야 합니다.

사전 훈련된 작업으로 정의된 카테고리 C가 있고 이상적인 f에 대해 어떤 작업을 해결할 수 있습니까?

이것이 이 글의 시작 부분에서 우리가 대답하고 싶은 핵심 질문입니다. 먼저 중요한 개념을 소개하겠습니다.

Yoneda 임베딩

深度思考 | 大模型的能力边界在哪里?

深度思考 | 大模型的能力边界在哪里?

다른 이상 모델 f가 주어지면

의 모든 관계도 f에 포함되므로 가 최소 능력 이상 모델임을 쉽게 알 수 있습니다. 동시에, 다른 추가적인 가정 없이 사전 학습된 모델 학습이 궁극적인 목표이기도 합니다. 따라서 핵심 질문에 답하기 위해 아래의 을 구체적으로 고려합니다.

신속한 튜닝: 더 많이 보아야만 더 많은 것을 배울 수 있습니다

深度思考 | 大模型的能力边界在哪里?

특정 과제를 해결할 수 있나요 T? 이 질문에 답하기 위해 먼저 범주 이론에서 가장 중요한 정리 중 하나를 소개합니다.

Yoneda Lemma

深度思考 | 大模型的能力边界在哪里?

즉,

이 두 표현을 사용하여 T(X)를 계산할 수 있습니다. 그러나 작업 프롬프트 P는 대신 을 통해 전송되어야 합니다. 즉, 에 대한 입력으로 T 대신 (P)를 받게 됩니다. 이는 범주 이론의 또 다른 중요한 정의로 이어집니다.

深度思考 | 大模型的能力边界在哪里?

이 정의를 바탕으로 다음 정리를 얻을 수 있습니다(증명 생략).

정리 1 및 추론

深度思考 | 大模型的能力边界在哪里?

튜닝 알고리즘에 대한 일부 힌트가 반드시 카테고리 C의 개체는 아니지만 기능 공간의 표현일 수 있다는 점은 언급할 가치가 있습니다. 이 접근 방식은 표현 가능한 작업보다 더 복잡한 작업을 지원할 가능성이 있지만 기능 향상은 기능 공간의 표현력에 따라 달라집니다. 아래에서는 정리 1의 간단한 결과를 제공합니다.

Corollary 1. 이미지 회전 각도를 예측하는 사전 학습 작업의 경우 [4] 신속한 조정으로는 분할 또는 분류와 같은 복잡한 다운스트림 작업을 해결할 수 없습니다.

증명: 이미지 회전 각도를 예측하는 사전 학습 작업은 주어진 이미지를 0°, 90°, 180°, 270°의 네 가지 각도로 회전하고 모델이 예측할 수 있도록 합니다. 따라서 이 사전 훈련 작업에 의해 정의된 범주는 각 개체를 4개 요소 그룹에 배치합니다. 분명히 분할이나 분류와 같은 작업은 이러한 단순한 개체로 표현할 수 없습니다.

정리 1은 약간 반직관적입니다. 원래 논문에서 이 방법을 사용하여 얻은 모델이 분류 또는 분할과 같은 다운스트림 작업을 부분적으로 해결할 수 있다고 언급한 [4] 때문입니다. 그러나 우리의 정의에 따르면 작업을 해결한다는 것은 모델이 모든 입력에 대해 올바른 출력을 생성해야 함을 의미하므로 부분적으로 올바른 것은 성공으로 간주되지 않습니다. 이는 기사 시작 부분에서 언급한 질문과도 일치합니다. 무제한 리소스를 지원하면 이미지 회전 각도를 예측하는 사전 훈련된 작업을 사용하여 복잡한 다운스트림 작업을 해결할 수 있습니까? 결과 1은 부정적인 대답을 제공합니다.

미세 조정 : 정보 손실 없이 표현

조율 능력에는 한계가 있다는 꿀팁, 그렇다면 미세 조정 알고리즘은 어떨까요? Yoneda 펑터 확장 정리([5]의 명제 2.7.1 참조)를 기반으로 다음 정리를 얻을 수 있습니다.

深度思考 | 大模型的能力边界在哪里?

정리 2는 데이터 세트의 데이터 내용보다는 C의 구조를 기반으로 다운스트림 작업을 고려합니다. 따라서 앞에서 언급한 회전된 이미지의 각도를 예측하는 사전 학습 작업에 의해 정의된 카테고리는 여전히 매우 간단한 그룹 구조를 가지고 있습니다. 그러나 정리 2에 따르면 이를 사용하여 보다 다양한 작업을 해결할 수 있습니다. 예를 들어 모든 개체를 동일한 출력에 매핑할 수 있지만 이는 힌트 조정으로는 불가능합니다. 정리 2는 사전 훈련 작업의 중요성을 명확히 합니다. 더 나은 사전 훈련 작업은 더 강력한 범주 C를 생성하여 모델의 미세 조정 잠재력을 더욱 향상시키기 때문입니다.

정리 2에 대해 흔히 두 가지 오해가 있습니다. 우선, 카테고리 C에 많은 양의 정보가 포함되어 있다고 하더라도 정리 2는 C에 모든 정보를 기록하고 어떤 문제든 해결할 수 있는 잠재력을 가지고 있다는 대략적인 상한선만 제공할 뿐, 전혀 그렇지 않다고는 말하지 않습니다. 미세 조정 알고리즘을 사용하면 이 목표를 달성할 수 있습니다. 둘째, 정리 2는 언뜻 보면 지나치게 매개변수화된 이론처럼 보입니다. 그러나 그들은 자기 지도 학습의 다양한 단계를 분석합니다. 모수적 분석은 사전 훈련 단계입니다. 즉, 특정 가정 하에서 모델이 충분히 크고 학습률이 충분히 작은 한 사전 훈련 작업에 대한 최적화 및 일반화 오류가 매우 작다는 것을 의미합니다. 정리 2는 사전 훈련 후 미세 조정 단계를 분석하여 이 단계가 큰 잠재력을 가지고 있다고 말합니다.

토론 및 요약

지도 학습과 자기 지도 학습. 기계 학습 관점에서 자기 지도 학습은 여전히 ​​지도 학습의 한 유형이지만 레이블을 얻는 방법은 더 영리합니다. 그러나 범주 이론의 관점에서 볼 때 자기 지도 학습은 범주 내의 구조를 정의하는 반면 지도 학습은 범주 간의 관계를 정의합니다. 그러므로 그들은 인공지능 지도의 서로 다른 부분에 있고 완전히 다른 일을 하고 있습니다.

深度思考 | 大模型的能力边界在哪里?

적용 가능한 시나리오. 이 기사의 시작 부분에서 무한한 자원의 가정을 고려했기 때문에 많은 친구들은 이러한 이론이 공허함 속에서만 실제로 확립될 수 있다고 생각할 수도 있습니다. 그렇지 않다. 실제 파생 과정에서는 이상적인 모델과 미리 정의된 함수 만 고려했습니다. 실제로 이 결정되는 한 사전 훈련된 모든 모델 f(임의의 초기화 단계에서도)는 입력 XC에 대해 f(X)를 계산할 수 있으므로 를 사용하여 두 개체 간의 관계를 계산할 수 있습니다. 즉, 이 결정되는 한 사전 학습된 각 모델은 카테고리에 해당하며 사전 학습의 목표는 이 카테고리를 사전 학습 작업 에서 정의한 카테고리 과 지속적으로 정렬하는 것입니다. 따라서 우리의 이론은 사전 훈련된 모든 모델에 적용됩니다.

핵심 공식. 많은 사람들은 AI가 실제로 일련의 이론적 뒷받침을 갖고 있다면 그 뒤에는 하나 이상의 간단하고 우아한 공식이 있어야 한다고 말합니다. 대형 모델의 성능을 설명하기 위해 카테고리 이론 공식을 사용해야 한다면 앞서 언급한 대로여야 한다고 생각합니다.

深度思考 | 大模型的能力边界在哪里?

대형 모델에 익숙한 친구들을 위해, 그 의미를 깊이 이해한 후 이 공식은 말도 안되는 공식이라고 생각할 수도 있지만, 이는 상대적으로 복잡한 수학 공식을 사용하여 현재 대형 모델의 작동 모드를 표현한 것뿐입니다.

하지만 그렇지 않습니다. 현대과학은 수학을 기반으로 하고, 현대 수학은 범주론을 기반으로 하며, 범주론에서 가장 중요한 정리는 요네다의 보조정리이다. 제가 작성한 공식은 요네다 보조정리의 동형을 비대칭 버전으로 분해한 것인데, 대형 모델을 여는 방식과 완전히 동일합니다.

이건 우연이 아닐 것 같아요. 범주 이론이 현대 수학의 다양한 분야를 밝힐 수 있다면 일반 인공 지능이 나아갈 길도 밝힐 수 있습니다.

이 기사는 베이징 Zhiyuan 인공 지능 연구소의 Qianfang 팀과의 장기적이고 긴밀한 협력에서 영감을 받았습니다.

深度思考 | 大模型的能力边界在哪里?

원본 링크: https://mp.weixin.qq.com/s/bKf3JADjAveeJDjFzcDbkw

위 내용은 Deep Thinking | 대형 모델의 역량 경계는 어디입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제