
AIxiv 칼럼은 본 사이트에 학술적, 기술적인 내용을 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
논문 제목: 대형 언어 모델의 평생 학습을 향하여: 설문조사 기관: 중국 남부 공과대학 대학 논문 주소: https://arxiv.org/abs/2406.06391 프로젝트 주소: https://github .com/ qianlima-lab/awesome-lifelong-learning-methods-for-llm
소설 분류: 소개 평생 학습에 관한 광범위한 문헌을 12가지 시나리오로 나누는 상세한 구조적 프레임워크가 개발되었습니다. 보편적 기법: 모든 평생 학습 상황에 대한 공통 기법이 식별되어 존재합니다. 각 시나리오의 기술 그룹 향후 방향: LLM 이전 시대에는 덜 탐구되었던 모델 확장 및 데이터 선택과 같은 일부 새로운 기술에 중점을 둡니다.
내부 지식은 지속적인 사전 훈련 및 지속적인 미세 조정을 포함한 전체 또는 부분 훈련을 통해 모델 매개변수에 새로운 지식을 흡수하는 것을 의미합니다. -
외부 지식이란 검색 기반 평생학습, 평생학습 도구 등 모델 매개변수를 업데이트하지 않고 위키피디아나 응용 프로그램 인터페이스 등 외부 리소스의 새로운 지식을 모델에 통합하는 것을 말합니다.
- 지속적인 수직 도메인 사전 훈련: 특정 수직 분야(예: 금융, 의료 등)용.
- 지속적 언어 영역 사전 학습: 자연어 및 코드 언어에 대한 지속적인 사전 학습입니다.
- 지속적인 시간 영역 사전 학습: 시간 관련 데이터(예: 시계열 데이터)에 대한 지속적인 사전 학습입니다.
- 특정 작업:
- 지속적인 텍스트 분류: 텍스트 분류 작업을 위한 지속적인 미세 조정입니다.
- 지속적인 명명된 엔터티 인식: 명명된 엔터티 인식 작업을 위한 지속적인 미세 조정입니다.
- 지속적 관계 추출: 관계 추출 작업을 위한 지속적인 미세 조정입니다.
- 지속적인 기계 번역: 기계 번역 작업을 위한 지속적인 미세 조정입니다.
- 작업 불가지론:
- 지속적인 학습 조정: 모델의 지속적인 학습은 학습 미세 조정을 통해 이루어집니다.
- 지속적인 지식 편집: 지식 업데이트를 위한 지속적인 학습입니다.
- 지속적 정렬: 새로운 작업에 모델을 정렬하기 위한 지속적인 학습입니다.
- 전체 측정: 평균 정확도(AA) 및 평균 포함 증분 정확도(AIA). AA는 모든 작업을 학습한 후 모델의 평균 성능을 의미하고, AIA는 각 작업을 학습한 후 과거 변화를 고려합니다.
- 안정성 측정: FGT(망각 측정) 및 BWT(역방향 전송) 포함. FGT는 이전 작업의 평균 성능 저하를 평가하고, BWT는 이전 작업의 평균 성능 변화를 평가합니다.
- 가소성 측정: 새로운 작업에 대한 모델 성능의 평균 향상인 순방향 전달(FWD)을 포함합니다.
의미: 이 방법은 새 작업을 훈련할 때 사용됩니다. 이전 작업의 데이터를 재생하여 모델의 오래된 작업 기억. 일반적으로 재생된 데이터는 버퍼에 저장되어 현재 작업의 데이터와 함께 학습에 사용됩니다. 주로 다음을 포함합니다:
– 경험 재생: 이전 작업의 데이터 샘플 중 일부를 저장하고 새로운 작업 발생을 훈련할 때 이러한 데이터를 훈련에 재사용하여 망각을 줄입니다.
– 생성적 재생: 이전 데이터를 저장하는 것과 달리 이 방법은 생성 모델을 사용하여 의사 샘플을 생성함으로써 이전 작업에 대한 지식을 새 작업 학습에 도입합니다.
그림 3은 Task t-1에서 Task t까지의 과정을 보여줍니다. , 버퍼에 있는 이전 데이터(입력 t-1 )가 사용됩니다.
- 의미: 이 방법은 모델 매개변수에 정규화 제약 조건을 적용하여 새 작업을 학습할 때 모델이 이전 작업 매개변수를 과도하게 조정하는 것을 방지합니다. 정규화 제약 조건은 모델이 이전 작업의 메모리를 유지하는 데 도움이 될 수 있습니다. 주로 다음을 포함합니다:
- 그림 3은 Task
t-1에서 Task t까지의 과정을 보여줍니다. , Task t-1의 성능을 유지하기 위해 매개변수 정규화를 사용합니다.
(c) 아키텍처 기반 방법:
- 의미: 이 접근 방식은 이전에 학습한 지식과의 간섭을 최소화하면서 새로운 작업을 원활하게 통합하기 위해 모델 구조를 조정하는 데 중점을 둡니다. 여기에는 주로 그림 4의 6가지 방법이 포함됩니다.
- –(a) 프롬프트 조정: 모델 입력 앞에 "소프트 프롬프트"를 추가하여 모델 생성 또는 분류 작업을 안내합니다. 이 방법은 모델의 백본 구조를 변경하지 않고 소수의 매개변수(예: 프롬프트 단어)만 조정하면 됩니다.
–(b) 접두사 조정: 훈련된 조정 가능한 매개변수를 입력 시퀀스의 접두사 부분에 추가합니다. 이러한 매개변수는 모델이 상황별 정보를 더 잘 캡처하는 데 도움이 되도록 Transformer 레이어의 self-attention 메커니즘에 삽입됩니다.
–(c) Low-Rank Adaptation(LoRA, Low-Rank Adaptation): LoRA는 대형 모델의 주요 가중치를 변경하지 않고 특정 수준에 하위 행렬을 추가하여 새로운 작업에 적응합니다. 이 접근 방식은 모델 성능을 유지하면서 매개변수 조정 횟수를 크게 줄입니다.
–(d) 어댑터: 어댑터는 모델의 여러 레이어 사이에 삽입된 학습 가능한 모듈입니다. 이러한 모듈은 원래 모델 가중치를 변경하지 않고 소수의 추가 매개변수로 적응할 수 있습니다. 일반적으로 FFN(Feed Forward Network) 및 MHA(Multi-Head Attention) 부분에 적용됩니다.
–(e) 전문가 혼합: 모델의 특정 계층 또는 하위 네트워크일 수 있는 특정 "전문가" 모듈을 선택적으로 활성화하여 다양한 입력을 처리합니다. 라우터 모듈은 활성화해야 할 전문가 모듈을 결정하는 역할을 담당합니다.
–(f) 모델 확장: 원본 레이어(Old Layer)를 유지하면서 새 레이어(New Layer)를 추가하여 모델의 용량을 확장합니다. 이 접근 방식을 통해 모델은 보다 복잡한 작업 요구 사항을 수용할 수 있도록 용량을 점진적으로 늘릴 수 있습니다.
그림: 그림 3은 Task t-1에서 Task t까지의 과정을 보여줍니다. 모델이 새로운 작업을 학습하면 일부 매개변수가 동결됩니다. 새로 추가된 모듈은 새로운 작업을 훈련하는 데 사용됩니다(Trainable).
의미: 이 방법은 지식 증류를 통해 이전 모델의 지식을 새 모델로 전달합니다. 새 작업을 훈련할 때 새 모델은 현재 작업의 데이터를 학습할 뿐만 아니라 이전 작업에 대해 이전 모델의 출력을 모방하여 이전 작업에 대한 지식을 유지합니다. 주로 다음을 포함합니다:
그림: 그림 3은 작업 t-1에서 작업 t으로의 전환을 보여줍니다. 프로세스에서 모델이 새로운 작업을 훈련할 때 이전 모델의 예측 결과를 모방하여 이전 작업에 대한 지식을 유지합니다.
예: CorpusBrain++는 백본 어댑터 아키텍처와 경험 재생 전략을 사용하여 실제 지식 집약적인 언어 작업을 처리합니다. 예: Med-PaLM은 소수의 예를 사용하여 의료 분야의 지시 프롬프트 튜닝을 도입합니다.
예: ELLE 기존 사전 학습된 언어 모델의 폭과 깊이를 유연하게 확장하여 지식 획득 및 통합의 효율성을 높이기 위해 기능 보존 모델 확장 전략을 채택합니다. 예: LLaMA Pro는 Transformer 블록을 확장하고 새로운 코퍼스로 미세 조정하여 일반 사용, 프로그래밍 및 수학 작업에 탁월합니다.
-
예: Gupta et al.이 제안한 전략은 새로운 데이터 세트를 도입할 때 학습률을 조정하여 장기 훈련 중에 학습률이 너무 낮아지는 것을 방지함으로써 새로운 데이터 세트에 대한 적응 효과를 향상시킵니다.
예: RHO -1은 훈련 프로세스에 더 큰 영향을 미치는 토큰의 우선순위를 지정하는 SLM(선택적 언어 모델)로 훈련됩니다. 예: EcomGPT-CT는 반구조화된 전자상거래 데이터를 사용하여 도메인별 작업에 대한 모델 성능을 향상합니다.
예: Yadav 등은 교사 강제 메커니즘을 도입하여 새로운 작업에 대한 모델의 미세 조정을 안내하는 프롬프트 세트를 생성하여 프롬프트 조정을 개선합니다. 예: ModuleFormer와 Lifelong-MoE는 전문가 혼합(MoE) 접근 방식을 사용하여 모듈화 및 동적으로 모델 용량 증가를 통해 LLM의 효율성과 적응성을 향상합니다.
-
예: Ibrahim et al.이 제안한 재가열 방법은 새로운 데이터를 훈련할 때 학습 속도를 일시적으로 높여 모델이 새로운 언어에 더 빠르게 적응하도록 돕습니다.
예: 지속적인 텍스트 분류 작업은 변화하는 분류 요구 사항에 적응할 수 있도록 새로운 분류 범주(예: 의도: 전송 -> 의도: 신용 점수 -> 의도: 재미있는 사실)를 점진적으로 도입하여 모델을 교육합니다.
예 : 지속적인 명명된 엔터티 인식 작업은 특정 엔터티를 인식하면서 새로운 엔터티 유형(예: 운동선수 -> 스포츠팀 -> 정치인)을 점진적으로 도입하는 방법을 보여 주므로 모델은 새로운 엔터티 능력을 인식하면서 이전 엔터티에 대한 인식을 계속 유지할 수 있습니다. .
예: 지속적인 관계 추출 작업은 새로운 관계 유형(예: 관계: 설립자 -> 관계: 출생지 또는 도 -> 관계: 본사 국가)을 지속적으로 도입하여 모델이 관계 추출 기능을 점진적으로 확장하는 방법을 보여줍니다.
예: 지속적인 지식 편집 작업을 통해 모델의 지식 기반(예: 미국 대통령은 누구입니까? -> 크리스티아누 호날두가 현재 어느 클럽에서 뛰고 있습니까? -> 지난 겨울은 어디였습니까?)을 지속적으로 업데이트하여 최신 사실에 정확하게 답할 수 있습니다. 올림픽 개최?).
예: 지속적인 기계 번역 작업은 모델의 번역 기능을 다양한 언어(예: 영어 -> 중국어, 영어 -> 스페인어, 영어 -> 프랑스어)로 점진적으로 확장하여 다국어 환경에서 모델의 적응성을 보여줍니다.
예: 지속적인 지침 미세 조정 작업은 새로운 지침 유형(예: 요약 -> 스타일 전송 -> 수학)을 점진적으로 도입하여 여러 작업 유형에서 모델의 성능 능력을 훈련합니다.
예: 연속 정렬 작업은 새로운 정렬 목표(예: 유용하고 무해함 -> 간결하고 조직적 -> 긍정적인 감정)를 도입하여 다양한 도덕적 및 행동 표준 하에서 모델의 지속적인 학습 기능을 보여줍니다.
はじめに: 世界中の情報が増え続ける中、スケールアップと進化過去のデータに基づいてトレーニングされた静的モデルはすぐに古くなり、新しい開発に関するコンテンツを理解したり生成したりできなくなります。検索ベースの生涯学習は、大規模な言語モデルが外部ソースから最新の知識を取得して吸収するという重要なニーズに対応し、モデルは必要に応じてこれらの外部リソースを取得することで知識ベースを補完または更新します。これらの外部リソースは、現在の大規模な知識ベースを提供し、事前トレーニングされた LLM の静的特性を強化するための重要な補完的な資産を提供します。 例: 図内のこれらの外部リソースは、モデルからアクセスおよび取得できます。ウィキペディア、書籍、データベースなどの外部情報ソースにアクセスすることで、モデルは知識を更新し、新しい情報に遭遇したときに適応することができます。
はじめに: ツールベースの生涯学習は、その機能を静的な知識を超えて拡張し、環境と動的に対話できるようにする必要性から生まれました。実際のアプリケーションでは、モデルは多くの場合、直接的なテキストの生成や解釈を超える操作を含むタスクを実行する必要があります。 例: 図のモデルは、これらのツールを使用して自身の機能を拡張および更新し、外部ツールとの対話を通じて生涯学習を可能にします。たとえば、モデルはアプリケーション プログラミング インターフェイスを通じてリアルタイム データを取得したり、物理ツールを通じて外部環境と対話して特定のタスクを完了したり、新しい知識を取得したりできます。
壊滅的な忘却: これは生涯学習の中核的な課題の 1 つであり、新しい情報の導入により上書きされる可能性があります。モデルが以前に学習したこと。 可塑性と安定性のジレンマ: モデルの学習能力と安定性の維持の間のバランスを見つけることが非常に重要であり、これはモデルが新しい知識を保持しながら新しい知識を獲得する能力に直接影響します。幅広い一般的な能力。 高額な計算コスト: 大規模な言語モデルを完全に微調整するための計算要件は非常に高くなる可能性があります。 モデルの重みや事前トレーニングされたデータが利用できない: プライバシー、独自の制限、または商用ライセンスのため、生のトレーニング データやモデルの重みは、さらなる改善のために利用できないことがよくあります。
特定のタスクから一般的なタスクへ: 研究は、特定のタスク (テキスト分類、固有表現認識など) から、命令調整、知識編集などのより広範囲の一般的なタスクに徐々に移行していきます。 完全な微調整から部分的な微調整へ: 完全な微調整、部分的な微調整戦略 (アダプター層、プロンプト チューニング、 LoRA) の人気はますます高まっています。 内部知識から外部知識へ: 頻繁な内部更新の制限を克服するために、検索拡張生成やツールなどの外部知識ソースを使用する戦略が増えています。学習によりモデルが可能になります。現在の外部データに動的にアクセスして活用します。
マルチモーダル生涯学習: テキストを超えた複数のモダリティ (画像、ビデオ、オーディオ、時系列データ、ナレッジ グラフなど) を生涯学習に統合し、より包括的で適応性のある性モデルを開発します。 効率的な生涯学習: 研究者たちは、モデルの枝刈り、モデルの結合、モデルの拡張、その他の方法など、モデルのトレーニングと更新の計算要件を管理するためのより効率的な戦略の開発に取り組んでいます。 普遍的な生涯学習: 最終的な目標は、大規模な言語モデルが、静的なデータセットのみに依存することなく、新しい知識を積極的に獲得し、環境との動的な相互作用を通じて学習できるようにすることです。
위 내용은 200개 이상의 관련 연구를 집대성한 대형 모델 '평생 학습'의 최신 리뷰는 여기의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

소개 파이썬 기능에서 변수의 네임 스페이스, 범위 및 동작을 이해하는 것은 효율적으로 작성하고 런타임 오류 또는 예외를 피하는 데 중요합니다. 이 기사에서는 다양한 ASP를 탐구 할 것입니다

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

제품 케이던스를 계속하면서 이번 달 Mediatek은 새로운 Kompanio Ultra and Dimensity 9400을 포함한 일련의 발표를했습니다. 이 제품은 스마트 폰 용 칩을 포함하여 Mediatek 비즈니스의 전통적인 부분을 채우고 있습니다.

#1 Google은 Agent2agent를 시작했습니다 이야기 : 월요일 아침입니다. AI 기반 채용 담당자로서 당신은 더 똑똑하지 않고 더 똑똑하지 않습니다. 휴대 전화에서 회사의 대시 보드에 로그인합니다. 세 가지 중요한 역할이 공급되고, 검증되며, 예정된 FO가 있음을 알려줍니다.

나는 당신이되어야한다고 생각합니다. 우리 모두는 Psychobabble이 다양한 심리적 용어를 혼합하고 종종 이해할 수 없거나 완전히 무의미한 모듬 채터로 구성되어 있다는 것을 알고 있습니다. 당신이 fo를 뿌리기 위해해야 할 일

이번 주 발표 된 새로운 연구에 따르면 2022 년에 제조 된 플라스틱의 9.5%만이 재활용 재료로 만들어졌습니다. 한편, 플라스틱은 계속해서 매립지와 생태계에 전 세계에 쌓이고 있습니다. 그러나 도움이 진행 중입니다. 엥인 팀

최근 Enterprise Analytics 플랫폼 Alteryx의 CEO 인 Andy MacMillan과의 대화는 AI 혁명 에서이 비판적이면서도 저평가 된 역할을 강조했습니다. MacMillan에서 설명했듯이 원시 비즈니스 데이터와 AI-Ready Informat의 격차

이 데이터를 이용한이 에피소드에서 우리는 4 중 Kaggle Grandmaster이자 기계 학습 솔루션 전문가 인 Rohan Rao와 함께 매혹적인 데이터 과학 세계로 뛰어 들었습니다. Rohan은 전략적 파트너십에 대한 통찰력을 공유합니다


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.
