チューリングの巨人は ICLR に現れ、頂上でスターのルカンとベンジオに熱狂しました。中国チームの 3 つの主要な技術トレンドが AGI の新たな想像力を生み出す
ここ数日、AI - ICLR の大会議がウィーンで開催されました。
OpenAI、Meta、Google、Zhipu AI、その他の世界をリードする AI テクノロジー企業が集結しました。
会場には著名人が集まり、星がまぶしく、数歩歩くだけで、破壊的な論文を発表した有名人に出会うことができました。
当然のことながら、ICLR 2024 展示ホールもスターを追いかけるシーンになりました。賑やかな雰囲気で屋根が吹き飛ばされそうになりました。
現場でチューリングの巨人を追いかける
チューリングの巨人3人の中でも有名な「e-person」であるルカンが、寛大にも自分のスケジュールを発表した。
コメント欄では、チェックインすることに興奮しているファンだけでなく、その場で履歴書を提出する準備ができているファンさえいました。
ファンの旅は本当に価値のあるものでした。現場ではルカンが雄弁に説明し、熱心な聴衆が彼の周りに密集した輪を作りました。
さらに近いところでは、ICLR イベント期間中、メタ チームは 25 を超える論文と 2 つのワークショップを共有します。今回、LeCun チームは以下の 2 つの論文を ICLR に発表しました。
紙のアドレス: https://arxiv.org/abs/2305.19523
紙のアドレス: https://arxiv.org/abs/2311.12983
別のワンビット写真スピリチュアル界の巨人ヨシュア・ベンジオも高い人気を示している。
聴衆は、「会議室の外にこれほど長い行列ができるほど、その人はその分野で本当にユニークである必要がある!
以前、ルカン氏もヒントン氏もこの件について強い意見を表明していた」と結論づけた。 、しかしベンジオの態度は比較的曖昧だったようです、私は彼がAGIについてどう思っているかを知るのが待ちきれません。来る 5 月 11 日、彼は AGI に関するワークショップで講演する予定です。
Bengio チームが今年の ICLR で優秀論文賞の佳作も受賞したことは言及に値します。
論文アドレス: https://openreview.net/pdf?id=Ouj6p4ca60
Google Meta の隣、Zhipu AI もサイトにあり、Google のオープンソース モデル Gema、ロボット インテリジェンス身体の背後にあるフレームワーク、ロボットトランスフォーマー、その他の画期的な研究が紹介されています。
Meta と Google の隣に、展示ホールの中央に非常に目を引く企業、Zhipu AI があります。
現場の子供靴にはGLM-4やChatGLMなど一連の研究成果が導入されています。
この一連の展示は多くの海外の学者の注目を集めました。
現場にいた約2,000人のゲストと学者は、GLM大型モデル技術チームの紹介に注意深く耳を傾けました。
この序文には、数学、ヴィンセント図、画像理解、視覚的 UI 理解、エージェント インテリジェンスなどの分野をカバーする、GLM シリーズの大規模モデルに関する最先端の研究結果が多数含まれています。
現場では、誰もがスケーリング法についての意見について熱心に議論していました。 GLM チームは、これについても独自の洞察を持っています -
「モデルのサイズやトレーニングの計算量と比較すると、知能の出現とトレーニング前の損失はより密接に関連しています
たとえば、有名な OpenAI 996 研究者のジェイソン氏」 Wei 氏は、トレーニング前の損失に関する Zhipu AI の論文を注意深く読んだ後、非常に感銘を受けました。
論文の中で、チームは、異なるパラメーターとデータサイズで 30 以上の LLM をトレーニングすることにより、12 の中国語と英語のデータセットでのパフォーマンスを評価しました。
論文アドレス: https://arxiv.org/abs/2403.15796
訓練前の損失が特定の閾値よりも低い場合にのみ、LLMは創発的な能力を持つことが観察されています。
さらに、トレーニング前の損失の観点から「創発的能力」を定義することは、モデルのパラメーターやトレーニング量だけに依存するよりも優れています。
Zhipu AI のパフォーマンスにより、ますます多くの海外ネットユーザーも次のことに気づきました - 19 歳で博士号を取得した Stability AI の研究ディレクター、Tanishq 氏は、CogVLM は最も競争力があり、オープンソース エコシステムに多大な貢献をしてきたオープンソースの基本モデルは中国から来ています。
このゲーム スタジオの元 CEO は、昨年、CogVLM と Stable Diffusion を使用して完全なオープンソース バージョンを作成し始めました。
はい、CogVLM がリリースされて以来、その強力な機能により海外のネチズンは歓声を上げています。
今年 1 月の LLM ランキングで、誰かが次のことも発見しました -
当時、Gemini と GPT-4V は、唯一の例外を除いて、どのオープンソース LLM よりもはるかに優れていましたCogVLMであること。
国産大型モデルの海外進出の波を受けて、Zhipu AIは静かに海外で大きな影響力を確立していることがわかります。
特別講演
展示ホールでの素晴らしいデモンストレーションに加えて、今年の ICLR は合計 7 人の特別講演者を招待し、AI に関する洞察を共有しました。Google DeepMindの研究科学者であるRaia Hadsell氏、ジョージア工科大学の准教授とFAIRの主任科学者であるDevi Parik氏、および唯一の中国人チームであるMax Planck Institute for Computer Science (MPI-SWS)の所長Moritz Hardt氏が参加しています。 Zhipu AIのGLM大型モデル技術チームです。
Raia Hadsell
Google DeepMind の科学者 Raia Hadsell の講演のタイトルは、「人工知能開発の浮き沈みの中での学習: AGI への道における予期せぬ真実」です。
数十年にわたる着実な開発と時折の挫折を経て、AI は重大な転換点にあります。
AI 製品は爆発的に主流市場に浸透しましたが、まだ配当の上限に達していないため、コミュニティ全体が次のステップを模索しています。
この講演の中で、Raia 氏は AI 分野での 20 年以上の経験に基づいて、AGI の開発経路についての仮定が時間の経過とともにどのように変化したかについて説明しました。
同時に、彼女はこの探検中に私たちが得た予期せぬ発見についても明らかにしました。
強化学習から分散アーキテクチャ、ニューラルネットワークに至るまで、それらはすでに科学の分野で潜在的に革命的な役割を果たしています。
Raia は、過去の経験や教訓から学ぶことで、AI の将来の研究の方向性に重要な洞察を提供できると信じています。
デヴィ・パリク
一方、FAIR の主任科学者であるデヴィ・パリクは、自分の人生の物語を皆に語りました。
スピーチのタイトルから、パリクが共有した内容が並外れたものであることがわかります。
ICLRカンファレンスでは、技術環境が現在のような状況になっている理由を説明する際、誰もがインターネット、ビッグデータ、コンピューティングパワーの発展に焦点を当てます。
しかし、そのような小さいけれど重要な個人的な話に注意を払う人はほとんどいません。
実際、みんなのストーリーが集まり、テクノロジーの進歩を促進する重要な力になる可能性があります。
このようにして、私たちはお互いから学び、刺激し合うことができます。これにより、より粘り強く、より効率的に目標を追求できるようになります。
Moritz Hardt
ドイツ MPI-SWS 所長の Moritz Hardt 氏は、「新たな科学ベンチマーク」について講演しました。
明らかに、ベンチマーク テストは機械学習の分野における「中核」となっています。
1980年代以来、人類はこの研究パラダイムの下で多くの成果を上げてきましたが、深い理解はまだ限られています。
この講演では、ハード氏は、厳選された一連の実証研究と理論分析を通じて、新興科学としてのベンチマークの基礎を探求します。
彼は、データ品質に対するアノテーションエラーの影響、モデルランキングの外部検証、マルチタスクベンチマークの見通しについて具体的に説明しました。
同時に、Hard氏は多くの事例紹介も行いました。
これらは私たちの常識に疑問を投げかけるものであり、科学的なベンチマークを開発することの重要性と利点も強調しています。
GLMチーム
中国では、Zhipu AIのGLM大型モデル技術チームも「ChatGLMのAGIへの道」について素晴らしいスピーチを行いました。
中国がトップ国際会議で大型モデル関連の基調講演を行うのはこれが「初めて」でもあることは言及に値する。
今回の講演ではまず、過去数十年のAIの発展の歴史を中国の視点から紹介します。
同時に、彼らはChatGLMを例として使用して、実践プロセスで得られた理解と洞察を説明しました。
2024 AGI プレビュー: GLM 4.5、GLM-OS、GLM-zero
ICLR では、GLM ラージ モデル チームが AGI の 3 つの主要な GLM テクノロジー トレンドを紹介しました。
AGI への唯一の方法はどこですか?
これに関して業界ではさまざまな意見があります。これをインテリジェント エージェントであると考える人もいれば、マルチモーダルであると考える人もいます。また、スケーリング則は AGI の必要条件ではあるが十分条件ではないと言う人もいます。
しかし、LeCun は、LLM は AGI への間違った道であり、LLM は AGI をもたらすことはできないと主張します。
これに関して、チームは独自の見解も打ち出しました。
まず最初に、GLM-4のその後のバージョンアップバージョンであるGLM-4.5とそのアップグレードモデルについて話されました。
GLM-4 のその後のアップグレード バージョンは、SuperIntelligence および SuperAlignment テクノロジーに基づいており、ネイティブ マルチモダリティと AI の安全性の分野で大きな進歩を遂げます。
GLM 大型モデル チームは、AGI への道においてテキストが最も重要な基盤であると信じています。
次のステップは、テキスト、画像、ビデオ、オーディオ、その他のモダリティを組み合わせてトレーニングし、真の「ネイティブ マルチモーダル モデル」にすることです。
同時に、より複雑な問題を解決するために、大規模モデルを中心とした汎用コンピューティングシステムであるGLM-OSの概念も導入しました。
この見解は、Karpathy によって以前に提案された大規模モデル オペレーティング システムの見解と一致します。
ICLR サイトで、GLM ラージ モデル チームは GLM-OS の実装を詳細に紹介しました:
既存の All-Tools 機能に加え、メモリとセルフ フィードバック (自己フィードバック) GLM-OS は、人間の PDCA メカニズム、つまり Plan-Do-Check-Act サイクルをうまく模倣することが期待されています。
具体的には、まず計画を立て、それを試してフィードバックを形成し、計画を調整し、より良い結果を達成するために行動を起こします。
PDCA サイクルのメカニズムに依存して、LLM は人間と同じように自己フィードバックし、独自に進化することができます。
さらに、GLM大型モデルチームは、2019年以来、人間の「無意識」の学習メカニズムを研究することを目的として、GLM-zeroと呼ばれるテクノロジーを研究していることも明らかにしました。
「人が眠っているときも、脳は無意識に学習を続けています。」
GLMの大規模モデルチームは、「無意識」の学習メカニズムは、自己学習、自己学習などの人間の認知能力の重要な部分であると述べました。 -学習、そして反省と自己批判。
人間の脳には「フィードバック」と「意思決定」という2つのシステムがあり、それぞれLLMラージモデルとメモリに対応します。
したがって、GLM ゼロ関連の研究は、意識、知識、学習行動についての人間の理解をさらに拡大するでしょう。
まだ研究の初期段階にありますが、GLM-zero は AGI への唯一の方法と見なすことができます。
GLM大型モデルチームがこの技術動向を外部に公開したのも今回が初めてです。
国内トップの技術チーム
2020年末、GLM大型モデル技術チームはGLM事前トレーニングアーキテクチャを開発しました。
2021 年に、数百億のパラメーター モデル GLM-10B がトレーニングされ、同じ年に、MoE アーキテクチャを使用して収束した兆のスパース モデルのトレーニングに成功しました。
2022年には、中国語と英語のバイリンガル1000億レベルの超大規模事前学習モデルGLM-130Bの開発とオープンソース化にも協力しました。
過去 1 年間、チームはほぼ 3 ~ 4 か月ごとに大型ベース モデルのアップグレードを完了し、現在は GLM-4 バージョンに更新されています。
それだけでなく、Zhipu AI は市場に参入した最初の国内 LLM 企業として、2023 年に OpenAI 全体のベンチマークを行うという野心的な目標を設定しました。
GLM 大型モデル技術チームは、AGI ビジョンに基づいて完全な大型モデル製品マトリックスを構築しました。
GLM シリーズに加えて、CogView グラフィカル モデル、CodeGeeX コード モデル、マルチモーダル理解モデル CogVLM、そして GLM-4V マルチモーダル大規模モデルと All-Tools 機能、AI アシスタント Zhipu もあります。青岩 。
同時に、GLM大型モデル技術チームの研究者は業界において非常に高い影響力を持っています。
たとえば、サークル内で非常に人気のあるリー・フェイフェイは、スタンフォード大学で CS25 コースを教えており、毎回、トランスフォーマー研究の最前線に立つ専門家を招いて最新の進歩を共有しています。
CS25コースのゲストの中にZhipu AIの研究者がいることが確認されました。同チームが開発したオープンソースのビジュアル言語モデルCogVLMは、リリースされるやいなや業界で注目を集めた。
3 月に Stability AI によって発表された論文では、CogVLM がその優れたパフォーマンスにより画像アノテーションに Stable Diffufion 3 によって直接使用されたことが示されました。
論文アドレス: https://arxiv.org/abs/2403.03206
CogAgent
これを基盤として、CogVに基づいて改良されたオープンソースLM ビジュアル言語モデル CogAgent 、主にユーザー グラフィカル インターフェイス GUI を理解することを目的としています。
国際コンピュータビジョン分野の最高レベルの学会であるCVPR 2024にCogAgentの関連論文が掲載されました。
CVPR は入学審査が厳しいことで知られており、今年の論文採択率はわずか約 2.8% であることを知っておく必要があります。
論文アドレス: https://arxiv.org/abs/2312.08914
ChatGLM-Math
LLMで数学的問題を解決するために、GLM大規模モデルチームは「自己批判」の反復トレーニング法。
自己フィードバックメカニズムを通じて、LLM が言語と数学の両方の能力を向上させるのに役立ちます。
論文アドレス: https://arxiv.org/abs/2404.02893
このメソッドには 2 つの重要なステップが含まれています:
まず、ジェネレーターをトレーニングして、評価する「数学批判」モデルを生成します。数学的な質問に対する答えを生成し、フィードバック信号を提供するモデル。
次に、拒否サンプリングの微調整と DPO を通じて、新しいモデルを使用して LLM 自体の生成を監視します。
GLM の大規模モデル チームは、新しいモデルの数学的機能を評価するために MATHUSEREVAL ベンチマーク テスト セットも設計しました。結果は次のとおりです。
新しいメソッドは、言語スキルを向上させながら、LLM の問題解決スキルの数学的スキルを大幅に向上させます。重要なのは、場合によっては 2 倍のパラメーター数を持つ大規模なモデルよりも優れたパフォーマンスを発揮することです。
GLM-4 は世界第 1 層にランクされています
OpenCompass 2.0 ベンチマーク テストでは、Zhipu AI の新世代ベース モデルの強さを過小評価することはできません。
総合ランキングでは、GLM-4が3位で国内1位となっています。
最近SuperBenchチームが発表した「SuperBench大型モデル総合能力評価報告書」でも、GLM-4は世界第1層にランクされました。
特に最も重要な意味理解とエージェント能力において、GLM-4 は国内で第 1 位にランクされ、すべての競合他社を圧倒しています。
過ぎたばかりのビッグモデル元年、1年間にぎやかな模型戦争が続いています。
2024 年を AGI 元年にしたいのであれば、世界の大規模モデルチームの道のりはまだ長いです。
以上がチューリングの巨人は ICLR に現れ、頂上でスターのルカンとベンジオに熱狂しました。中国チームの 3 つの主要な技術トレンドが AGI の新たな想像力を生み出すの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク(C. elegansのものと同様)を広く研究してきました。 ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

GoogleのGemini Advanced:Horizonの新しいサブスクリプションティア 現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。 ただし、Android Authorityのレポートは、今後の変更を示唆しています。 最新のGoogle p

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます:データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

Googleのエージェント開発キット(ADK)のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

まとめ: Small Language Model(SLM)は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル(LLM)よりも優れています。 特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。 テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能(AI)および最近では生成AIも例外ではありません

コンピュータービジョンのためのGoogleGeminiの力を活用:包括的なガイド 大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。 このガイドの利用方法については、

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。 数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

WebStorm Mac版
便利なJavaScript開発ツール

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

ホットトピック









