LLaMA をベースにテンソル名を変更した Kai-Fu Lee の大規模モデルは物議を醸しました。公式の回答はこちらです-AI-php.cn

ホームページ

テクノロジー周辺機器

LLaMA をベースにテンソル名を変更した Kai-Fu Lee の大規模モデルは物議を醸しました。公式の回答はこちらです

王林

Nov 14, 2023 pm 09:01 PM

aiモデル

少し前に、オープンソースの大規模モデルの分野に新しいモデルが導入されました。コンテキストウィンドウのサイズは 200k を超え、一度に 400,000 個の漢字の「易」を処理できます。

Innovation Works の会長兼 CEO である Kai-fu Lee 氏は、大規模模型会社「Zero One Thousand Things」を設立し、Yi-6B や Yi-34B を含むこの大型模型を製作しました。バージョン

Hugging Face English オープンソースコミュニティプラットフォームと C-Eval 中国語評価リストによると、Yi-34B は発売時に SOTA 国際最高パフォーマンス指標の認定を数多く達成し、このモデルは、LLaMA2 や Falcon などのオープンソースの競合製品を破った「ダブルチャンピオン」です。

LLaMA をベースにテンソル名を変更した Kai-Fu Lee の大規模モデルは物議を醸しました。公式の回答はこちらです

Yi-34B はまた、Hugging Face の世界的なオープンソースモデルランキングでトップに輝いた唯一の国内モデルとなりました。当時は「世界最強のオープンソースモデル」と呼ばれていました。

発表後、このモデルは国内外の多くの研究者や開発者の注目を集めました

しかし最近、一部の研究者が次のことを発見しました。 Yi-34B モデルは、2 つのテンソルの名前が変更されていることを除いて、基本的に LLaMA アーキテクチャを採用しています。

LLaMA をベースにテンソル名を変更した Kai-Fu Lee の大規模モデルは物議を醸しました。公式の回答はこちらです

# 元の投稿を表示するには、このリンクをクリックしてください: https://news.ycombinator.com/item?id=38258015

この投稿では次のようにも言及されています:

Yi-34B のコードは実際には LLaMA コードを再構築したものですが、実質的な変更は加えられていないようです。このモデルは明らかにオリジナルの Apache バージョン 2.0 LLaMA ファイルに基づいて編集されたものですが、LLaMA については言及されていません:

LLaMA をベースにテンソル名を変更した Kai-Fu Lee の大規模モデルは物議を醸しました。公式の回答はこちらです

Yi vs LLaMAコードの比較。コードリンク: https://www.diffchecker.com/bJTqkvmQ/

さらに、これらのコード変更は、プルリクエストを通じてトランスフォーマープロジェクトに送信されません。ですが、代わりに外部コードとしてアタッチすると、セキュリティ上のリスクが生じたり、フレームワークでサポートされなかったりする可能性があります。このモデルにはカスタムコード戦略がないため、HuggingFace リーダーボードでは、最大 200K のコンテキストウィンドウでこのモデルのベンチマークを行うことさえできません。

これは 32K モデルであると主張していますが、4K モデルとして構成されており、RoPE スケーリング構成はなく、スケーリング方法の説明もありません (注: 前にゼロ 1 という意味があります)モデル自体はトレーニング用に 4K シーケンス上にありますが、推論フェーズ中に 32K までスケールできるということです)。現時点では、その微調整データに関する情報はありません。また、疑わしいほど高い MMLU スコアを含むベンチマークを再現するための手順も提供していませんでした。

人工知能の分野でしばらく働いたことがある人なら誰でも、これを無視することはできないでしょう。これは虚偽の広告ですか？ライセンス違反？実際にベンチマークを不正行為していたのでしょうか?誰が気にする？論文を変更することもできますし、この場合はベンチャーキャピタルの資金をすべて受け取ることもできます。少なくとも Yi は基準を上回っています。なぜなら、これは基本的なモデルであり、そのパフォーマンスが非常に優れているからです。

数日前、Huggingface コミュニティで、開発者は次のことも指摘しました。

私たちの理解によれば、2 つのテンソルの名前を変更することを除いて、Yi は LLaMA アーキテクチャを完全に採用しています。 (input_layernorm、post_attention_layernorm)

LLaMA をベースにテンソル名を変更した Kai-Fu Lee の大規模モデルは物議を醸しました。公式の回答はこちらです

#ディスカッションの中で、一部のネチズンは次のように述べました。Meta LLaMA のアーキテクチャ、コードベース、およびその他の関連リソースを正確に使用したい場合は、 LLaMA が規定するライセンス契約を遵守してください

LLaMA をベースにテンソル名を変更した Kai-Fu Lee の大規模モデルは物議を醸しました。公式の回答はこちらです

LLaMA のオープンソースライセンスに準拠するために、開発者は名前を元に戻して再公開することにしましたハグフェイス

LLaMA をベースにテンソル名を変更した Kai-Fu Lee の大規模モデルは物議を醸しました。公式の回答はこちらです 01-ai/Yi-34B では、標準 LLaMA モデルコードに一致するようにテンソルの名前が変更されました。関連リンク: https://huggingface.co/chargoddard/Yi-34B-LLaMA

この内容を読むと、賈陽青氏がアリババを辞めて起業したというニュースが数日前に友人たちの間で話題になったと推測できます

LLaMA をベースにテンソル名を変更した Kai-Fu Lee の大規模モデルは物議を醸しました。公式の回答はこちらです

## この件に関しては、ハート・オブ・ザ・マシーンもゼロワンとオールシングスに検証を求めていた。 Lingyiwu 氏は次のように答えました。

GPT は業界で認められた成熟したアーキテクチャであり、LLaMA は GPT についての概要を作成しました。 Zero One Thousand Things の大規模な研究開発モデルの構造設計は、GPT の成熟した構造に基づいており、業界トップレベルの公開結果を活用しています。同時に、Zero One Thousand Things チームは多くの作業を行ってきました。モデルの理解とトレーニングについては、基礎の 1 つである優れた結果をリリースするのは初めてです。同時に、Zero One Thousand Things は、モデル構造レベルでの本質的なブレークスルーの模索も続けています。

モデル構造はモデルトレーニングの一部にすぎません。 Yi のオープンソースモデルは、データエンジニアリング、トレーニング方法、ベビーシッター (トレーニングプロセスのモニタリング) スキル、ハイパーパラメータ設定、評価方法、評価指標の性質の理解の深さ、評価の原理に関する研究の深さなど、他の側面に重点を置いています。モデル汎用化機能、業界トップのAIインフラ機能など、多くの研究開発と基盤作業が投資されており、これらのタスクは基本的な構造よりも大きな役割と価値を果たしていることが多く、これらはZeroのコアテクノロジーでもあります大型モデルの事前訓練段階にある 1 台のワゴン。堀。

多数のトレーニング実験を実施する過程で、実験の実行のニーズに応じてコードの名前を変更しました。私たちはオープンソースコミュニティからのフィードバックを非常に重視しており、Transformer エコシステムへの統合を改善するためにコードを更新しました

コミュニティからのフィードバックに非常に感謝しています。私たちはオープンソースコミュニティに参加したばかりです。皆様と協力してコミュニティを構築していきたいと考えています。繁栄、イー・カイユアンは今後も進歩し続けるために最善を尽くします

以上がLLaMA をベースにテンソル名を変更した Kai-Fu Lee の大規模モデルは物議を醸しました。公式の回答はこちらですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Microsoft Work Trend Index 2025は、職場の容量の緊張を示していますApr 24, 2025 am 11:19 AM

AIの急速な統合により悪化した職場での急成長能力の危機は、増分調整を超えて戦略的な変化を要求します。これは、WTIの調査結果によって強調されています。従業員の68％がワークロードに苦労しており、BURにつながります

AIは理解できますか？中国の部屋の議論はノーと言っていますが、それは正しいですか？Apr 24, 2025 am 11:18 AM

ジョン・サールの中国の部屋の議論：AIの理解への挑戦 Searleの思考実験は、人工知能が真に言語を理解できるのか、それとも真の意識を持っているのかを直接疑問に思っています。チャインを無知な人を想像してください

中国の「スマート」AIアシスタントは、マイクロソフトのリコールのプライバシーの欠陥をエコーしますApr 24, 2025 am 11:17 AM

中国のハイテク大手は、西部のカウンターパートと比較して、AI開発の別のコースを図っています。技術的なベンチマークとAPI統合のみに焦点を当てるのではなく、「スクリーン認識」AIアシスタントを優先しています。

Dockerは、おなじみのコンテナワークフローをAIモデルとMCPツールにもたらしますApr 24, 2025 am 11:16 AM

MCP：AIシステムに外部ツールにアクセスできるようになりますモデルコンテキストプロトコル（MCP）により、AIアプリケーションは標準化されたインターフェイスを介して外部ツールとデータソースと対話できます。人類によって開発され、主要なAIプロバイダーによってサポートされているMCPは、言語モデルとエージェントが利用可能なツールを発見し、適切なパラメーターでそれらを呼び出すことができます。ただし、環境紛争、セキュリティの脆弱性、一貫性のないクロスプラットフォーム動作など、MCPサーバーの実装にはいくつかの課題があります。 Forbesの記事「人類のモデルコンテキストプロトコルは、AIエージェントの開発における大きなステップです」著者：Janakiram MSVDockerは、コンテナ化を通じてこれらの問題を解決します。 Docker Hubインフラストラクチャに基づいて構築されたドキュメント

6億ドルのスタートアップを構築するために6つのAIストリートスマート戦略を使用するApr 24, 2025 am 11:15 AM

最先端のテクノロジーと巧妙なビジネスの洞察力を活用して、コントロールを維持しながら非常に収益性の高いスケーラブルな企業を作成する先見の明のある起業家によって採用された6つの戦略。このガイドは、建設を目指している起業家向けのためのものです

Googleフォトの更新は、すべての写真の見事なウルトラHDRのロックを解除しますApr 24, 2025 am 11:14 AM

Google Photosの新しいウルトラHDRツール：画像強化のゲームチェンジャー Google Photosは、強力なウルトラHDR変換ツールを導入し、標準的な写真を活気のある高ダイナミックレンジ画像に変換しました。この強化は写真家に利益をもたらします

Descopeは、AIエージェント統合の認証フレームワークを構築しますApr 24, 2025 am 11:13 AM

技術アーキテクチャは、新たな認証の課題を解決しますエージェントアイデンティティハブは、AIエージェントの実装を開始した後にのみ多くの組織が発見した問題に取り組んでいます。

Google Cloud Next2025と現代の仕事の接続された未来Apr 24, 2025 am 11:12 AM

（注：Googleは私の会社であるMoor Insights＆Strategyのアドバイザリークライアントです。） AI：実験からエンタープライズ財団まで Google Cloud Next 2025は、実験機能からエンタープライズテクノロジーのコアコンポーネント、ストリームへのAIの進化を紹介しました

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、