ホームページ  >  記事  >  テクノロジー周辺機器  >  4 つのポスト 00 世代の狂気のオープンソース計画: インターネット全体が大規模なモデル コーパスに変換され、1 億トークンの埋め込みコストはわずか 1 ドル

4 つのポスト 00 世代の狂気のオープンソース計画: インターネット全体が大規模なモデル コーパスに変換され、1 億トークンの埋め込みコストはわずか 1 ドル

WBOY
WBOY転載
2023-06-06 11:10:04962ブラウズ

Arxiv 上のすべての論文はトークンに変換され、総量はわずか 14.1 GB です。

これは、最新の注目のオープンソース プロジェクトである Alexander によって達成された偉業です。

実際、これは最初のステップにすぎません。

最終的に、彼らはインターネット全体を トークン に変えたいと考えています。言い換えれば、ChatGPT のような大規模なモデルが世界を理解する方法にすべてを変換します。

そのようなデータセットが誕生すれば、GPT-4のような大規模モデルを開発するための新たな強力なツールとなり、すぐそこまで来ている天文学や地理を理解できるようになるのではないでしょうか? !

このニュースが出るとすぐに、すぐに大きな注目を集めました。

4 つのポスト 00 世代の狂気のオープンソース計画: インターネット全体が大規模なモデル コーパスに変換され、1 億トークンの埋め込みコストはわずか 1 ドル

ネチズンは epic を称賛しました。

4 つのポスト 00 世代の狂気のオープンソース計画: インターネット全体が大規模なモデル コーパスに変換され、1 億トークンの埋め込みコストはわずか 1 ドル


4 つのポスト 00 世代の狂気のオープンソース計画: インターネット全体が大規模なモデル コーパスに変換され、1 億トークンの埋め込みコストはわずか 1 ドル

##そしてこの後ろには、平均年齢が 4 人だけです。 20 歳 10 代の若者が始めて、すべての Arxiv 論文データ セットがリリースされ、来週埋め込み検索プラットフォームがリリースされる予定です。

Arxiv のすべての論文から始めましょう

400 万以上のプロジェクト、6 億のトークン、30 億 7000 万のベクトル次元。

Alexander と呼ばれるこのオープンソース プロジェクトは、Arxiv 上の各論文から始まります。

選んだ手法はエンベディングで、簡単に言えば、現実世界のさまざまなオブジェクトをコンピューターが理解できるベクトルに視覚化することです。

4 つのポスト 00 世代の狂気のオープンソース計画: インターネット全体が大規模なモデル コーパスに変換され、1 億トークンの埋め込みコストはわずか 1 ドル#最も古典的な例は、元の画像をグレースケール ピクセルとして表すことです。

4 つのポスト 00 世代の狂気のオープンソース計画: インターネット全体が大規模なモデル コーパスに変換され、1 億トークンの埋め込みコストはわずか 1 ドル

#この技術の最大の特徴は、人間が知覚する意味的な類似性を表現できることです。

たとえば、同じ意味の単語が 10 個ある場合、キーワードで論文を見つけるのは困難です。ただし、埋め込みは可能なので、検索、クラスタリング、推奨、分類などに適しています。

実用性と効率性を考慮して、開発チームは論文のタイトルと要約のみを埋め込むことを選択しました。

さまざまなモデルをテストした後、最終的に、タスクの指示を提供するだけでさまざまなタスク

(分類、検索、クラスタリングなど) に適した InstructorXL テキスト埋め込みモデルを使用することを選択しました。テキスト評価など)

およびフィールド (科学、金融、医学など) >>来週、Arxiv 検索がリリースされる予定です。これまでのプロセスでは、最初に最も近い 100 個の記事に対して類似性検索を実行し、次にこれらの埋め込みをオンザフライで計算し、2 番目のより複雑な検索を実行します。

最終的な目標は、インターネット全体を組み込んだ計画です。

20 歳の少年のクレイジーなオープンソース計画

このようなクレイジーなオープンソース計画を立ち上げたい主な理由は 2 つあります。

一方では、巨大な価値を埋め込むことです。世の中の多くの問題は検索、クラスタリング、推奨、分類にすぎませんが、これらは埋め込みが非常に得意なことです。前述したように、いくつかの複雑なパズルを解くことができます。

一方、費用は1回限りで非常に安価です。ほとんどの場合、同じファイルに対して 2 回目の計算を実行する必要はありません。現在、1 億トークンごとにかかる費用は $

1$

だけです。 しかし、オープンな埋め込みデータ セットが見つからなかったため、この組織が誕生しました。

将来的にはさらに多くのデータ セットも公開される予定で、これらのデータ セットはこれらのユーザーによって選択されることになります。公式 Web サイト上の公開データセットに加えて、残りのオープンソース プロジェクトでも投票チャネルが開設されています。

4 つのポスト 00 世代の狂気のオープンソース計画: インターネット全体が大規模なモデル コーパスに変換され、1 億トークンの埋め込みコストはわずか 1 ドル注目すべきは、その背後には平均年齢わずか 20 歳のティーンエイジャーのチームがあるということです。

4 つのポスト 00 世代の狂気のオープンソース計画: インターネット全体が大規模なモデル コーパスに変換され、1 億トークンの埋め込みコストはわずか 1 ドル

そしてチーム名も非常に横暴です、Macrocosm (マクロワールド) Alliance。

ズームインする限り、人間は 1 つの生き物になります。

公式紹介によると、彼らは ChatGPT やその他の同様の製品のプラグインの構築に取り組んでおり、学習、教育、学習を支援するための大規模なモデルに基づいたコア製品、パーソナルリサーチアシスタントも開発しています。科学研究。

興味のあるお友達は、下のリンクをクリックして詳細をご覧ください~

https://alex.macrocosm.so/download

以上が4 つのポスト 00 世代の狂気のオープンソース計画: インターネット全体が大規模なモデル コーパスに変換され、1 億トークンの埋め込みコストはわずか 1 ドルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。