ホームページ >テクノロジー周辺機器 >AI >AI 科学言語の大きなモデルは非常に人気があり、あらゆる種類の数学的および生物学的コンピューターを実行でき、コードを書いたり、レビューを書いたりすることもできます。
AI検索エンジンがまた進化? !
この AI にトピックを与えると、数分で論文レビューが表示され、論文自体の引用も提供されます。
#または、科学名詞を入力すると、AI がこの名詞専用の Wikipedia をすぐに生成できます。
この AI はギャラクティカ (略して GAL) と呼ばれ、AI を科学的生産性に変換する最新のオープンソース科学言語モデルです。
さらに、学問の「大統合」も実現しており、数学、物理学、コンピュータ…すべてが使えるAIです。
このモデルは公開されるやいなや、ネット民の間で熱い議論を巻き起こし、現在、関連ツイートは15万回近く閲覧され、累計いいね、リツイート、引用数は5,000を超えています。
#Facebook の元技術責任者も支援に名乗りを上げました。
一部のネチズンはそれを個人的に経験しており、彼らが書いた文献レビューは「かなり良さそうだ」とさえ言いました:
次のステップはそうではありません新しいアイデアを生み出すことができます。
実際、文献レビューを書いたり、Wikipedia を作成したりすることは、GAL の機能の一部にすぎません。これらに加えて、専門的な質問に答えたり、科学コードを書いたり、注釈を付けたりすることもできます。分子とタンパク質... …
具体的な効果を見てみましょう~
科学的生産性に関して言えば、論文の検索と切り離せないのは間違いなく、GAL が解決してくれました。
機械学習、数学、コンピューター サイエンス、生物学、物理学の 5 つの科学分野をカバーしています。
件名を選択し、左側のボックスに探している論文のトピックを入力すると、右側の GAL が読むのに最適な論文を推奨します。
GAL には、論文の推奨に加えて、講義ノートの生成という、より実用的な機能もあります。
たとえば、密度汎関数理論 (DFT) の事前テストをしたいが、講義ノートを書くのが面倒な場合は、GAL を実行するだけで数分で完了できます (マニュアル)犬の頭)。
#GAL は、分子やタンパク質のアノテーションにも使用できます。以下は、GAL で生成された RDKit (機械学習用の分子記述子を生成できる) の操作マニュアルです。
GAL は細かい部分も担当しました。
たとえば、複雑な数式やコードが理解できない場合は、GAL に任せることができます。GAL はそれを現地の言葉に直接翻訳します。
それだけでなく、数式とコード間の変換や、異種コード間の変換も実現できます。
さらに重要なのは、簡略化された数式とエラー チェック機能も備えていることです。
どうやってやったのですか?
GAL はこのような複雑な機能を実現できるため、そのトレーニング データ セットについて言及する必要があります。
公式ニュースによると、GAL は NatureBook と呼ばれる新しい高品質の科学データ セットでトレーニングされており、これによりモデルは科学用語、数学式、化学式、ソース コードを使用できるようになります。
4,800 万以上の論文、教科書、講義ノートに加え、数百万の化合物やタンパク質、科学 Web サイト、百科事典などが含まれます。
論文の検索と引用の正規化に加えて、GAL のデータセットには、3 億 6,000 万を超える文脈上の引用と、さまざまなソース間で正規化された 5,000 万を超える一意の参照が含まれています。
これほど巨大なデータセットを取得した後、2 つの問題に直面することになります。
最初の質問は、これらの高品質のデータ セットを管理する方法です。これを達成するために、GAL は 2 つの手順を使用します:
すべてのデータは共通のマークアップ形式で処理され、データ間の障壁が開かれます。さまざまな情報源から。
事前トレーニングには特定のタスクのデータ セットが含まれており、これにより、特定のタスクを処理する際により専門的に対応できるようになります。
もう 1 つの質問は、インターフェイスの対話をどのように設計するかということです。
まず第一に、前述したように、GAL はさまざまな種類のタスクをサポートできます。
したがって、インターフェイスの対話を設計する際にはさまざまなタスクが分類され、分類が異なればサポートされるデータの種類も異なります。
GAL には高度に管理された高品質の科学データ セットがあるため、他のモデルとどう違うのでしょうか?
データを直接アップロードしてください。
推論の面ではGALの優位性が際立っており、数学のMMLU(大規模マルチタスク言語理解)ではチンチラより性能が良く、数学でもPalm 540Bより性能が優れているそしてGPT-3 175B。
GAL は一般的なデータセットでトレーニングされていませんが、BIG ベンチでのパフォーマンスは BLOOM や OPT-175B よりも優れています。 。
#これを読んでかゆみを感じたら、まずやめてください。
ポータル: https://gaoptica.org/
参考リンク: [1]https://twitter.com/paperswithcode/status/1592546933679476736[2]https://github 。 com/paperswithcode/galai[3]https://gaoptica.org/static/paper.pdf
以上がAI 科学言語の大きなモデルは非常に人気があり、あらゆる種類の数学的および生物学的コンピューターを実行でき、コードを書いたり、レビューを書いたりすることもできます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。