ホームページ  >  記事  >  テクノロジー周辺機器  >  メタが最初の「プロテイン ユニバース」パノラマを作成します! 150億パラメータの言語モデルを使用して、6億以上のタンパク質構造を予測

メタが最初の「プロテイン ユニバース」パノラマを作成します! 150億パラメータの言語モデルを使用して、6億以上のタンパク質構造を予測

PHPz
PHPz転載
2023-04-12 18:25:101332ブラウズ

Meta はタンパク質構造の探索において新たな一歩を踏み出しました!

今回は、より大きな目標領域であるメタゲノミクスをターゲットにしています。

メタが最初の「プロテイン ユニバース」パノラマを作成します! 150億パラメータの言語モデルを使用して、6億以上のタンパク質構造を予測

タンパク質宇宙の「暗黒物質」

NIH ヒトゲノム研究所によると、メタゲノミクス (メタゲノミクスとも呼ばれる)メタゲノミクス)バルクサンプル中のすべての生物(通常は微生物)から単離および分析されたヌクレオチド配列全体の構造と機能の研究。人間の皮膚や土壌に生息するものなどの特定の微生物群集を研究するためによく使用されます。水または水のサンプル。

過去数十年にわたり、ヒトや環境の中に生息し、体内に生息するすべての微生物についての研究が進むにつれて、メタゲノミクスは非常に活発な分野となってきました。

メタゲノミクスの研究対象は動植物を構成するタンパク質をはるかに超えた包括的なものであるため、地球上で最も理解されていないタンパク質とも言えます。

この目的のために、Meta AI は最新の大規模言語モデルを使用し、6 億を超えるメタゲノム構造のデータベースを作成し、科学者が自分の研究に関連する特定のタンパク質構造を簡単に検索できる API を提供します。 。

メタが最初の「プロテイン ユニバース」パノラマを作成します! 150億パラメータの言語モデルを使用して、6億以上のタンパク質構造を予測

論文アドレス: https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2

メタはメタゲノム構造を解読し、それを表します。人類の進化の歴史の長年の謎を解明するのに役立ち、人類が病気を治療し、環境をより効果的に浄化するのに役立ちます。

タンパク質構造予測が 60 倍速くなりました!

メタゲノミクスは、環境内に共存するこれらすべての生物から DNA を取得する方法を研究するものです。パズルの箱に似ていますが、単なるパズルの箱ではありません。実際には、小さなパズルの 10 セットすべてが一緒に積み重ねられ、箱の中に置かれます。

メタゲノミクスがこれら 10 種類の生物のゲノムを同時に取得するとき、実際には 10 個のパズルを同時に解き、同じゲノム ボックス内の異なるパズルのピースをすべて理解しようとしているのです。

メタゲノミクスによって発見された新しいタンパク質がタンパク質宇宙の「暗黒物質」とさえ呼ばれるのは、まさにこの未知の構造と生物学的役割のおかげです。

メタが最初の「プロテイン ユニバース」パノラマを作成します! 150億パラメータの言語モデルを使用して、6億以上のタンパク質構造を予測

近年、遺伝子配列決定の進歩により、数十億のメタゲノムタンパク質配列をカタログ化することが可能になりました。

しかし、これらのタンパク質配列の存在は知られていますが、その生物学的特性をさらに理解することは大きな課題です。

メタが最初の「プロテイン ユニバース」パノラマを作成します! 150億パラメータの言語モデルを使用して、6億以上のタンパク質構造を予測

これら数十億のタンパク質の配列構造を取得するには、予測速度の画期的な進歩が不可欠です。

このプロセスは、最先端のツールと大規模な研究機関のコンピューティング リソースを使用した場合でも、数年かかる場合があります。

その結果、Meta は、精度を維持し、現在の状態よりも高速に予測しながら、進化パターンを学習し、タンパク質配列から直接エンドツーエンドで正確な構造予測を生成するように大規模な言語モデルをトレーニングしました。 art.メソッドは60倍高速です。

実際、この新しい構造予測機能の助けを借りて、Meta は、約 2,000 GPU のクラスターを使用して、わずか 2 週間でマップ内の 6 億を超えるメタゲノムタンパク質を予測しました。

メタが最初の「プロテイン ユニバース」パノラマを作成します! 150億パラメータの言語モデルを使用して、6億以上のタンパク質構造を予測

Meta が公開したメタゲノム マップは ESM Atlas と呼ばれ、メタゲノム配列公開データベース MGnify90 全体の予測をほぼ網羅しています。

メタ氏は、ESM Atlasはこれまでで最大の高解像度予測構造データベースであり、既存のタンパク質構造データベースの3倍であり、メタゲノムタンパク質を包括的かつ大規模にカバーする最初のデータベースであると述べた。

これらのタンパク質構造は、自然の広さと多様性について前例のない視点を提供し、医学、グリーンケミストリー、環境応用、再生可能エネルギーなどの分野で実用化できるタンパク質の発見を加速する可能性を秘めています。

タンパク質の構造を予測するために使用される新しい言語モデルには 150 億のパラメータがあり、これまでで最大の「タンパク質言語モデル」となっています。

このモデルは、実際には、今年 7 月に Meta によってリリースされた ESM Fold タンパク質予測モデルの継続です。

ESMFold が最初にリリースされたとき、すでに AlphaFold2 や RoseTTAFold などの主流のタンパク質モデルと同等でした。しかし、ESMFold の予測速度は AlphaFold2 よりも桁違いに速いです。

3 つの速度の比較は、桁違いの話で理解するのが難しいかもしれませんが、下の図を見ていただければ理解できます。

メタが最初の「プロテイン ユニバース」パノラマを作成します! 150億パラメータの言語モデルを使用して、6億以上のタンパク質構造を予測

#ESM Atlas データベースのリリースにより、150 億のパラメータを持つ大規模な言語モデルが最も広範囲に使用できるようになりました。

これにより、科学者は、これまで特徴づけられていなかった構造を数億個のタンパク質規模で検索および分析し、医学やその他の用途に役立つ新しいタンパク質を発見できるようになります。

言語モデルは本当に「ユニバーサル」です

テキストと同じように、タンパク質も文字列として記述することができます。

このうち、タンパク質を構成するそれぞれの「性質」は、20種類の標準化学元素であるアミノ酸のいずれかに対応しています。そして、アミノ酸はそれぞれ異なる性質を持っています。

しかし、この「生物学的言語」を理解することは大きな課題です。

メタが最初の「プロテイン ユニバース」パノラマを作成します! 150億パラメータの言語モデルを使用して、6億以上のタンパク質構造を予測

今述べたように、タンパク質配列とテキストの一部はどちらも文字として書くことができますが、それらの間には重大かつ根本的な違いがあります。

一方で、これらの「文字」の組み合わせは天文学的な数になります。たとえば、200 個のアミノ酸で構成されるタンパク質の場合、考えられる配列は 20^200 個あり、現在探索可能な宇宙の原子の数よりも多くなります。

一方、アミノ酸の各配列は物理法則に従って三次元の形状に折り畳まれます。さらに、すべての配列が一貫した構造に折りたたまれるわけではなく、多くは無秩序な形状に折りたたまれますが、タンパク質の機能を決定するのはこのとらえどころのない形状です。

たとえば、あるアミノ酸がある位置に出現すると、通常、このアミノ酸は別の位置のアミノ酸と対になります。そして、それらはその後の折り畳まれた構造で相互作用すると考えられます。

人工知能は、タンパク質の配列を観察することでこれらのパターンを学習および読み取り、タンパク質の実際の構造を推測できます。

2019年にメタは、言語モデルがタンパク質の構造や機能などの特性を学習するという証拠を発表しました。

メタが最初の「プロテイン ユニバース」パノラマを作成します! 150億パラメータの言語モデルを使用して、6億以上のタンパク質構造を予測

論文アドレス: https://www.pnas.org/doi/10.1073/pnas.2016239118

自己監視型のマスクの使用学習 トレーニングされたモデルは、「__ が必要ですか、これは ________ です」など、テキストの段落内のギャップを正しく埋めることができます。

この方法を使用して、Meta は何百万もの天然タンパク質配列に基づいて言語モデルをトレーニングし、それによって「GL_KKE_AHY_G」などのタンパク質配列のギャップを埋めました。

実験により、このモデルをトレーニングしてタンパク質の構造と機能に関する情報を発見できることが示されました。

2020年、Metaは当時最も先進的なタンパク質言語モデルであるESH1bをリリースしました。これは、科学者による新型コロナウイルスの進化の予測や遺伝性疾患の原因の発見を支援するなど、さまざまな用途に使用されてきました。

メタが最初の「プロテイン ユニバース」パノラマを作成します! 150億パラメータの言語モデルを使用して、6億以上のタンパク質構造を予測

論文アドレス: https://www.biorxiv.org/content/10.1101/2022.08.25.505311v1

現在、Meta はこのアプローチを拡張しました。スケールに応じて、次世代タンパク質言語モデル ESM-2 が作成されました。これは 150 億のパラメータを持つ大規模なモデルです。

モデルは 800 万パラメータから 1,500 万パラメータまで拡張できるため、内部表現から得られる情報により原子分解能での 3 次元構造の予測が可能になります。

「タンパク質言語」を理解して生命をより透明にする

数十億年前以来、生物の進化によりタンパク質言語が形成されてきました。そして単純な構成要素からなる動的分子マシン。タンパク質の言語を読み取ることを学ぶことは、自然界を理解する上で重要なステップです。

AI は、自然界を理解するための新しいツールを私たちに提供します。顕微鏡と同じように、ほぼ無限のスケールで世界を観察することができ、生命についての新たな理解が開かれます。 AI は、自然界の広大な多様性を理解し、生物学を新しい方法で見るのに役立ちます。

現在、AI 研究のほとんどは、コンピューターが人間と同じような方法で世界を理解できるようにすることを目的としています。タンパク質の言語は人間だけでなく、最も強力な計算ツールでも理解できません。

つまり、Meta の研究の重要性は、分野を越えたときの AI の大きな利点を明らかにすることです。つまり、機械翻訳、自然言語理解、音声認識、画像生成において進歩を遂げた大規模な言語モデル。生物学についての深い知識を学びます。

今回、Meta はこの研究を公開し、データと結果を共有し、他の人の洞察に基づいて構築します。この大規模な構造アトラスと迅速なタンパク質折り畳みモデルのリリースによって、さらなる科学の進歩が促進され、私たちがより良くなることを願っています。彼らの周りの世界を理解します。

参考文献:

https://ai.facebook.com/blog/protein-folding-esmfold-metagenomics/?utm_source=twitter&utm_medium=organic_social&utm_campaign=blog

以上がメタが最初の「プロテイン ユニバース」パノラマを作成します! 150億パラメータの言語モデルを使用して、6億以上のタンパク質構造を予測の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。