ホームページ >テクノロジー周辺機器 >AI >多機能 RNA 解析、Transformer に基づく Baidu チームの RNA 言語モデルが Nature サブジャーナルに掲載

多機能 RNA 解析、Transformer に基づく Baidu チームの RNA 言語モデルが Nature サブジャーナルに掲載

WBOYオリジナル: 2024-06-10 22:21:12605ブラウズ

Editor | Radish Core

事前トレーニングされた言語モデルは、ヌクレオチド配列の分析において有望であることが示されていますが、さまざまなタスクで適切に機能する多機能モデルを実現するために単一の事前トレーニングされた重みセットを使用することにはまだ課題があります。。

Baidu Big Data Lab (BDL) と上海交通大学チームは、Transformer アーキテクチャに基づいた RNA 中心の事前トレーニングモデルである RNAErnie を開発しました。

研究者らは 7 つのデータセットと 5 つのタスクを使用してモデルを評価し、教師あり学習と教師なし学習の両方における RNAErnie の優位性を実証しました。

RNAErnie は、分類精度を 1.8%、相互作用予測精度を 2.2%、構造予測 F1 スコアを 3.3% 向上させることでベースラインを上回り、その堅牢性と適応性を実証しています。

この研究は「モチーフを意識した事前トレーニングとタイプガイドによる微調整を備えた多目的 RNA 言語モデリング」と題され、2024 年 5 月 13 日に「Nature Machine Intelligence」に掲載されました。

多機能 RNA 解析、Transformer に基づく Baidu チームの RNA 言語モデルが Nature サブジャーナルに掲載

RNAは分子生物学のセントラルドグマにおいて重要な役割を果たしており、DNA内の遺伝情報をタンパク質に伝達する役割を担っています。

RNA分子は、遺伝子発現、調節、触媒などのさまざまな細胞プロセスにおいて重要な役割を果たします。生物学的システムにおける RNA の重要性を考慮すると、RNA 配列の効率的かつ正確な分析方法の必要性が高まっています。

従来の RNA-seq 解析は、RNA シーケンシングやマイクロアレイなどの実験技術に依存していますが、これらの方法は多くの場合、コストと時間がかかり、大量の RNA インプットが必要です。

これらの課題に対処するために、Baidu BDL と上海交通大学のチームは、事前トレーニングされた RNA 言語モデル、RNAErnie を開発しました。

RNAErnie

このモデルは、Enhanced Representation of Knowledge Integration (ERNIE) フレームワークに基づいて構築されており、それぞれの隠れ状態次元が 768 であるマルチレイヤーおよびマルチヘッドの Transformer ブロックが含まれています。事前トレーニングは、RNAcentral から慎重に選択された約 2,300 万の RNA 配列からなる広範なコーパスを使用して実行されます。

提案されたモチーフ認識の事前トレーニング戦略には、塩基レベルのマスキング、サブ配列レベルのマスキング、モチーフレベルのランダムマスキングが含まれており、これによりサブ配列およびモチーフレベルの知識が効果的に取得され、RNA 配列の表現が強化されます。

さらに、RNAErnie は、粗粒度 RNA タイプを特別な語彙としてラベル付けし、事前トレーニング中に各 RNA シーケンスの末尾に粗粒度 RNA タイプのラベルを追加します。そうすることで、このモデルはさまざまな RNA タイプの固有の特徴を識別できる可能性があり、それによってさまざまな下流タスクへのドメインの適応が容易になります。

多機能 RNA 解析、Transformer に基づく Baidu チームの RNA 言語モデルが Nature サブジャーナルに掲載

イラスト: モデルの概要。 (出典: 論文)

具体的には、RNAErnie モデルは 12 の Transformer レイヤーで構成されています。トピックを意識した事前トレーニング段階では、RNAErnie は、自己教師あり学習とトピックを意識したマルチレベルランダムマスクを使用して、RNAcentral データベースから抽出された約 2,300 万配列のデータセットでトレーニングされます。

多機能 RNA 解析、Transformer に基づく Baidu チームの RNA 言語モデルが Nature サブジャーナルに掲載

イラスト: トピックを意識した事前トレーニングとタイプに基づいた微調整戦略。 (出典: 論文)

タイプガイドによる微調整ステージでは、RNAErnie はまず出力埋め込みを使用して、考えられる粗粒度の RNA タイプを予測し、次に予測されたタイプを補助情報として使用して、タスクを通じてモデルを微調整します。特定のヘッダー。

このアプローチにより、モデルがさまざまな RNA タイプに適応できるようになり、幅広い RNA 分析タスクでの有用性が高まります。

より具体的には、事前トレーニングされたデータセットとターゲットドメインの間の分布の変化に適応するために、RNAErnie はドメイン適応を活用して、事前トレーニングされたバックボーンと 3 つのニューラルアーキテクチャの下流モジュールを組み合わせます。トレーニング可能なヘッドを備えたトレーニング可能なバックボーン (TBTH)、およびタイプガイドによる微調整のためのスタッキング (STACK)。

このように、提案された方法は、下流のアプリケーションに応じて、バックボーンとタスク固有のヘッダーをエンドツーエンドで最適化することも、凍結されたバックボーンから抽出されたエンベディングを使用してタスク固有のヘッダーを微調整することもできます。

パフォーマンス評価

多機能 RNA 解析、Transformer に基づく Baidu チームの RNA 言語モデルが Nature サブジャーナルに掲載

イラスト: RNAErnie は、マルチレベルのオントロジーパターンをキャプチャします。 (出典: 論文)

研究者らはこの方法を評価し、その結果、RNAErnie が 17,000 以上の主要な RNA モチーフ、20 の RNA タイプ、および 50,000 の RNA 配列テクノロジーをカバーする 7 つの RNA 配列データセットにおいて、既存の最先端技術を上回っていることが示されました。

多機能 RNA 解析、Transformer に基づく Baidu チームの RNA 言語モデルが Nature サブジャーナルに掲載

図: ArchiveII600 および TS0 データセットを使用した RNA 二次構造予測タスクにおける RNAErnie のパフォーマンス。 (出典: 論文)

30 の主流の RNA シーケンス技術を使用して評価され、RNAErnie の汎用性と堅牢性が実証されました。チームは、RNA-seq 解析手法の公平な比較を保証するために、精度、精度、リコール、F1 スコア、MCC、および AUC を評価指標として使用しました。

現在、外部知識を強化した Transformer アーキテクチャを RNA-seq データ解析に適用する研究はほとんどありません。スクラッチからの RNAErnie フレームワークは、RNA 配列の埋め込みと自己教師あり学習戦略を統合し、下流の RNA タスクに優れたパフォーマンス、解釈可能性、一般化の可能性をもたらします。

さらに、RNAErnie は、出力を変更したり信号を監視したりすることで、他のタスクに適応させることができます。 RNAErnie は一般に公開されており、タイプガイド付き RNA 解析と高度なアプリケーションを理解するための効率的なツールです。

制限事項

RNAErnie モデルは RNA 配列解析において革新的ですが、依然としていくつかの課題に直面しています。

まず、512 ヌクレオチドより長い配列は破棄され、重要な構造情報や機能情報が見落とされる可能性があるため、モデルは分析できる RNA 配列のサイズによって制限されます。より長い配列を処理するために開発されたブロッキング手法では、長距離相互作用に関する情報がさらに失われる可能性があります。

第二に、この研究の焦点は狭く、RNA ドメインのみに焦点を当てており、RNA タンパク質の予測や結合部位の同定などのタスクには拡張されていません。さらに、このモデルは、RNA の機能を理解するために重要な、ループやジャンクションなどの RNA の三次元構造モチーフを説明するのが困難です。

さらに重要なのは、既存のポストホックアーキテクチャ設計にも潜在的な制限があることです。

結論

それにもかかわらず、RNAErnie には RNA 解析を進歩させる大きな可能性があります。このモデルは、さまざまな下流タスクにおける一般的なソリューションとしての汎用性と有効性を示しています。

さらに、RNAErnie が採用した革新的な戦略により、RNA 解析における他の事前トレーニング済みモデルのパフォーマンスが向上すると期待されています。これらの発見により、RNAErnie は貴重な資産となり、RNA 関連研究の複雑さを解明するための強力なツールを研究者に提供します。

論文リンク:https://www.nature.com/articles/s42256-024-00836-4

以上が多機能 RNA 解析、Transformer に基づく Baidu チームの RNA 言語モデルが Nature サブジャーナルに掲載の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

架构堆 big data 数据库 transformer 数据分析 https

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：透明！適切な機械学習アルゴリズムを選択する方法次の記事：透明！適切な機械学習アルゴリズムを選択する方法

続きを見る