Editor | Radish Core
사전 훈련된 언어 모델은 뉴클레오티드 서열 분석에 좋은 가능성을 보여줬지만, 다양한 작업에서 잘 수행되는 다기능 모델을 달성하기 위해 사전 훈련된 단일 가중치 세트를 사용하는 데에는 여전히 어려움이 있습니다. .
Baidu Big Data Lab(BDL)과 Shanghai Jiao Tong University 팀은 Transformer 아키텍처를 기반으로 하는 RNA 중심 사전 훈련 모델인 RNAErnie를 개발했습니다.
연구원들은 7개의 데이터 세트와 5개의 작업을 사용하여 모델을 평가하여 지도 학습과 비지도 학습 모두에서 RNAErnie의 우수성을 입증했습니다.
RNAErnie는 분류 정확도를 1.8%, 상호작용 예측 정확도를 2.2%, 구조 예측 F1 점수를 3.3% 향상시켜 기준을 뛰어넘어 견고성과 적응성을 입증했습니다.
연구 제목은 "모티프 인식 사전 훈련 및 유형 안내 미세 조정을 사용한 다목적 RNA 언어 모델링"이며 2024년 5월 13일 "Nature Machine Intelligence"에 게재되었습니다.
RNA는 DNA의 유전 정보를 단백질로 전달하는 역할을 하는 분자 생물학의 중심 교리에서 핵심적인 역할을 합니다.
RNA 분자는 유전자 발현, 조절 및 촉매 작용과 같은 다양한 세포 과정에서 중요한 역할을 합니다. 생물학적 시스템에서 RNA의 중요성을 고려할 때, RNA 서열에 대한 효율적이고 정확한 분석 방법에 대한 필요성이 커지고 있습니다.
전통적인 RNA-seq 분석은 RNA 시퀀싱 및 마이크로어레이와 같은 실험 기술에 의존하지만 이러한 방법은 종종 비용이 많이 들고 시간이 많이 걸리며 많은 양의 RNA 입력이 필요합니다.
이러한 과제를 해결하기 위해 Baidu BDL과 Shanghai Jiao Tong University 팀은 사전 훈련된 RNA 언어 모델인 RNAErnie를 개발했습니다.
RNAErnie
이 모델은 ERNIE(Enhanced Representation of Knowledge Integration) 프레임워크를 기반으로 구축되었으며 각각 숨겨진 상태 차원이 768인 다중 레이어 및 다중 헤드 변환기 블록을 포함합니다. 사전 훈련은 RNAcentral에서 엄선된 약 2,300만 개의 RNA 서열로 구성된 광범위한 코퍼스를 사용하여 수행됩니다.
제안된 모티프 인식 사전 훈련 전략에는 기본 수준 마스킹, 하위 서열 수준 마스킹 및 모티프 수준 무작위 마스킹이 포함되며, 이는 하위 서열 및 모티프 수준 지식을 효과적으로 포착하고 RNA 서열 표현을 풍부하게 합니다.
또한 RNAErnie는 사전 훈련 중에 거친 RNA 유형을 특수 어휘로 분류하고 각 RNA 시퀀스의 끝에 거친 RNA 유형의 라벨을 추가합니다. 이를 통해 모델은 다양한 RNA 유형의 고유한 특징을 식별할 수 있는 잠재력을 가지며, 이를 통해 다양한 다운스트림 작업에 대한 도메인 적응을 촉진합니다.
구체적으로 RNAErnie 모델은 12개의 Transformer 레이어로 구성됩니다. 주제 인식 사전 훈련 단계에서 RNAErnie는 자기 지도 학습 및 주제 인식 다단계 무작위 마스크를 사용하여 RNAcentral 데이터베이스에서 추출된 약 2,300만 개의 시퀀스로 구성된 데이터 세트에 대해 훈련됩니다.
그림: 주제 인식 사전 훈련 및 유형별 미세 조정 전략. (출처: 논문)
유형 유도 미세 조정 단계에서 RNAErnie는 먼저 출력 임베딩을 사용하여 가능한 성긴 RNA 유형을 예측한 다음 예측된 유형을 보조 정보로 사용하여 작업을 통해 모델을 미세 조정합니다. 특정 헤더.
이 접근 방식을 사용하면 모델이 다양한 RNA 유형에 적응할 수 있으며 광범위한 RNA 분석 작업에서 유용성이 향상됩니다.
보다 구체적으로, 사전 훈련된 데이터세트와 대상 도메인 간의 분포 변화에 적응하기 위해 RNAErnie는 도메인 적응을 활용하여 사전 훈련된 백본을 세 가지 신경 아키텍처의 다운스트림 모듈과 결합합니다. FBTH(Frained Backbone with Trainable Head Net), 훈련 가능한 헤드(TBTH)가 있는 훈련 가능한 백본 및 유형 유도 미세 조정(STACK)을 위한 스태킹.
이러한 방식으로 제안된 방법은 다운스트림 애플리케이션에 따라 백본 및 작업별 헤더를 엔드 투 엔드로 최적화하거나 동결된 백본에서 추출한 임베딩을 사용하여 작업별 헤더를 미세 조정할 수 있습니다.
성능 평가
그림: RNAErnie는 다단계 온톨로지 패턴을 포착합니다. (출처: 논문)
연구원들이 방법을 평가한 결과, RNAErnie는 17,000개 이상의 주요 RNA 모티프, 20개 RNA 유형 및 50,000개 이상의 RNA 서열 기술을 포괄하는 7개 RNA 서열 데이터세트에서 기존 최첨단 기술보다 뛰어난 성능을 보였습니다.
그림: ArchiveII600 및 TS0 데이터 세트를 사용한 RNA 2차 구조 예측 작업에 대한 RNAErnie의 성능. (출처: 논문)
30가지 주류 RNA 시퀀싱 기술을 사용하여 평가되었으며, RNAErnie의 일반화 및 견고성을 입증했습니다. 팀은 RNA-seq 분석 방법의 공정한 비교를 보장하기 위해 정확성, 정밀도, 재현율, F1 점수, MCC 및 AUC를 평가 지표로 사용했습니다.
현재 외부 지식이 강화된 Transformer 아키텍처를 RNA-seq 데이터 분석에 적용하는 연구는 거의 없습니다. 처음부터 끝까지 RNAErnie 프레임워크는 RNA 서열 삽입과 자기 지도 학습 전략을 통합하여 다운스트림 RNA 작업에 우수한 성능, 해석 가능성 및 일반화 가능성을 제공합니다.
또한 RNAErnie는 출력을 수정하고 신호를 모니터링하여 다른 작업에 적응할 수 있습니다. RNAErnie는 공개적으로 사용 가능하며 유형 유도 RNA 분석 및 고급 응용 프로그램을 이해하기 위한 효율적인 도구입니다.
제한 사항
RNAErnie 모델은 RNA 서열 분석에서 혁신적이지만 여전히 몇 가지 과제에 직면해 있습니다.
첫째, 모델은 분석할 수 있는 RNA 서열의 크기에 의해 제한됩니다. 512개 뉴클레오티드보다 긴 서열은 폐기되어 잠재적으로 중요한 구조적 및 기능적 정보를 간과하기 때문입니다. 더 긴 시퀀스를 처리하기 위해 개발된 차단 방법은 장거리 상호 작용에 대한 정보의 추가 손실을 초래할 수 있습니다.
둘째, 이 연구의 초점은 좁습니다. RNA 도메인에만 초점을 맞추고 RNA 단백질 예측이나 결합 부위 식별과 같은 작업으로 확장되지 않습니다. 또한 이 모델은 RNA 기능을 이해하는 데 중요한 루프 및 접합과 같은 RNA의 3차원 구조 모티프를 설명하는 데 어려움을 겪습니다.
더 중요한 것은 기존의 사후 아키텍처 설계에도 잠재적인 한계가 있다는 것입니다.
결론
그럼에도 불구하고 RNAErnie는 RNA 분석을 발전시킬 수 있는 큰 잠재력을 가지고 있습니다. 이 모델은 다양한 다운스트림 작업의 일반적인 솔루션으로서의 다양성과 효율성을 보여줍니다.
또한 RNAErnie가 채택한 혁신적인 전략은 RNA 분석에서 사전 훈련된 다른 모델의 성능을 향상시킬 것으로 예상됩니다. 이러한 발견은 RNAErnie를 귀중한 자산으로 만들어 연구자에게 RNA 관련 연구의 복잡성을 풀 수 있는 강력한 도구를 제공합니다.
논문 링크:https://www.nature.com/articles/s42256-024-00836-4
위 내용은 다기능 RNA 분석, Transformer 기반 Baidu 팀의 RNA 언어 모델이 Nature 하위 저널에 게재됨의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!