一立方毫米,听起来不大,也就是一粒芝麻的大小,但在人类的大脑中,这点儿空间却能够容纳由1.34亿个突触相连接的大约5万条神经线(neural wires)。
为了生成原始数据,生物科学家需要使用连续超薄切片电镜的方法,在11个月内对数以千计的组织碎片进行成像。
而最终获得的数据量也达到了惊人的1.4 PetaBytes(即1400TB,相当于大约200万张CD-ROM的容量) ,对于研究人员来说这简直就是个天文数字。
哈佛大学的分子和细胞生物学家Jeff Lichtman表示,如果用纯手工作业,人类根本不可能手动追踪所有的神经线,地球上甚至都没有足够多的人能够真正有效地完成这项工作。
显微镜技术的进步带来了大量的成像数据,但数据量太大,人手不足,这也是连接组学(Connectomics,一门研究大脑结构和功能连接的学科),以及其他生物领域学科中的常见现象。
但计算机科学的使命正是为解决这类人力资源不足的问题,尤其是经过优化的深度学习算法,可以从大规模数据集中挖掘出数据模式。
麻省理工学院布罗德研究所和哈佛大学剑桥分校的计算生物学家Beth Cimini表示,过去几年中,深度学习在生物学领域有着巨大的推动作用,并开发了很多研究工具。
下面是Nature编辑总结深度学习带来变革的五个生物学图像分析领域。
深度学习使研究人员能够从果蝇、老鼠甚至人类身上生成越来越复杂的连接体。
这些数据可以帮助神经科学家理解大脑是如何工作的,以及大脑结构在发育和疾病过程中是如何变化的,但神经连接并不容易绘制。
2018年,Lichtman与谷歌在加州山景城的连接组学负责人Viren Jain联手,为团队所需的人工智能算法寻找解决方案。
连接组学中的图像分析任务实际上是非常困难的,你必须能够追踪这些细线、细胞的轴突和树突,还要跨越很长的距离,传统的图像处理方法在这项任务中会出现很多错误,基本上对这项任务没有用处。
这些神经线可能比一微米还细,延伸数百微米甚至跨越毫米级的组织。
而深度学习算法不仅能够自动化地分析连接组学数据,同时还能保持很高的精度。
研究人员可以使用包含感兴趣特征的标注数据集来训练复杂的计算模型,以便能够快速识别其他数据中的相同特征。
欧洲分子生物学实验室的计算机科学家Anna Kreshuk认为,使用深度学习算法的过程类似于「举个例子」,只要例子够多,你就能把所有问题都解决掉。
但即使是使用深度学习,Lichtman和Jain团队还要完成一项艰巨的任务:绘制人类大脑皮层的片段。
在收集数据阶段,仅仅拍摄5000多个超薄的组织切片就花了326天。
两名研究人员花了大约100个小时来手动标注图像和追踪神经元,创建了一个ground truth数据集以训练算法。
使用標準資料訓練後的演算法就可以自動將影像拼接在一起,識別出神經元和突觸,並產生最終的連接體。
Jain的團隊為解決這個問題也投入了大量的運算資源,包括數千個張量處理單元(TPU) ,還耗費了幾個月時間來預處理100萬TPU小時所需的資料。
雖然研究人員已經取得到當下能收集到最大規模的資料集,能夠在非常精細的層級進行重建,但這個資料量大約只佔人類大腦的0.0001%
隨著演算法和硬體的改進,研究人員應該能夠繪製出更大的大腦區域,同時能夠分辨出更多的細胞特徵,如細胞器,甚至蛋白質。
至少,深度學習提供了可行性。
組織學(histology)是醫學上的一個重要工具,用於在化學或分子染色的基礎上診斷疾病。
但是整個過程費時費力,通常需要幾天甚至幾週的時間才能完成。
先將活組織檢查切成薄片,染色顯示細胞和亞細胞特徵,然後病理學家透過閱讀結果並對之進行解釋。
加州大學洛杉磯分校的電腦工程師Aydogan Ozcan認為可以透過深度學習的方式加速整個過程。
他訓練了一個客製化的深度學習模型,透過電腦模擬給一個組織切片上染色,將同一切片上數以萬計的未染色和染色的樣本餵給模型,並讓模型計算它們之間的差異。
虛擬染色除了有時間優勢(瞬間就能完成)外,病理學家透過觀察發現,虛擬染色和傳統染色幾乎毫無區別,專業人士也無法分辨。
實驗結果表明,演算法可以在幾秒鐘內複製乳癌生物標記HER2的分子染色,而這個過程在組織學實驗室通常需要至少24小時。
三位乳房病理學家組成的專家小組對這些影像進行了評價,認為它們的品質和準確性與傳統的免疫組織化學染色相當。
Ozcan看到了將虛擬染色商業化後在藥物研發中的應用前景,但他更希望藉此消除組織學對有毒染料和昂貴染色設備的需求。
如果你想從細胞圖像中提取數據,那麼你必須知道細胞在圖像中的實際位置,這個過程也稱為細胞分割(cell segmentation)。
研究人員需要在顯微鏡下觀察細胞,或是在軟體中一張一張勾勒出細胞的輪廓。
加州理工學院的計算生物學家Morgan Schwartz正在尋求自動化處理的方法,隨著成像資料集變得越來越大,傳統的手動方法也遇到了瓶頸,有些實驗如果不自動化就無法進行分析。
Schwartz的研究生導師、生物工程師David Van Valen創建了一套人工智慧模型,並發佈在了deepcell.org網站上,可以用來計算和分析活細胞和保存組織影像中的細胞和其他特徵。
Van Valen與史丹佛大學癌症生物學家Noah Greenwald等合作者一起也開發了一個深度學習模型Mesmer,可以快速、準確地檢測不同組織類型的細胞和細胞核。
根據Greenwald說,研究人員可以利用這些資訊來區分癌症組織和非癌症組織,並尋找治療前後的差異,或者基於影像的變化來更好地了解為什麼一些患者會有反應或沒有反應,以及確定腫瘤的亞型。
人類蛋白質圖譜計畫利用了深度學習的另一個應用:細胞內定位。
史丹佛大學的生物工程師Emma Lundberg表示,在過去幾十年間,該計畫產生了數百萬張圖像,描繪了人體細胞和組織中的蛋白質表現。
剛開始的時候,專案參與者需要手動對這些圖像進行標註,但這種方法不可持續,Lundberg開始尋求人工智慧演算法的幫助。
過去幾年,她開始在Kaggle挑戰賽中發起眾包解決方案,科學家和人工智慧愛好者為了獎金會完成各種計算任務,兩個項目的獎金分別為3.7萬美元和2.5萬美元。
參賽者會設計有監督的機器學習模型,並對蛋白質圖譜影像進行標註。
Kaggle挑戰賽獲得的成果也讓專案成員大吃一驚,獲勝的模型表現比Lundberg先前在蛋白質定位模式的多標籤分類方面要高出約20% ,並且可以泛化到細胞系(cell line)中,也取得了新的產業突破,對存在於多個細胞位置的蛋白質進行準確的分類。
有了模型,生物實驗就可以繼續前進,人類蛋白質的位置很重要,因為相同的蛋白質在不同的地方表現不同,知道一種蛋白質是在細胞核還是在粒線體中,這有助於理解它的功能。
Mackenzie Mathis是瑞士洛桑聯邦理工學院校園生物技術中心的神經科學家,長期以來一直對大腦如何驅動行為感興趣。
為此,她開發了一個名為DeepLabCut的程序,使神經科學家能夠從影片中追蹤動物的姿勢和精細動作,並將「貓咪影片」和其他動物的記錄轉化為數據。
DeepLabcut提供了一個圖形使用者介面,研究人員只需點擊一個按鈕,就可以上傳並標註影片並訓練深度學習模型。
今年4月,Mathis的團隊擴展了該軟體,可以同時為多種動物估計姿勢,這對人類和人工智慧來說都是一個全新的挑戰。
將DeepLabCut訓練後的模型應用到狨猴身上,研究人員發現,當這些動物靠得很近時,它們的身體會排成一條直線,看向相似的方向,而當它們分開時,它們傾向於面對面。
生物學家透過辨識動物的姿勢,來了解兩種動物是如何互動、注視或觀察世界的。
以上是從手工作業到工業革命! Nature文章:生物影像分析被深度學習徹底改變的五個領域的詳細內容。更多資訊請關注PHP中文網其他相關文章!