首頁 >科技週邊 >人工智慧 >多模態遙感大模型的探索與實踐,螞蟻集團遙感大模型負責人王劍帶來深度解讀

多模態遙感大模型的探索與實踐,螞蟻集團遙感大模型負責人王劍帶來深度解讀

王林
王林原創
2024-07-17 18:03:14724瀏覽

7月5日,在世界人工智慧大會組委會辦公室、上海市徐匯區人民政府指導下,由上海人工智慧實驗室、本站、全球高校人工智慧學術聯盟主辦的2024 WAIC 雲帆獎暨人工智慧青年論壇成功舉辦。論壇匯聚來自史丹佛大學、牛津大學、UCLA、加州大學、蘇黎世聯邦理工學院、香港大學、清華大學、北京大學、上海交通大學等海內外高校、研究機構及企業的30餘位往屆及新晉雲帆獎得主線下參會,凝聚國際青年AI科學家的智慧,積極探索AI能力邊界,為中國AI發展藍圖貢獻新生力量。螞蟻集團遙感大模型負責人王劍作作為2024 WAIC 雲帆獎代表之一在論壇上發表主題為「多模態遙感大模型的探索與實踐」的主題演講。

多模態遙感大模型的探索與實踐,螞蟻集團遙感大模型負責人王劍帶來深度解讀

王劍總結了遙感大模型發展的契機和當前業界的進展,並分享了螞蟻集團基於螞蟻百靈大模型平台研發的20億參數多模態遙感模型SkySense,以及SkySense的開源計畫。透過在資料、模型架構和無監督預訓練演算法等方面的技術創新,SkySense在土地利用監測、地物變化檢測等7種常見遙感感知任務,17項測評中均名列第一。同時,王劍也介紹了SkySense在農村金融、螞蟻森林林地保護等場景的應用。

以下是王劍的演講實錄:

大家午安!我是來自螞蟻集團的王劍。非常高興能在雲端帆獎論壇上分享螞蟻集團在多模態遙感大模型方向的探索與實踐。 我的分享從以下三個面向展開:一是研究背景,二是螞蟻集團研發的多模態遙感大模型SkySense,三是基於SkySense的應用。

大模型的出現帶來生成式人工智慧快速地發展,但現在在工業界,距離規模化應用還非常遙遠。雖然大模型的出現打開了AI新世界的大門,但是我們認為只有將基於大模型的創新應用深入到千行百業中,實現生產力的變革,才能帶來AI新技術範式內在價值的真正釋放。這樣的思考下,螞蟻集團積極佈置大模型的技術與應用。

多模態遙感大模型的探索與實踐,螞蟻集團遙感大模型負責人王劍帶來深度解讀

在基礎能力方面,我們建立了一個萬卡集群的算力系統,並專注於大模型安全力和知識力。首先,安全力方面,螞蟻集團自研蟻天鑑平台,為大模型的安全提供一體化解決方案,從而確保螞蟻集團的大模型安全可信。在基礎能力之上,我們建立了百靈語言大模型和百靈多模態大模型,並基於這兩個基礎的大模型,根據螞蟻集團業務的特點,我們重點關注大模型在金融、醫療、民生、安全、遙感、代碼等產業的應用,以此服務消費者及企業客戶,進而推動可信智能,服務產業發展。整個體系還是非常龐大的,接下來我用大模型在遙感方面的應用作為切入點,跟大家分享我們在整個大模型領域的一些思考與實踐。

語言以及視覺大模型的發展為遙感大模型的研發提供了許多重要參考。例如大語言模型,當它拓展到多模態領域之後,之前的一些視覺任務,例如OCR,VQA等任務都表現出很好的效果。在純視覺大模型方面,類似SAM這樣的演算法,在分類、偵測、分割的任務上表現出強烈的表現。遙感領域主要解決的任務也是分類、偵測、分割,自然而然的想法是把視覺大模型成功的經驗應用在遙感領域。

另一方面,隨著遙感技術的高速發展,遙感領域持續生產了海量的多時相的遙感數據,這些數據有跟自然影像比較像的可見光影像,光譜資訊比較多的多光譜數據,還有雷達SAR影像,這些資料來自不同的衛星,不同的感測器,我們可以將他們視為不同模態的資料。這些數據都是沒有經過標註的,而且標註這些數據不僅費時費力,而且很多情況下只有依賴專家經驗才能進行。只有借助無監督的演算法,才能把這些數據的價值充分發揮。近年來,業界出現了許多遙感影像資料取得的管道,例如歐空局哥白尼平台,GoogleGEE平台,中國資源衛星中心的資料平台,這些平台都為我們取得遙感資料提供了便利。綜上,遙感領域有許多容易取得的數據,再結合視覺大模型的成功經驗,這些因素為遙感大模型的研發提供很好的契機與動力。

多模態遙感大模型的探索與實踐,螞蟻集團遙感大模型負責人王劍帶來深度解讀

這張圖展示了近年來發布的遙感大模型。大家可以看到,從2021年開始業界就有用無監督預訓練的演算法做遙感影像的識別,這裡面有像SeCo這樣的模型。隨後越來越多的公司和機構參與進來,這裡面有很多代表性的工作,例如2022年中國科學院空天院發布的RingMo模型,2023年Satlas模型,前不久復旦大學發布的GRAFT模型。這一幅圖裡面也可以看到幾個明顯趨勢,模型的資料和參數的規模越來越大,效能也越來越強。從最早的支援單模態的數據,到現在融合多模態的數據,從最早的只能覆蓋單一資料來源的影像,到現在可以融合多重資料來源的影像,從早期的僅支援單張靜態影像的解譯,到融合整個時序影像的訊息。整個趨勢跟語言和視覺大模型的發展趨勢是一致的,可以預見接下來肯定會出現表現更強,參數量更大的遙感大模型。

多模態遙感大模型的探索與實踐,螞蟻集團遙感大模型負責人王劍帶來深度解讀

回到螞蟻,螞蟻為什麼要做遙感大模型?因為螞蟻有很多的金融業務,其中一個是農村金融。大家在金融業,如果問什麼最難,我相信99%的人一定會說是農村金融最難。農村金融主體客戶就是農民,農民不同於公司白領,有很好的信用資料。農民跟小微企業主相比,缺乏銀行認可的抵押物。此外,銀行在農村據點覆蓋非常少,沒辦法規模化線下地調以確定農民的資產。這背後主要的痛點是,身為農民主要資產的土地價值,沒辦法大規模數位化。

針對這個痛點,螞蟻旗下網商銀行在2019年做了一套利用衛星遙感和AI影像辨識的資產評估系統,具體是透過衛星遙感影像結合人工智慧的演算法,辨識農戶田地種了什麼莊稼,種的多大,種的好不好等信息,透過這些資訊綜合分析農戶種植情況,從而確定資產價值,給他提供信貸服務。早期以辨識主糧作物為主,稻米、玉米、小麥等,服務了百萬級農戶。

當我們把這套系統推向蘋果、柑橘等經濟作物時,識別遇到一些難題。因為經濟作物相比主糧作物,種植更加稀疏,種植方式更加多樣,而且品類非常長尾,比如說主糧作物種類只有幾類,經濟作物可以達到幾十類之多,所以在全國範圍內識別如此多的農作物種類,在遙感領域都是難解的問題。從技術視角分析,我們可以使用少樣本學習、多模態時序演算法、通用表徵提昇模型泛化性能的方式來提升模型效果,而這些技術特點恰恰是基礎模型具備的特點,所以在這樣的情況下,我們決定研發遙感大模型。

下面總結一下螞蟻集團做遙感大模型的契機和動力。

技術層面上,基礎模型的技術快速發展,而且現在具備商業化的潛力。數據層面上,遙感領域有大量豐富的遙感數據,為遙感大模型研發奠定基礎。業務層面上,可以滿足螞蟻多模態、多時序、多任務場景的需求。在這些因素的驅動下,螞蟻集團聯合武漢大學遙感學院研發了多模態遙感大數據SkySense。

為了訓練這個模型,我們採集了分佈於全球的2150萬組樣本,每一組樣本都包含了高分光學、時序光學、雷達SAR影像。這些數據涵蓋全球40多個國家和地區,覆蓋土地達878萬平方公里,有300TB。

多模態遙感大模型的探索與實踐,螞蟻集團遙感大模型負責人王劍帶來深度解讀

在模型結構上,為了更好的融合不同模態的訊息,我們設計了多粒度對比學習的方式,針對遙感影像的特點,提出了時空感知嵌入的演算法。這些對提升遙感基礎模型的效能都是非常有幫助的。

遙感領域還有另一個特點,一整張遙感影像通常非常大,沒有辦法同時放到GPU裡面做訓練,所以業界通常的做法就是將整個遙感影像切成一個小塊,以適配GPU的顯存。這樣做有一個明顯的問題,對每一個小塊訓練來說都會失去上下文資訊。針對這種情況,我們也發展了一個地理空間敏感的上下文學習演算法,可以隱式產生時空敏感的地學知識。

多模態遙感大模型的探索與實踐,螞蟻集團遙感大模型負責人王劍帶來深度解讀

目前,SkySense的參數規模達到20.6億,模型訓練方式上,除了常用的無監督對比學習預訓練方式外,我們還針對遙感影像的特點,提出了透過時空解耦來聯合高分光學,時序光學,時序SAR等資料路徑的互監督學習與生成式學習的方法,以靈活支持下游不同模態,不同時序組合的遙感解譯任務。目前SkySense在土地監測利用、目標偵測等17類評測資料集都達到好的效果,相關論文被CVPR2024(IEEE國際電腦視覺與模式辨識會議)收錄。

訓練這個模型需要投入很多儲存、算力以及人力資源,我們非常希望跟業界共享SkySense,以發揮它的價值,並促進整個遙感解譯領域的發展。今年6月15日,我們已經開始定向地給一些科研機構試用遙感的大模型。在使用過程中,大家也有很多回饋,例如有的回饋說20億參數太大,很多場景不需要那麼大參數的模型。針對這種情況,我們研發了一套演算法,透過一次預訓練,可以產生多個尺寸的小模型,而且對於每一個小模型而言,都比直接訓練這個尺寸的模型效果會更好。

多模態遙感大模型的探索與實踐,螞蟻集團遙感大模型負責人王劍帶來深度解讀

在實際的產業應用中,僅僅有模型的權重參數遠遠不夠,還必須要有與之相匹配的數據系統和產品系統,才能真正發揮大模型的價值。這是螞蟻集團遙感技術的大圖,在數據層面上我們研發了時空資料庫,用來管理不同模態,不同來源的數據,以支援遙感大模型高效的訓練和推理。此外,我們聯合武漢大學遙感學院,研發了國產遙感資料預處理系統,透過攝影測量遙感一體化技術,大幅提升國產資料的品質。在產品方面,我們研發了mEarth智慧遙感工作台,這個工作台可以一站式進行資料資產管理,資料生產加工,模型的訓練和業務應用能力的搭建,從而能夠高效靈活地支援下游各種應用場景的接入。

多模態遙感大模型的探索與實踐,螞蟻集團遙感大模型負責人王劍帶來深度解讀

接下來分享SkySense的應用實作。在前面提到的農村金融場景,透過衛星遙感以及遙感大模型識別的方式,我們能夠精準地識別不同時期農作物的種類,以及是否受到病蟲害等信息,還能分析出這個農作物正處在什麼生長週期,根據不同的生長週期來匹配多樣化的金融服務,從而為農民提供更好信貸的支持。

多模態遙感大模型的探索與實踐,螞蟻集團遙感大模型負責人王劍帶來深度解讀

螞蟻森林已經種了4.75億棵樹,守護4800平方公里的社會公益保護地,要保護這麼多林地,必須藉助科技手段。我們透過衛星遙感和無人機空拍,結合遙感大模型辨識的方式,高效監測螞蟻森林林地的狀態,實現數位化的生態保護與修復。

多模態遙感大模型的探索與實踐,螞蟻集團遙感大模型負責人王劍帶來深度解讀

碳彙的計算測量是ESG領域非常重要的議題,現在的碳匯計算嚴重依賴人工,阻礙了碳匯交易的發展,我們試驗透過衛星遙感和大模型技術,開發一套零人工幹預或降低人工幹預的碳匯系統方案,嘗試做出一個林區變化監控和生物量增量估算系統。

多模態遙感大模型的探索與實踐,螞蟻集團遙感大模型負責人王劍帶來深度解讀

這是在森林保護​​計畫中,我們透過遙感大模型支持自然風化的變化檢測和人為破壞的變化檢測,從而實現大規模林地定期監測和保護。

多模態遙感大模型的探索與實踐,螞蟻集團遙感大模型負責人王劍帶來深度解讀

這是透過遙感大模型對吉林四平市主糧作物識別的結果,可以看到,在這種種植情況比較複雜的區域,遙感大模型也能夠在像素級別做出精準識別。

多模態遙感大模型的探索與實踐,螞蟻集團遙感大模型負責人王劍帶來深度解讀

This is in Luochuan, Shaanxi Province. In this area with complex terrain structure, the accuracy of SkySense's identification of apple planting can reach more than 95%.

多模態遙感大模型的探索與實踐,螞蟻集團遙感大模型負責人王劍帶來深度解讀

At the same time, we also used SkySense to analyze the nightlight data of global regions to show the economic activity of different regions. It is obvious that the Shanghai regional economy is very active.

The above is my sharing, thank you everyone!

以上是多模態遙感大模型的探索與實踐,螞蟻集團遙感大模型負責人王劍帶來深度解讀的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn