清華領軍發布多模態評估MultiTrust：GPT-4可信度有幾何？-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

清華領軍發布多模態評估MultiTrust：GPT-4可信度有幾何？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 24, 2024 pm 08:38 PM

工程多模態大模型

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本工作由清華大學朱軍教授領導的基礎理論創新團隊發起。長期以來，團隊著眼於目前人工智慧發展的瓶頸問題，探索原創性人工智慧理論和關鍵技術，在智慧演算法的對抗安全理論和方法研究中處於國際領先水平，深入研究深度學習的對抗穩健性和數據利用效率等基礎共通性問題。相關工作獲吳文俊人工智慧自然科學第一名，發表CCF A類論文100餘篇，研發開源的ARES對抗攻防演算法平台（https://github.com/thu-ml/ares），並實現部分專利產學研轉化落地應用。

以GPT-4o為代表的多模態大語言模型（MLLMs）因其在語言、圖像等多種模態上的卓越表現而備受矚目。它們不僅在日常工作中成為使用者的得力助手，也逐漸滲透到自動駕駛、醫學診斷等各大應用領域，掀起了一場科技革命。

然而，多模態大模型是否安全可靠呢？

如圖1所示，透過對抗攻擊修改影像像素，GPT-4o將新加坡的魚尾獅雕像，錯誤認定為巴黎的艾菲爾鐵塔或倫敦的大笨鐘。這樣的錯誤目標內容可以隨意定制，甚至超出模型應用的安全界限。

圖2 Claude3越獄範例時

清華領軍發布多模態評估MultiTrust：GPT-4可信度有幾何？

而在越獄攻擊場景下，雖然Claude成功拒絕了文字形式下的惡意請求，但當使用者額外輸入一張純色無關圖片時，模型按照使用者要求輸出了虛假新聞。這意味著多模態大模型相比大語言模型，有更多的風險挑戰。

除了這兩個例子以外，多模態大模型還存在幻覺、偏見、隱私洩漏等各類安全威脅或社會風險，會嚴重影響它們在實際應用中的可靠性和可信度。這些漏洞問題到底是偶然發生，還是普遍存在？不同多模態大模型的可信性又有何區別，來源何處？

近日，來自清華、北航、上交和瑞萊智慧的研究人員聯合撰寫百頁長文，發布名為MultiTrust的綜合基準，首次從多個維度和視角全面評估了主流多模態大模型的可信度，展示了其中多個潛在安全風險，啟發多模態大模型的下一步發展。

論文標題：Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study
論文連結：https://arxiviv.org/pdf/17507575072037250302330203023023030373字：標. multi-trust.github.io/
程式碼倉庫：https://github.com/thu-ml/MMTrustEval
程式碼倉庫：https://github.com/thu-ml/MMTrustEval

的大模型評估工作中，MultiTrust提煉出了五個可信評價維度－事實性（Truthfulness）、安全性（Safety）、穩健性（Robustness）、公平性（Fairness）、隱私保護（Privacy），並進行二級分類，有針對性地建構了任務、指標、資料集來提供全面的評估。

個可信評價子維度，MultiTrust建構了32個多樣的任務場景，涵蓋了判別和生成任務，跨越了純文本任務和多模態任務。任務對應的資料集不僅基於公開的文字或影像資料集進行改造和適配，還透過人工收集或演算法合成建構了部分更為複雜和具有挑戰性的資料。

清華領軍發布多模態評估MultiTrust：GPT-4可信度有幾何？

與大語言模型（LLMs）的可信評價不同，MLLM的多模態特徵帶來了更多樣化、更複雜的風險場景和可能。為了更好地進行系統性評估，MultiTrust基準不僅從傳統的行為評估維度出發，更創新地引入了多模態風險和跨模態影響這兩個評價視角，全面涵蓋新模態帶來的新問題新挑戰。

示意性

具體地，多模態風險指的是多模態場景中帶來的新風險，例如模型在處理視覺誤導訊息時可能出現的錯誤回答，以及在涉及安全問題的多模態推理中出現誤判。儘管模型可以正確識別圖中的酒水，但在進一步的推理中，部分模型並不能意識到其與頭孢藥物共用的潛在風險。

^{圖7態可信度的影響，例如無關影像的輸入可能會改變大語言模型骨幹網路在純文字場景中的可信行為，導致更多不可預測的安全風險。在大語言模型可信性評估常用的越獄攻擊和上下文隱私洩漏任務中，如果提供給模型一張與文本無關的圖片，原本的安全行為就可能被破壞（如圖2）。}

結果分析與關鍵結論

研究人員維護了一個定期更新的多模態大模型可信度榜單，已經加入了GPT-4o、Claude3.5等最新的模型，整體來看，閉源商用模型相比主流開源模型更為安全可靠。其中，OpenAI的GPT-4和Anthropic的Claude的可信性排名最靠前，而加入安全對齊的Microsoft Phi-3則在開源模型中排名最高，但仍與閉源模型有一定的差距。

GPT-4、Claude、Gemini等商用模型針對安全可信已經做過許多加固技術，但仍存在部分安全可信風險。例如，他們仍然對對抗攻擊、多模態越獄攻擊等展現出了脆弱性，極大地干擾了使用者的使用體驗和信任程度。

Gemini在多模態越獄攻擊下輸出風險內容

儘管許多開源模型在主流通用榜單上的分數已經與GPT-4相當甚至更優，但在可信賴層面的測驗中，這些模型還是展現了不同面向的弱點和漏洞。例如在訓練階段對通用能力（如OCR）的重視，使得將越獄文字、敏感資訊嵌入圖像輸入成為更具威脅性的風險來源。

基於跨模態效應的實驗結果，作者發現多模態訓練和推理會削弱大語言模型的安全對齊機制。許多多模態大模型會採用對齊過的大語言模型作為骨幹網絡，並在多模態訓練過程中微調。結果表明，這些模型依然展現出較大的安全漏洞和可信賴風險。同時，在多個純文字的可信評估任務上，在推理時引入圖像也會對模型的可信行為帶去影響和乾擾。

后 그림 10에 이미지가 소개된 이후에는 모델이 텍스트의 개인 정보 보호 내용을 유출하는 경향이 더 커졌습니다. 실험 결과 다중 모드 및 대형 모델의 신뢰성은 범용 능력과 관련이 있는 것으로 나타났습니다. 그러나 여전히 차이점이 있습니다. 다양한 신뢰성 평가 차원에서 모델 성능. GPT-4V의 도움으로 생성된 미세 조정 데이터 세트, 환각에 대한 RLHF 등과 같은 현재 일반적인 다중 모드 대형 모델 관련 알고리즘은 모델의 신뢰성을 완전히 향상시키기에 충분하지 않습니다. 기존 결론은 또한 다중 모드 대형 모델이 대형 언어 모델과 다른 고유한 과제를 가지고 있으며 추가 개선을 위해 혁신적이고 효율적인 알고리즘이 필요하다는 것을 보여줍니다.

자세한 결과와 분석은 논문을 참조하세요.

Future Directions

연구 결과에 따르면 다중 모드 대형 모델의 신뢰성을 높이려면 연구자들의 특별한 관심이 필요합니다. 대규모 언어 모델 정렬 솔루션, 다양한 훈련 데이터 및 시나리오, RAG(Retrieval Enhanced Generation) 및 Constitutional AI(Constitutional AI)와 같은 패러다임을 활용하면 어느 정도 개선에 도움이 될 수 있습니다. 그러나 다중 모드 대형 모델의 신뢰성 향상은 이보다 더 중요합니다. 양식 간의 정렬과 시각적 인코더의 견고성도 중요한 영향을 미치는 요소입니다. 또한, 동적 환경에서 지속적인 평가와 최적화를 통해 실제 응용 분야에서 모델의 성능을 향상시키는 것도 앞으로 중요한 방향입니다.

MultiTrust 벤치마크 출시와 함께 연구팀은 다중 모드 대형 모델 신뢰성 평가 툴킷 MMTrustEval도 출시했습니다. 모델 통합 및 평가 모듈성 특성은 다중 모드 대형 모델 도구의 신뢰성 연구에 중요한 정보를 제공합니다. . 이 작업과 툴킷을 기반으로 팀은 대형 모델에 대한 신뢰할 수 있는 연구를 촉진하기 위해 다중 모드 대형 모델 보안 관련 데이터 및 알고리즘 대회[1,2]를 조직했습니다. 앞으로도 지속적인 기술 발전에 따라 다중 모드 대형 모델은 더 많은 분야에서 잠재력을 발휘할 것이지만, 신뢰성 문제는 여전히 지속적인 관심과 심층적인 연구가 필요합니다.

참조 링크:

^{[1] CCDM2024 멀티모달 대형 언어 모델 레드팀 보안 챌린지 http://116.112.3.114:8081/sfds-v1-html/main}

^{[2] 제3회 파저우 알고리즘 공모전 - 멀티모달 대형 모델 알고리즘 보안 강화 기술 https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000}

以上是清華領軍發布多模態評估MultiTrust：GPT-4可信度有幾何？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn