그림 1과 같이 적대적 공격을 통해 이미지 픽셀을 수정함으로써 GPT-4o는 꼬리 사자 동상을 파리의 에펠탑이나 런던의 빅벤으로 잘못 식별하게 됩니다. . 이러한 오류 대상의 내용은 모델 애플리케이션의 안전한 경계를 넘어서도 마음대로 사용자 정의할 수 있습니다. ㅋㅋ ~탈옥 공격 시나리오에서 Claude는 텍스트 형식의 악성 요청을 성공적으로 거부했지만, 사용자가 추가로 관련 없는 단색 사진을 입력하면 모델은 사용자의 요청에 따라 거짓 뉴스를 출력했습니다. 이는 대규모 다중 모드 모델이 대규모 언어 모델보다 더 많은 위험과 과제를 안고 있음을 의미합니다. 이 두 가지 예 외에도 다중 모드 대형 모델에는 환상, 편견 및 개인 정보 유출과 같은 다양한 보안 위협이나 사회적 위험이 있으며 이는 실제 응용 프로그램의 신뢰성과 신뢰성에 심각한 영향을 미칩니다. 이러한 취약점 문제는 우연히 발생합니까, 아니면 널리 퍼져 있습니까? 다양한 다중 모드 대형 모델의 신뢰성에는 어떤 차이가 있으며, 그 출처는 어디입니까? 최근 Tsinghua University, Beihang University, Shanghai Jiao Tong University 및 Ruilai Intelligence의 연구원들은 공동으로 100페이지 분량의 기사를 작성하고 MultiTrust라는 포괄적인 벤치마크를 발표했습니다. 다양한 차원과 관점 대형 모델의 신뢰성은 다양한 잠재적인 보안 위험을 보여주고 다중 모드 대형 모델의 다음 개발에 영감을 줍니다.
- 논문 제목: Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study
- 논문 링크: https://arxiv.org/pdf/2406.07057
- 프로젝트 홈페이지: https:// multi-trust.github.io/
- 코드 저장소: https://github.com/thu-ml/MMTrustEval 대규모 모델 평가 작업에서 MultiTrust는 진실성, 안전성, 견고성, 공정성, 개인정보 보호 등을 2차 분류하고, 작업, 지표, 데이터 세트를 타겟 방식으로 구축하여 종합적인 평가를 제공합니다. ㅋㅋ 작업 시나리오는 순수 텍스트 작업과 다중 모달 작업을 포괄하는 차별 및 생성 작업을 다룹니다. 작업에 해당하는 데이터 세트는 공개된 텍스트 또는 이미지 데이터 세트를 기반으로 변환 및 적용될 뿐만 아니라, 수동 수집 또는 알고리즘 합성을 통해 좀 더 복잡하고 까다로운 데이터가 구성됩니다. ㅋㅋㅋ 그림 5 다중 신뢰 작업 목록
대형 언어 모델(LLM)의 신뢰도 평가와는 달리 ML의 다중 모달 기능은 더욱 다양하고 복잡한 위험 시나리오와 가능성. 체계적인 평가를 더 잘 수행하기 위해 MultiTrust 벤치마크는 전통적인 행동 평가 차원에서 시작할 뿐만 아니라 다중 모드 위험과 교차 모드 영향이라는 두 가지 평가 관점을 혁신적으로 도입하여 새로운 모드로 인해 발생하는 새로운 문제를 포괄적으로 다루고 있습니다. . 새로운 도전.险 그림 6 다중 모드 위험 및 교차 모듈 영향의 위험 특히 다중 모드 위험은 다중 모드 장면으로 인해 발생하는 새로운 위험을 의미합니다. 잘못된 정보, 안전 문제와 관련된 다중 모달 추론의 잘못된 판단. 모델은 사진 속 알코올을 정확하게 식별할 수 있지만, 추가 추론을 통해 일부 모델은 알코올을 세팔로스포린 약물과 공유할 때 발생할 수 있는 잠재적 위험을 인식하지 못합니다. 涉 그림 7 보안 문제와 관련된 추론의 모델은 잘못된 판단을 가지고 있음 교차 모드 효과는 관련 없는 이미지 입력과 같이 새로운 모드 추가가 원본 모드의 신뢰성에 미치는 영향을 의미하며 변경될 수 있습니다. 일반 텍스트 시나리오에서 대규모 언어 모델 백본 네트워크의 신뢰할 수 있는 동작으로 인해 더 예측할 수 없는 보안 위험이 발생합니다. 대형 언어 모델의 신뢰성 평가에 흔히 사용되는 탈옥 공격이나 상황별 개인 정보 유출 작업에서 텍스트와 아무런 관련이 없는 그림을 모델에 제공하면 원래의 보안 행위가 파괴될 수 있다(그림 2).
> ------신뢰도 목록 실시간 업데이트(일부) 연구원 정기적으로 업데이트되는 다중 모드 데이터베이스 유지 GPT-4o 및 Claude3.5와 같은 최신 모델이 모델 신뢰성 목록에 추가되었습니다. 전반적으로 폐쇄 소스 상용 모델은 주류 오픈 소스 모델보다 더 안전하고 신뢰할 수 있습니다. 그 중 신뢰도에서는 OpenAI의 GPT-4와 Anthropic의 Claude가 가장 높았고, 보안 정렬을 추가한 Microsoft Phi-3는 오픈소스 모델 중에서 가장 높은 순위를 기록했지만 여전히 폐쇄소스 모델과는 일정한 격차가 있습니다. GPT-4, Claude, Gemini와 같은 상용 모델은 보안 및 신뢰성을 위해 많은 강화 기술을 구현했지만 여전히 일부 보안 및 신뢰성 위험이 있습니다. 예를 들어, 적대적 공격, 다중 모드 탈옥 공격 등에 여전히 취약성을 보여 사용자 경험과 신뢰를 크게 방해합니다. 주류 일반 목록에 있는 많은 오픈 소스 모델의 점수는 다음과 동일하지만 GPT-4보다 훨씬 뛰어났습니다. 신뢰 수준 테스트에서 이러한 모델은 여전히 다양한 측면에서 약점과 허점을 보여주었습니다. 예를 들어 훈련 단계에서 일반 기능(예: OCR)을 강조하면 탈옥된 텍스트와 민감한 정보를 이미지 입력에 삽입하는 것이 더 위협적인 위험 원인이 됩니다. 교차 모드 효과의 실험 결과를 바탕으로 저자는 다중 모드 훈련 및 추론이 대규모 언어 모델의 안전한 정렬 메커니즘을 약화시킬 것이라는 사실을 발견했습니다. 많은 다중 모드 대형 모델은 정렬된 대형 언어 모델을 백본 네트워크로 사용하고 다중 모드 훈련 프로세스 중에 미세 조정합니다. 결과는 이들 모델이 여전히 큰 보안 취약성과 확실한 위험을 안고 있음을 보여줍니다. 동시에 여러 순수 텍스트 신뢰성 평가 작업에서 추론 중에 이미지를 도입하면 모델의 신뢰할 수 있는 동작에 영향과 간섭이 발생합니다. 后 After the image is introduced in Figure 10, the model is more inclined to leak the privacy content in the text. Experiments have shown that the credibility of the multi -mode and large models is related to its universal ability, but There are still differences in model performance in different credibility evaluation dimensions. Currently common multi-modal large model-related algorithms, such as fine-tuning data sets generated with the help of GPT-4V, RLHF for hallucinations, etc., are not enough to fully enhance the credibility of the model. The existing conclusions also show that multi-modal large models have unique challenges that are different from large language models, and innovative and efficient algorithms are needed for further improvement. See the paper for detailed results and analysis. Future DirectionsThe research results indicate that improving the credibility of multi-modal large models requires special attention from researchers. By drawing on large language model alignment solutions, diversified training data and scenarios, and paradigms such as Retrieval Enhanced Generation (RAG) and Constitutional AI (Constitutional AI) can help improve to a certain extent. But the credibility improvement of multi-modal large models goes beyond this. Alignment between modalities and the robustness of visual encoders are also key influencing factors. In addition, enhancing the performance of models in practical applications through continuous evaluation and optimization in dynamic environments is also an important direction in the future. With the release of the MultiTrust benchmark, the research team also released the multi-modal large model trustworthiness evaluation toolkit MMTrustEval. Its model integration and evaluation modularity characteristics provide important information for the credibility research of multi-modal large models. tool. Based on this work and toolkit, the team organized a multi-modal large model security-related data and algorithm competition [1,2] to promote trustworthy research on large models. In the future, with the continuous advancement of technology, multi-modal large models will show their potential in more fields, but the issue of their credibility still requires continued attention and in-depth research.
[1] CCDM2024 Multimodal Large Language Model Red Team Security Challenge http://116.112.3.114:8081/sfds-v1-html/main [2] The 3rd Pazhou Algorithm Competition - Multimodal Large Model Algorithm Security Reinforcement Technology https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000