>기술 주변기기 >일체 포함 >칭화대학교는 다중 모드 평가 출시에 앞장서고 있습니다. MultiTrust: GPT-4는 얼마나 신뢰할 수 있나요?

칭화대학교는 다중 모드 평가 출시에 앞장서고 있습니다. MultiTrust: GPT-4는 얼마나 신뢰할 수 있나요?

WBOY
WBOY원래의
2024-07-24 20:38:59391검색
칭화대학교는 다중 모드 평가 출시에 앞장서고 있습니다. MultiTrust: GPT-4는 얼마나 신뢰할 수 있나요?
AIxiv 칼럼은 본 사이트에 학술적, 기술적 내용을 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

이 작업은 칭화 대학교 Zhu Jun 교수가 이끄는 기초 이론 혁신 팀에 의해 시작되었습니다. 오랫동안 우리 팀은 인공 지능 개발의 현재 병목 현상 문제에 집중하고 독창적인 인공 지능 이론과 핵심 기술을 탐구해 왔으며 적대적 보안 이론 및 지능형 알고리즘 방법에 대한 연구에서 국제 선두 수준에 있습니다. 또한, 데이터 활용 효율성 등 기본적인 공통 이슈에 대해 딥러닝의 적대적 견고성과 효율성에 대한 심도 있는 연구를 수행했습니다. 관련 연구로 Wu Wenjun 인공지능 자연과학상 1등상 수상, 100개 이상의 CCF Class A 논문 게재, 오픈 소스 ARES 역습 공격 및 방어 알고리즘 플랫폼 개발(https://github.com/thu-ml/ares) , 일부 특허 제품을 실현했습니다. 학습과 연구를 실제 적용으로 전환합니다.

GPT-4o로 대표되는 MLLM(Multi-modal Large Language Model)은 언어, 이미지 등 다양한 양식에서 뛰어난 성능으로 많은 주목을 받았습니다. 일상 업무에서 사용자의 오른팔 보조자가 되었을 뿐만 아니라 자율주행, 의료 진단 등 주요 응용 분야에도 점차 침투하며 기술 혁명을 일으키고 있습니다.
그런데 멀티모달 대형 모델은 안전하고 믿을 수 있을까요? ㅋㅋㅋ ~         

칭화대학교는 다중 모드 평가 출시에 앞장서고 있습니다. MultiTrust: GPT-4는 얼마나 신뢰할 수 있나요?그림 1과 같이 적대적 공격을 통해 이미지 픽셀을 수정함으로써 GPT-4o는 꼬리 사자 동상을 파리의 에펠탑이나 런던의 빅벤으로 잘못 식별하게 됩니다. . 이러한 오류 대상의 내용은 모델 애플리케이션의 안전한 경계를 넘어서도 마음대로 사용자 정의할 수 있습니다. ㅋㅋ ~

탈옥 공격 시나리오에서 Claude는 텍스트 형식의 악성 요청을 성공적으로 거부했지만, 사용자가 추가로 관련 없는 단색 사진을 입력하면 모델은 사용자의 요청에 따라 거짓 뉴스를 출력했습니다. 이는 대규모 다중 모드 모델이 대규모 언어 모델보다 더 많은 위험과 과제를 안고 있음을 의미합니다.

이 두 가지 예 외에도 다중 모드 대형 모델에는 환상, 편견 및 개인 정보 유출과 같은 다양한 보안 위협이나 사회적 위험이 있으며 이는 실제 응용 프로그램의 신뢰성과 신뢰성에 심각한 영향을 미칩니다. 이러한 취약점 문제는 우연히 발생합니까, 아니면 널리 퍼져 있습니까? 다양한 다중 모드 대형 모델의 신뢰성에는 어떤 차이가 있으며, 그 출처는 어디입니까?

최근 Tsinghua University, Beihang University, Shanghai Jiao Tong University 및 Ruilai Intelligence의 연구원들은 공동으로 100페이지 분량의 기사를 작성하고 MultiTrust라는 포괄적인 벤치마크를 발표했습니다. 다양한 차원과 관점 대형 모델의 신뢰성은 다양한 잠재적인 보안 위험을 보여주고 다중 모드 대형 모델의 다음 개발에 영감을 줍니다.
칭화대학교는 다중 모드 평가 출시에 앞장서고 있습니다. MultiTrust: GPT-4는 얼마나 신뢰할 수 있나요?

대형 언어 모델(LLM)의 신뢰도 평가와는 달리 ML의 다중 모달 기능은 더욱 다양하고 복잡한 위험 시나리오와 가능성. 체계적인 평가를 더 잘 수행하기 위해 MultiTrust 벤치마크는 전통적인 행동 평가 차원에서 시작할 뿐만 아니라 다중 모드 위험과 교차 모드 영향이라는 두 가지 평가 관점을 혁신적으로 도입하여 새로운 모드로 인해 발생하는 새로운 문제를 포괄적으로 다루고 있습니다. . 새로운 도전.险 그림 6 다중 모드 위험 및 교차 모듈 영향의 위험

특히 다중 모드 위험은 다중 모드 장면으로 인해 발생하는 새로운 위험을 의미합니다. 잘못된 정보, 안전 문제와 관련된 다중 모달 추론의 잘못된 판단. 모델은 사진 속 알코올을 정확하게 식별할 수 있지만, 추가 추론을 통해 일부 모델은 알코올을 세팔로스포린 약물과 공유할 때 발생할 수 있는 잠재적 위험을 인식하지 못합니다.

칭화대학교는 다중 모드 평가 출시에 앞장서고 있습니다. MultiTrust: GPT-4는 얼마나 신뢰할 수 있나요?涉 그림 7 보안 문제와 관련된 추론의 모델은 잘못된 판단을 가지고 있음

교차 모드 효과는 관련 없는 이미지 입력과 같이 새로운 모드 추가가 원본 모드의 신뢰성에 미치는 영향을 의미하며 변경될 수 있습니다. 일반 텍스트 시나리오에서 대규모 언어 모델 백본 네트워크의 신뢰할 수 있는 동작으로 인해 더 예측할 수 없는 보안 위험이 발생합니다. 대형 언어 모델의 신뢰성 평가에 흔히 사용되는 탈옥 공격이나 상황별 개인 정보 유출 작업에서 텍스트와 아무런 관련이 없는 그림을 모델에 제공하면 원래의 보안 행위가 파괴될 수 있다(그림 2).
결과 분석 및 주요 결론
칭화대학교는 다중 모드 평가 출시에 앞장서고 있습니다. MultiTrust: GPT-4는 얼마나 신뢰할 수 있나요?
                                                           >
------신뢰도 목록 실시간 업데이트(일부)

연구원 정기적으로 업데이트되는 다중 모드 데이터베이스 유지 GPT-4o 및 Claude3.5와 같은 최신 모델이 모델 신뢰성 목록에 추가되었습니다. 전반적으로 폐쇄 소스 상용 모델은 주류 오픈 소스 모델보다 더 안전하고 신뢰할 수 있습니다. 그 중 신뢰도에서는 OpenAI의 GPT-4와 Anthropic의 Claude가 가장 높았고, 보안 정렬을 추가한 Microsoft Phi-3는 오픈소스 모델 중에서 가장 높은 순위를 기록했지만 여전히 폐쇄소스 모델과는 일정한 격차가 있습니다.

GPT-4, Claude, Gemini와 같은 상용 모델은 보안 및 신뢰성을 위해 많은 강화 기술을 구현했지만 여전히 일부 보안 및 신뢰성 위험이 있습니다. 예를 들어, 적대적 공격, 다중 모드 탈옥 공격 등에 여전히 취약성을 보여 사용자 경험과 신뢰를 크게 방해합니다.
칭화대학교는 다중 모드 평가 출시에 앞장서고 있습니다. MultiTrust: GPT-4는 얼마나 신뢰할 수 있나요?
주류 일반 목록에 있는 많은 오픈 소스 모델의 점수는 다음과 동일하지만 GPT-4보다 훨씬 뛰어났습니다. 신뢰 수준 테스트에서 이러한 모델은 여전히 ​​다양한 측면에서 약점과 허점을 보여주었습니다. 예를 들어 훈련 단계에서 일반 기능(예: OCR)을 강조하면 탈옥된 텍스트와 민감한 정보를 이미지 입력에 삽입하는 것이 더 위협적인 위험 원인이 됩니다.
교차 모드 효과의 실험 결과를 바탕으로 저자는 다중 모드 훈련 및 추론이 대규모 언어 모델의 안전한 정렬 메커니즘을 약화시킬 것이라는 사실을 발견했습니다. 많은 다중 모드 대형 모델은 정렬된 대형 언어 모델을 백본 네트워크로 사용하고 다중 모드 훈련 프로세스 중에 미세 조정합니다. 결과는 이들 모델이 여전히 큰 보안 취약성과 확실한 위험을 안고 있음을 보여줍니다. 동시에 여러 순수 텍스트 신뢰성 평가 작업에서 추론 중에 이미지를 도입하면 모델의 신뢰할 수 있는 동작에 영향과 간섭이 발생합니다.

后 After the image is introduced in Figure 10, the model is more inclined to leak the privacy content in the text. Experiments have shown that the credibility of the multi -mode and large models is related to its universal ability, but There are still differences in model performance in different credibility evaluation dimensions. Currently common multi-modal large model-related algorithms, such as fine-tuning data sets generated with the help of GPT-4V, RLHF for hallucinations, etc., are not enough to fully enhance the credibility of the model. The existing conclusions also show that multi-modal large models have unique challenges that are different from large language models, and innovative and efficient algorithms are needed for further improvement.
See the paper for detailed results and analysis.

Future Directions

The research results indicate that improving the credibility of multi-modal large models requires special attention from researchers. By drawing on large language model alignment solutions, diversified training data and scenarios, and paradigms such as Retrieval Enhanced Generation (RAG) and Constitutional AI (Constitutional AI) can help improve to a certain extent. But the credibility improvement of multi-modal large models goes beyond this. Alignment between modalities and the robustness of visual encoders are also key influencing factors. In addition, enhancing the performance of models in practical applications through continuous evaluation and optimization in dynamic environments is also an important direction in the future.
With the release of the MultiTrust benchmark, the research team also released the multi-modal large model trustworthiness evaluation toolkit MMTrustEval. Its model integration and evaluation modularity characteristics provide important information for the credibility research of multi-modal large models. tool. Based on this work and toolkit, the team organized a multi-modal large model security-related data and algorithm competition [1,2] to promote trustworthy research on large models. In the future, with the continuous advancement of technology, multi-modal large models will show their potential in more fields, but the issue of their credibility still requires continued attention and in-depth research.

Reference link:

[1] CCDM2024 Multimodal Large Language Model Red Team Security Challenge http://116.112.3.114:8081/sfds-v1-html/main
[2] The 3rd Pazhou Algorithm Competition - Multimodal Large Model Algorithm Security Reinforcement Technology https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000

위 내용은 칭화대학교는 다중 모드 평가 출시에 앞장서고 있습니다. MultiTrust: GPT-4는 얼마나 신뢰할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.