>기술 주변기기 >일체 포함 >대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 '사람이 읽을 수 있는 지문'을 만드세요.

대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 '사람이 읽을 수 있는 지문'을 만드세요.

PHPz
PHPz앞으로
2024-02-02 21:33:301258검색

은 다양한 기본 모델을 다양한 품종의 개로 상징하며, 동일한 "개 모양의 지문"은 동일한 기본 모델에서 파생되었음을 나타냅니다.

대형 모델의 사전 학습에는 많은 양의 컴퓨팅 리소스와 데이터가 필요하므로 사전 학습된 모델의 매개변수는 주요 기관이 중점적으로 보호하는 핵심 경쟁력이자 자산이 되었습니다. 그러나 기존 소프트웨어 지적 재산권 보호와 달리 사전 훈련된 모델 매개변수의 도용을 판단하는 데는 두 가지 새로운 문제가 있습니다.

1) 사전 훈련된 모델, 특히 수천억 개 모델의 매개변수는 일반적으로 공개되지 않습니다. 원천.

사전 훈련된 모델의 출력과 매개변수는 후속 처리 단계(예: SFT, RLHF, 계속 사전 훈련 등)의 영향을 받으므로 모델이 다른 기존 모델을 기반으로 미세 조정되었는지 판단하기가 어렵습니다. 모델. 모델 출력을 기준으로 판단하든 모델 매개변수를 기준으로 판단하든 특정한 과제가 있습니다.

따라서 대규모 모델 매개변수 보호는 효과적인 솔루션이 부족한 완전히 새로운 문제입니다.

상하이 교통대학교 Lin Zhouhan 교수가 이끄는 Lumia 연구팀은 대형 모델 간의 혈통 관계를 식별할 수 있는 혁신적인 기술을 개발했습니다. 이 접근 방식은 모델 매개변수를 노출하지 않고 대규모 모델의 사람이 읽을 수 있는 지문을 사용합니다. 이 기술의 연구개발은 대형모델의 개발과 응용에 있어 매우 중요한 의미를 갖는다.

이 방법은 두 가지 식별 방법을 제공합니다. 하나는 테스트된 대형 모델과 일련의 기본 모델 간의 유사성을 비교하여 사전 훈련된 기본 모델이 도난되었는지 여부를 결정하는 정량적 식별 방법입니다. 방법을 사용하면 사람이 읽을 수 있는 "개 다이어그램"을 생성하여 모델 간의 상속 관계를 빠르게 발견할 수 있습니다.

대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 사람이 읽을 수 있는 지문을 만드세요.

6가지 기본 모델(첫 번째 줄)과 해당 하위 모델(아래 두 줄)의 지문.

대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 사람이 읽을 수 있는 지문을 만드세요.

24개의 다양한 대형 모델에서 제작된 사람이 읽을 수 있는 대형 모델 지문입니다.

동기 부여 및 전반적인 접근 방식

대형 모델의 급속한 개발은 광범위한 응용 가능성을 가져오지만 동시에 일련의 새로운 도전을 촉발합니다. 눈에 띄는 문제 중 두 가지는 다음과 같습니다.

  • 모델 도용 문제: 원래의 대형 모델을 약간만 조정한 다음 자신의 기여를 과장하여 새로운 모델을 만들었다고 주장하는 영리한 "도둑". 불법 복제 모델인지 어떻게 식별하나요?

  • 모델 남용 문제: 범죄자가 LLaMA 모델을 악의적으로 수정하고 이를 사용하여 유해한 정보를 생성하는 경우 Meta의 정책에서 이러한 행위를 명백히 금지하고 있음에도 불구하고 LLaMA 모델을 사용하고 있음을 어떻게 증명할 수 있습니까?

대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 사람이 읽을 수 있는 지문을 만드세요.

이전에는 이러한 유형의 문제를 해결하는 기존 방법에는 모델 훈련 및 추론 중에 워터마크를 추가하거나 대형 모델에서 생성된 텍스트를 분류하는 것이 포함되었습니다. 그러나 이러한 방법은 대형 모델의 성능을 손상시키거나 간단한 미세 조정이나 추가 사전 학습을 통해 쉽게 우회할 수 있습니다.

이것은 중요한 질문을 제기합니다. 대형 모델의 출력 분포를 방해하지 않고 미세 조정 및 추가 사전 학습에 견고하며 대형 모델의 기본 모델을 정확하게 추적하여 효과적으로 효과적으로 추적할 수 있는 방법이 있습니까? 모델 저작권 보호의 목표는 무엇입니까?

Shanghai Jiao Tong University의 한 팀은 인간 지문의 독특한 특성에서 영감을 얻어 대형 모델을 위한 "사람이 읽을 수 있는 지문"을 생성하는 방법을 개발했습니다. 그들은 서로 다른 기본 모델을 다른 품종의 개로 상징했으며, 동일한 "개 모양의 지문"은 동일한 기본 모델에서 파생되었음을 나타냅니다.

이러한 직관적인 방법을 통해 대중은 다양한 대형 모델 간의 연관성을 쉽게 식별할 수 있으며, 이러한 지문을 통해 모델의 기본 모델을 추적하여 모델 불법 복제 및 남용을 효과적으로 방지할 수 있습니다. 대형 모델 제조업체는 매개변수를 공개할 필요가 없으며 지문을 생성하는 데 사용되는 불변값만 공개할 필요가 있다는 점은 주목할 가치가 있습니다.

대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 사람이 읽을 수 있는 지문을 만드세요.

Alpaca와 LLaMA의 "지문"은 매우 유사합니다. 이는 Alpaca 모델이 LLaMA를 미세 조정하여 얻은 반면 다른 여러 모델의 지문은 서로 다른 기반에서 파생되었음을 반영하여 뚜렷한 차이를 보이기 때문입니다. 모델.

논문 "HUREF: 대규모 언어 모델을 위한 사람이 읽을 수 있는 지문":

대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 사람이 읽을 수 있는 지문을 만드세요.

논문 다운로드 주소: https://arxiv.org/pdf/2312.04828.pdf

실험에서 관찰된 불변량

Jiaotong University 팀은 대형 모델을 미세 조정하거나 사전 훈련할 때 다음과 같은 현상이 발생한다는 사실을 발견했습니다. 모델의 매개변수 벡터는 방향이 아주 약간씩 변경됩니다. 대조적으로, 처음부터 훈련된 대규모 모델의 경우 해당 매개변수 방향은 다른 기본 모델과 완전히 다릅니다.

대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 사람이 읽을 수 있는 지문을 만드세요.

LLaMA를 미세 조정하여 얻은 Alpaca 및 Vicuna와 LLaMA를 추가로 사전 훈련하여 얻은 중국 LLaMA 및 중국 Alpaca를 포함하여 LLaMA의 일련의 파생 모델에서 검증되었습니다. 또한 Baichuan 및 Shusheng과 같이 독립적으로 훈련된 기본 모델도 테스트했습니다.

대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 사람이 읽을 수 있는 지문을 만드세요.

표에서 파란색으로 표시된 LLaMA 파생 모델과 LLaMA-7B 기본 모델은 매개변수 벡터에서 매우 높은 코사인 유사성을 나타냅니다. 이는 이러한 파생 모델이 기본 모델과 방향의 방향에 매우 가깝다는 것을 의미합니다. 매개변수 벡터. 대조적으로, 빨간색으로 표시된 독립적으로 훈련된 기본 모델은 매개변수 벡터 방향이 완전히 관련이 없는 완전히 다른 상황을 나타냅니다.

이러한 관찰을 바탕으로 그들은 이 경험적 규칙에 따라 모델의 지문을 만들 수 있는지 고려했습니다. 그러나 중요한 질문이 남아 있습니다. 이 접근 방식이 악의적인 공격에 대해 충분히 강력합니까?

이를 검증하기 위해 연구팀은 LLaMA 미세 조정 시 페널티 손실로 모델 간 매개변수의 유사성을 추가하여 모델을 미세 조정하는 동안 매개변수 방향이 기본 모델에서 최대한 벗어나도록 하고, 그리고 모델이 성능을 유지할 수 있는지 테스트함과 동시에 원래의 매개변수 방향에서 벗어났습니다:

대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 사람이 읽을 수 있는 지문을 만드세요.

원래 모델과 Penalty loss Fine-tuning을 추가한 모델을 BoolQ, MMLU 등 8개 벤치마크에서 테스트했습니다. . 아래 차트에서 볼 수 있듯이 코사인 유사도가 감소함에 따라 모델의 성능이 급격히 저하됩니다. 이는 기본 모델의 성능을 손상시키지 않고 원래 매개변수 방향에서 벗어나는 것이 매우 어렵다는 것을 보여줍니다!

대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 사람이 읽을 수 있는 지문을 만드세요.
대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 사람이 읽을 수 있는 지문을 만드세요.

현재 대형 모델의 매개변수 벡터 방향은 기본 모델을 식별하는 데 매우 효과적이고 강력한 지표가 되었습니다. 그러나 매개변수 벡터 방향을 식별 도구로 직접 활용하기에는 몇 가지 문제점이 있는 것으로 보인다. 첫째, 이 접근 방식을 사용하려면 모델의 매개변수를 공개해야 하는데, 이는 많은 대형 모델에서는 허용되지 않을 수 있습니다. 둘째, 공격자는 모델 성능을 희생하지 않고 단순히 숨겨진 유닛을 교체하여 매개변수 벡터의 방향을 공격할 수 있습니다.

Transformer의 FFN(피드포워드 신경망)을 예로 들어 간단히 숨겨진 유닛을 교체하고 이에 따라 가중치를 조정하면 네트워크 출력을 변경하지 않고도 가중치 방향을 수정할 수 있습니다.

대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 사람이 읽을 수 있는 지문을 만드세요.

또한 팀은 대형 모델 단어 임베딩에 대한 선형 매핑 공격과 변위 공격에 대한 심층 분석도 수행했습니다. 이러한 연구 결과는 다음과 같은 질문을 제기합니다. 이렇게 다양한 공격 방법에 직면했을 때 이러한 문제에 어떻게 효과적으로 대응하고 해결해야 할까요?

매개변수 행렬 간의 곱셈을 통해 공격 행렬을 제거하여 이러한 공격에 강력한 세 가지 불변 세트를 도출합니다.

대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 사람이 읽을 수 있는 지문을 만드세요.

불변에서 사람이 읽을 수 있는 지문까지

위에서 도출된 불변은 대규모 신원 표시자로 충분하지만 일반적으로 거대한 행렬의 형태로 나타나므로 직관적이지 않을 뿐만 아니라, 추가 유사성 서로 다른 대형 모델 간의 관계를 결정하려면 계산이 필요합니다. 이 정보를 표시하는 더 직관적이고 이해하기 쉬운 방법이 있습니까?

이 문제를 해결하기 위해 Shanghai Jiao Tong University 팀은 모델 매개변수로부터 사람이 읽을 수 있는 지문을 생성하는 방법인 HUREF를 개발했습니다.

대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 사람이 읽을 수 있는 지문을 만드세요.

먼저 대형 모델의 일부 매개변수에서 불변성을 추출한 다음 CNN 인코더를 사용하여 지역성을 유지하면서 가우스 분포를 따르는 특징 벡터로 불변 행렬을 인코딩하고 마지막으로 부드러운 GAN 또는 VAE를 이미지 생성기로 사용하여 이러한 특징 벡터를 시각적 이미지(예: 개 사진)로 디코딩합니다. 이러한 이미지는 사람이 읽을 수 있을 뿐만 아니라 다양한 모델 간의 유사성을 시각적으로 보여주어 대형 모델의 "시각적 지문" 역할을 효과적으로 수행합니다. 자세한 학습 및 추론 과정은 다음과 같습니다.

대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 사람이 읽을 수 있는 지문을 만드세요.

이 프레임워크에서는 CNN 인코더만 훈련해야 합니다. 그들은 대조 학습을 사용하여 인코더의 로컬 보존을 보장하는 동시에 생성적 적대 학습을 사용하여 특징 벡터가 GAN 또는 VAE 생성기의 입력 공간과 일치하는 가우스 분포를 따르도록 보장합니다.

중요한 점은 훈련 과정에서는 실제 모델 매개변수를 사용할 필요가 없으며 모든 데이터는 정규 분포 샘플링을 통해 얻어집니다. 실제 애플리케이션에서는 훈련된 CNN 인코더와 AFHQ 개 데이터 세트에 대해 훈련된 기성품 StyleGAN2 생성기가 추론에 직접 사용됩니다.

다양한 대형 모델에 대한 지문 생성

이 방법의 효율성을 확인하기 위해 팀에서는 널리 사용되는 다양한 대형 모델에 대한 실험을 수행했습니다. 그들은 Falcon, MPT, LLaMA2, Qwen, Baichuan 및 InternLM과 같은 잘 알려진 여러 오픈 소스 대형 모델과 그 파생 모델을 선택하고 이러한 모델의 불변성을 계산하고 아래 그림과 같이 지문 이미지를 생성했습니다. .

대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 사람이 읽을 수 있는 지문을 만드세요.

파생된 모델의 지문은 원래 모델과 매우 유사하며, 어떤 프로토타입 모델이 기반으로 하고 있는지 이미지를 통해 직관적으로 식별할 수 있습니다. 또한 이러한 파생 모델은 불변량 측면에서 원래 모델과 높은 코사인 유사성을 유지합니다.

이후 SFT를 통해 얻은 Alpaca 및 Vicuna, 확장된 중국어 어휘가 포함된 모델, 추가 사전 훈련을 통해 얻은 중국어 LLaMA 및 BiLLa, RLHF를 통해 얻은 Beaver 및 다중 모드 상태 모델 Minigpt4를 포함한 LLaMA 모델 제품군에 대해 광범위한 테스트를 수행했습니다. 등.

대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 사람이 읽을 수 있는 지문을 만드세요.

이 표는 LLaMA 계열 모델 간 불변량의 코사인 유사성을 보여줍니다. 동시에 사진은 이들 14개 모델에 대해 생성된 지문 이미지를 보여줍니다. 우리는 지문 이미지를 통해 동일한 모델에서 나온 것임을 판단할 수 있습니다. 이러한 모델은 SFT, 추가 사전 훈련, RLHF 및 다중 양식과 같은 다양한 훈련 방법을 다루고 있으며 이는 제안된 방법을 추가로 검증합니다. 이후의 다양한 훈련 패러다임에서 대규모 모델의 견고성.

또한 아래 그림은 독립적으로 훈련된 24개의 오픈소스 기반 모델에 대해 수행한 실험 결과입니다. 이들 방법을 통해 각각의 독립된 기본 모델에는 고유한 지문 이미지가 부여되며, 이는 서로 다른 대형 모델 간의 지문의 다양성과 차이를 생생하게 보여줍니다. 표에서 이들 모델 간의 유사성 계산 결과는 지문 이미지에서 나타나는 차이점과 일치합니다.

대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 사람이 읽을 수 있는 지문을 만드세요.
대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 사람이 읽을 수 있는 지문을 만드세요.

마지막으로 팀은 소규모로 독립적으로 훈련된 언어 모델의 매개변수 방향의 고유성과 안정성을 추가로 검증했습니다. 그들은 Pile 데이터 세트의 10분의 1을 사용하여 처음부터 4개의 GPT-NeoX-350M 모델을 사전 훈련했습니다.

이 모델은 설정이 동일하며 유일한 차이점은 다른 난수 시드를 사용한다는 것입니다. 아래 차트를 보면 난수 시드의 차이만으로 모델 매개변수 방향과 지문이 크게 달라지며, 이는 독립적으로 훈련된 언어 모델 매개변수 방향의 고유성을 완전히 보여줍니다.

대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 사람이 읽을 수 있는 지문을 만드세요.

마지막으로 인접한 체크포인트의 유사성을 비교한 결과 사전 학습 과정에서 모델의 매개변수가 점차 안정적인 경향을 보이는 것을 발견했습니다. 그들은 이러한 경향이 더 긴 훈련 단계와 더 큰 모델에서 더 분명해질 것이라고 믿으며, 이는 또한 그들의 방법의 효율성을 부분적으로 설명합니다.

대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 사람이 읽을 수 있는 지문을 만드세요.

위 내용은 대형모델에도 도둑이 있다? 매개변수를 보호하려면 대형 모델을 제출하여 '사람이 읽을 수 있는 지문'을 만드세요.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 jiqizhixin.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제