최근 자연어 생성(NLG) 기술의 발전으로 대규모 언어 모델에서 생성된 텍스트의 다양성, 제어 및 품질이 크게 향상되었습니다. 주목할만한 예 중 하나는 OpenAI의 ChatGPT입니다. 이는 질문 답변, 이메일 작성, 논문 작성 및 코드와 같은 작업에서 뛰어난 성능을 보여주었습니다. 그러나 효율적으로 텍스트를 생성하는 이 새로운 기능은 피싱, 허위 정보, 학문적 부정직 등의 작업에서 대규모 언어 모델의 오용을 감지하고 예방하는 데 대한 우려를 불러일으킵니다. 예를 들어 숙제를 작성하기 위해 ChatGPT를 사용하는 학생들에 대한 우려로 인해 뉴욕 공립학교에서는 ChatGPT 사용을 금지했으며 언론에서는 대규모 언어 모델에서 생성된 가짜 뉴스에 대해 경고하기도 했습니다. 대규모 언어 모델의 오용에 대한 이러한 우려는 미디어 및 교육과 같은 중요한 분야에서 자연어 생성의 적용을 심각하게 방해했습니다.
최근 대규모 언어 모델에서 생성된 텍스트를 올바르게 감지하는지 여부와 방법에 대한 논의가 늘어나고 있습니다. 이 문서에서는 기존 감지 방법에 대한 포괄적인 기술 소개를 제공합니다.
/github.com/datamllab/awsome-LLM-generated-text-Detection/tree/main
기존 방법은 크게블랙박스 감지와 화이트박스 감지
두 가지 범주로 나눌 수 있습니다.
화이트박스 감지, 이 유형의 방법은 대규모 언어 모델에 모두 액세스할 수 있으며 모델의 생성 동작을 제어할 수 있습니다. 또는 생성된 텍스트에 워터마크를 추가하여 생성된 텍스트를 추적하고 감지합니다.
실제로 블랙박스 감지기는 일반적으로 GPTZero와 같은 타사에서 제작하는 반면, 화이트박스 감지기는 일반적으로 대규모 언어 모델 개발자가 제작합니다.
대규모 언어 모델에 의해 생성된 텍스트 감지 분류블랙박스 감지
블랙박스 감지에는 일반적으로 데이터 수집, 기능 선택 및 모델 구축의 세 단계가 있습니다..
사람의 텍스트를 수집하는 방법 중 하나는 데이터 수집을 위한 전문가를 모집하는 것이지만, 이 방법은 시간이 많이 걸리고 노동집약적이며 대규모 데이터 세트를 수집하는 데 적합하지 않습니다. Wikipedia의 다양한 전문가가 편집한 항목 수집과 같은 기존 인간 텍스트 데이터를 사용하거나 Reddit과 같은 미디어에서 데이터를 수집합니다. 특징 선택은 크게 통계적 특징, 언어적 특징, 사실적 특징으로 나누어집니다. 통계 기능은 일반적으로 TFIDF, Zipf's Law
등을 포함하여 일반적으로 사용되는 일부 텍스트 통계 지표에서 대규모 언어 모델에서 생성된 텍스트가 인간 텍스트와 다른지 확인하는 데 사용됩니다. 언어 기능은 일반적으로 품사,종속성 분석, 감정 분석 등과 같은 일부 언어 기능을 찾습니다. 마지막으로 대규모 언어 모델은 반사실적 진술을 생성하는 경우가 많으므로 사실 검증
을 통해 대규모 언어 모델에서 생성된 텍스트를 구별하는 일부 정보를 제공할 수도 있습니다. 🎜🎜🎜🎜기존 분류 모델은 일반적으로 SVM 등 전통적인 기계 학습 모델로 구분됩니다. 최신 연구에서는 BERT, RoBERTa 등의 언어 모델을 백본으로 사용하는 경향이 있으며 더 높은 탐지 성능을 달성했습니다. 🎜🎜이 두 텍스트에는 분명한 차이가 있습니다. Chalkbeat New York에서 사람이 직접 작성한 텍스트입니다.
화이트 박스 감지는 일반적으로 대규모 언어 모델 개발자가 제공하는 감지로 기본 설정됩니다. 블랙박스 감지와 달리 화이트박스 감지는 모델에 대한 전체 액세스 권한을 가지므로 감지 목적을 달성하기 위해 모델의 출력을 변경하여 워터마크를 삽입할 수 있습니다.
현재 탐지 방법은 사후 워터마크와 추론 시간 워터마크로 나눌 수 있습니다. :
대규모 언어 모델의 성능이 향상됨에 따라 대규모 언어 모델에서 생성된 텍스트와 인간 사이의 간격이 점점 작아지고 이로 인해 블랙박스 모델의 감지 정확도가 점점 낮아지게 됩니다. 따라서 앞으로는 화이트박스 탐지가 어떻게 잠재고객을 탐지하는가가 더 중요해집니다.
(2)
기존 탐지 방식은 기본적으로 회사 소유의 대형 언어 모델을 사용하기 때문에 모든 사용자는 API를 통해 회사의 대형 언어 모델 서비스를 받게 되는데, 이러한 다대일 관계는 매우 탐지 시스템 배포를 활용하는 데 유용합니다. 그러나 회사가 대규모 언어 모델을 오픈 소스로 공개하면 기존의 거의 모든 탐지 방법이 효과가 없게 됩니다.블랙박스 감지의 경우 사용자가 모델을 미세 조정하고 모델 출력의 스타일이나 형식을 변경할 수 있기 때문에 블랙박스 감지에서는 일반적인 감지 기능을 찾을 수 없습니다. 화이트 박스 감지가 해결책이 될 수 있습니다. 회사는 오픈 소스 전에 모델에 워터마크를 추가할 수 있습니다. 그러나 사용자는 모델을 미세 조정하고 모델 토큰의 샘플링 메커니즘을 변경하여 워터마크를 제거할 수도 있습니다. 현재 이러한 잠재적인 위협으로부터 사용자를 보호할 수 있는 워터마킹 기술은 없습니다.
위 내용은 인간 작성자인 척, ChatGPT 및 기타 남용이 우려를 낳고, AI가 생성한 텍스트 감지 방법을 요약한 기사의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!