ChatGPT가 인기를 얻은 후 사용 방법이 너무 많아졌습니다.
어떤 사람은 인생에 대한 조언을 구하기 위해 사용하고, 어떤 사람은 단순히 검색 엔진으로 사용하고, 어떤 사람은 논문을 작성하는 데 사용합니다.
논문... 쓰기가 재미없네요.
미국의 일부 대학에서는 학생들이 ChatGPT를 사용하여 숙제를 작성하는 것을 금지했으며, 학생들이 제출한 논문이 GPT에서 생성되었는지 식별하고 판단하는 여러 소프트웨어도 개발했습니다.
여기에 문제가 있습니다.
누군가의 논문은 원래 형편없게 쓰여졌는데, 그 텍스트를 판단한 AI는 동료가 쓴 것이라고 생각했습니다.
게다가 중국인이 작성한 영어 논문이 AI가 작성한 것으로 판단될 확률은 무려 61%에 달합니다.
이...이게 무슨 뜻인가요? 떨린다!
현재 생성 언어 모델은 빠르게 발전하고 있으며 실제로 디지털 커뮤니케이션에 큰 발전을 가져왔습니다.
근데 욕설이 정말 많아요.
연구원들이 AI와 인간 생성 콘텐츠를 구별하기 위해 다양한 탐지 방법을 제안했지만 이러한 탐지 방법의 공정성과 안정성은 여전히 개선되어야 합니다.
이를 위해 연구원들은 영어를 모국어로 사용하는 작가와 비원어민 작가가 쓴 작품을 사용하여 널리 사용되는 여러 GPT 감지기의 성능을 평가했습니다.
연구 결과에 따르면 이러한 탐지기는 항상 비원어민이 작성한 샘플을 AI가 생성한 것으로 잘못 판단하는 반면, 원어민이 작성한 샘플은 기본적으로 정확하게 식별할 수 있습니다.
또한 연구원들은 이러한 편견이 몇 가지 간단한 전략으로 완화되고 GPT 감지기를 효과적으로 우회할 수 있음을 보여주었습니다.
이게 무슨 뜻인가요? 이는 GPT 탐지기가 언어 능력이 좋지 않은 저자를 무시한다는 것을 보여 주며 이는 매우 짜증나는 일입니다.
AI가 실제 사람인지 판단하는 게임을 떠올리지 않을 수 없습니다. 상대가 실제 사람이지만 AI라고 추측하면 시스템은 "상대방이 당신을 불쾌하게 생각할 수 있습니다."라고 말할 것입니다. ."
연구원들은 중국 교육 포럼에서 91개의 TOEFL 에세이를 얻었고, 널리 사용되는 7개의 GPT 검출기를 탐지하기 위해 Hewlett Foundation의 데이터 세트에서 미국 8학년 학생들이 작성한 88개의 에세이를 얻었습니다.
차트의 백분율은 "오판"의 비율을 나타냅니다. 즉, 인간이 작성한 것이지만 탐지 소프트웨어는 AI가 생성한 것으로 생각합니다.
데이터가 매우 이질적이라는 것을 알 수 있습니다.
7개의 탐지기 중 미국 8학년 학생들이 쓴 에세이에 대한 오판 가능성이 가장 높은 것은 12%에 불과하며, 오판이 없는 GPT는 2개입니다.
기본적으로 중국 포럼에 올라오는 토플 에세이의 절반 이상이 오판되고 있으며, 오판 확률이 가장 높은 경우가 76%에 이릅니다.
91개의 TOEFL 에세이 중 18개는 7개의 GPT 감지기 모두에서 만장일치로 AI에 의해 생성된 것으로 간주되었으며, 91개의 에세이 중 89개는 하나 이상의 GPT 감지기에 의해 잘못 판단되었습니다.
위 그림을 보면 GPT 7개 모두에서 오판을 받은 TOEFL 에세이는 다른 에세이에 비해 복잡성이 현저히 낮다는 것을 알 수 있습니다.
이것은 처음의 결론을 확인시켜줍니다. GPT 탐지기는 언어 표현 능력이 제한된 저자에 대해 특정 편견을 갖게 됩니다.
따라서 연구자들은 GPT 탐지기가 비원어민이 쓴 기사를 더 많이 읽어야 한다고 믿습니다. 더 많은 샘플을 통해서만 편견이 제거될 수 있습니다.
다음으로 연구원들은 언어를 풍부하게 하고 원어민의 단어 사용 습관을 모방하기 위해 비원어민이 작성한 TOEFL 에세이를 ChatGPT에 던졌습니다.
동시에 대조군으로서 미국 8학년 아이들이 쓴 작문도 ChatGPT에 던져 언어를 단순화하고 비원어민의 글쓰기 특성을 모방했습니다. 아래 사진은 수정 후 새로운 판단 결과입니다.
언어를 풍부하게 해주는 토플 에세이의 오판율이 최저 3%, 최고 19%로 급락한 것을 확인할 수 있습니다. 기본적으로 절반 이상이었던 이전의 오탐률과 달리.
반대로 8학년 아이들이 쓴 에세이의 오류율은 치솟았습니다. 기본적으로 오류율이 99%에 달하는 GPT 감지기도 있습니다.
글 복잡도의 변수가 바뀌었거든요.
여기서 연구자들은 비원어민이 쓴 내용은 사실이 아니며, 복잡성이 낮고, 쉽게 잘못 판단될 수 있다는 결론에 도달했습니다.
이는 기술적 문제뿐만 아니라 가치 문제로도 이어집니다. AI나 인간이 저작자인지를 결정하기 위해 복잡성을 사용하는 것은 합리적이고 포괄적이며 엄격합니다.
결과는 당연히 그렇지 않습니다.
복잡하게 판단할 때, 비원어민은 비원어민이기 때문에 큰 손실을 입습니다(넌센스).
연구원들은 언어 다양성을 향상하면 비원어민에 대한 편견을 완화할 수 있을 뿐만 아니라 GPT 생성 콘텐츠가 GPT 감지기를 우회할 수 있다고 믿습니다.
이를 증명하기 위해 연구진은 2022년부터 2023년까지 미국 대학 지원서의 입학 에세이 주제를 선정하고 이를 ChatGPT-3.5에 입력하여 총 31개의 가짜 에세이를 생성했습니다.
GPT 감지기는 처음에는 꽤 효과적이었지만 두 번째 라운드에서는 그렇지 않았습니다. 이는 두 번째 라운드에서 연구원들이 텍스트의 품질을 향상시키기 위해 일부 문학적 언어를 사용하여 이러한 논문을 ChatGPT에 던지고 다듬었기 때문입니다.
그 결과, GPT 감지기의 정확도가 100%에서 0%로 떨어졌습니다. 아래와 같이:
연마된 기사의 복잡성도 그에 따라 증가했습니다.
동시에 연구원들은 Stanford University의 145개 최종 프로젝트 보고서 주제를 사용하여 ChatGPT에서 초록을 생성했습니다.
Abstract 연마 후 검출기의 판단 정확도는 계속해서 떨어집니다.
연구원들은 세련된 기사는 쉽게 오판되고 AI에 의해 생성된다는 결론을 다시 내렸습니다.
요컨대, 다양한 GPT 감지기는 여전히 AI 세대와 인간 글쓰기의 가장 본질적인 차이점을 파악하지 못하는 것 같습니다.
사람의 글도 3, 6, 9단계로 나뉘는데 복잡함만 보고 판단하는 것은 무리입니다.
편향적인 요소를 떠나 기술 자체도 개선이 필요합니다.
위 내용은 터무니없다! 최신 연구: 중국인이 작성한 영어 논문의 61%가 ChatGPT 감지기에 의해 AI로 생성된 것으로 판단됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!