4월 20일 뉴스에 따르면, 지난 4개월 동안 인공지능 챗봇의 인기가 높아졌습니다. 복잡한 학술 논문 작성, 격렬한 대화 진행 등 다양한 작업을 수행하는 능력이 인상적입니다.
챗봇은 인간처럼 생각하지 않으며, 자신이 무슨 말을 하는지조차 모릅니다. 로봇을 구동하는 인공 지능은 인터넷에서 스크랩한 방대한 양의 텍스트를 흡수하기 때문에 인간의 음성을 모방할 수 있습니다.
이 텍스트는 AI가 구축되는 동안 세상에 대한 정보를 얻을 수 있는 주요 소스이며, AI가 반응하는 방식에 큰 영향을 미칠 수 있습니다. 인공지능이 사법시험에서 좋은 성적을 거둔다면, 그 훈련 데이터에 수천 개의 LSAT(로스쿨 입학시험, 미국 로스쿨 입학시험) 정보가 담겨 있기 때문일 것이다.
기술 회사들은 인공지능에 어떤 정보를 제공하는지 항상 비밀로 합니다. 그래서 워싱턴 포스트(The Washington Post)는 이러한 중요한 데이터 세트 중 하나를 분석하여 AI 훈련에 사용되는 독점적이고 개인적이며 종종 공격적인 웹사이트의 유형을 밝혀냈습니다.
인공 지능 훈련 데이터의 내부 구성을 탐색하기 위해 Washington Post는 Allen Institute for Artificial Intelligence의 연구원들과 협력하여 Google의 C4 데이터 세트를 분석했습니다. 이 데이터 세트는 1,500만 개 이상의 웹사이트에 대한 대규모 스냅샷이며, 그 콘텐츠는 Google의 T5 및 Facebook의 LLaMA와 같은 많은 유명 영어 AI를 훈련하는 데 사용됩니다. OpenAI는 챗봇 ChatGPT를 지원하는 모델을 훈련하는 데 어떤 종류의 데이터 세트를 사용했는지 공개하지 않았습니다.
이 설문조사에서 연구원들은 웹 분석 회사인 Likeweb의 데이터를 사용하여 웹사이트를 분류했습니다. 이들 사이트 중 약 3분의 1은 분류되지 않고 제외되었는데, 그 주된 이유는 해당 사이트가 더 이상 인터넷에 존재하지 않기 때문입니다. 그런 다음 연구원들은 데이터 세트의 각 웹사이트에 나타난 "토큰" 수를 기준으로 나머지 1천만 개의 웹사이트 순위를 매겼습니다. 토큰은 AI 모델을 훈련하는 데 사용되는 작은 텍스트 처리 정보(일반적으로 단어나 구문)입니다.
C4 데이터세트의 웹사이트는 주로 뉴스, 엔터테인먼트, 소프트웨어 개발, 의료 및 콘텐츠 제작과 같은 산업 분야의 웹사이트입니다. 이는 이러한 분야가 새로운 인공 지능의 물결에 의해 위협받을 수 있는 이유를 설명할 수 있습니다. 상위 3개 웹사이트는 다음과 같습니다. 첫 번째는 전 세계에 게시된 특허 텍스트를 포함하는 Google Patent Search이고, 두 번째는 Wikipedia이고, 세 번째는 유료 구독만 허용하는 디지털 라이브러리입니다. 이 밖에도 미국 법무부가 불법 행위로 폐쇄한 불법 전자책 마켓 라이브러리(190번)도 상위 사이트로 꼽힌다. 또한, 데이터 세트에는 미국 정부가 불법 복제 제품 및 위조 제품 시장으로 식별한 웹사이트가 최소 27개 있습니다.
월드 오브 워크래프트 플레이어를 위한 포럼인 wowhead(181위)와 Arianna Huffington이 175비트를 돕기 위해 설립한 사이트인 throveglobal(181위)과 같은 인기 사이트도 있습니다. 또한 덤프스테로이드(No. 183)를 포함하여 쓰레기 수거통을 판매하는 웹사이트가 최소 10개 이상 있지만 더 이상 접속할 수 없는 것으로 보입니다.
대부분의 웹사이트는 안전하지만 일부 웹사이트는 심각한 개인 정보 보호 문제를 안고 있습니다. 예를 들어, 상위 100위 안에 드는 두 웹사이트에는 주 유권자 등록 데이터베이스의 개인 호스팅 사본이 나열되어 있습니다. 유권자 데이터는 공개되어 있지만 이러한 모델은 이 개인 정보를 알 수 없는 방식으로 사용할 수 있습니다.
산업 및 상업 웹사이트가 가장 큰 카테고리를 차지합니다(카테고리 토큰의 16%를 차지). 목록 맨 위에는 투자 조언을 제공하는 The Motley Fool(13위)이 있습니다. 다음은 사용자가 창의적인 프로젝트를 크라우드펀딩할 수 있는 웹사이트인 Kickstarter(25위)입니다. 2,398위로 순위가 낮은 Patreon은 크리에이터가 구독자로부터 독점 콘텐츠에 대한 월 수수료를 징수할 수 있도록 도와줍니다.
그러나 Kickstarter와 Patreon은 인공지능이 아티스트의 아이디어와 마케팅 카피에 접근하도록 허용할 수 있으며, AI가 사용자에게 제안을 제공할 때 이러한 작품을 복사할 수 있다는 우려가 있습니다. 현재 자신의 작업이 AI 훈련 데이터에 포함되어도 아무런 보상을 받지 못하는 아티스트들은 텍스트-이미지 생성기 Stable Diffusion, MidJourney 및 DeviantArt를 상대로 침해 소송을 제기했습니다.
이 Washington Post 분석에 따르면 더 많은 법적 문제가 발생할 수 있습니다. C4 데이터 세트에는 저작권 기호(지적 재산으로 등록된 저작물을 나타냄)가 2억 번 이상 나타납니다.
기술 웹사이트는 카테고리 토큰의 15%를 차지하는 두 번째로 큰 카테고리입니다. 여기에는 영국 레딩의 유도 클럽부터 뉴저지의 유치원까지 모든 것을 다루는 페이지가 있는 Google 사이트(85번)와 같이 사람들이 웹사이트를 구축하는 데 도움이 되는 많은 플랫폼이 포함됩니다.
C4 데이터 세트에는 500,000개 이상의 개인 블로그도 포함되어 있으며 이는 기밀 콘텐츠의 3.8%를 차지합니다. 출판 플랫폼 Medium은 46위에 올랐으며 도메인 이름으로 수만 개의 블로그를 보유하고 있는 다섯 번째로 큰 기술 웹 사이트입니다. 그 외에도 WordPress, Tumblr, Blogpot, Live Journal 등의 플랫폼에 작성된 블로그가 있습니다.
이러한 블로그는 두 명의 익명 학자가 공동 저술한 "Grumpy Rumblings"라는 블로그와 같이 전문적인 것부터 개인적인 것까지 다양한 형태로 제공됩니다. 그 중 한 명은 최근 파트너의 실직이 몇 가지 세금에 어떤 영향을 미쳤는지에 대해 글을 썼습니다. 또한 C4 데이터세트의 실사 롤플레잉 게임에 초점을 맞춘 상위 블로그도 있습니다.
현대 웹의 핵심으로 간주되는 Facebook, Twitter와 같은 소셜 네트워크의 콘텐츠는 크롤링이 차단되어 있습니다. 이는 인공 지능 훈련에 사용되는 대부분의 데이터 세트에 액세스할 수 없음을 의미합니다. Facebook 및 Google과 같은 거대 기술 기업은 방대한 양의 대화 데이터를 보유하고 있지만 개인 사용자 정보를 사용하여 내부용 또는 제품 판매용 인공 지능 모델을 훈련시키는 방법을 아직 모릅니다.
뉴스 및 미디어 사이트는 모든 카테고리에서 3위를 차지했으며 상위 10개 사이트 중 절반은 뉴스 매체입니다. New York Times 웹사이트는 4위, Los Angeles Times 웹사이트는 6위, The Guardian 웹사이트는 3위 7위 , "Forbes" 웹사이트는 8위, "Huffington Post" 웹사이트는 9위, "Washington Post" 웹사이트는 11위를 차지했습니다. 예술가 및 창작자와 마찬가지로 몇몇 언론 기관에서는 기술 회사가 승인이나 보상 없이 콘텐츠를 사용하는 것에 대해 비난했습니다.
동시에 "워싱턴 포스트"는 러시아의 RT(65위), 극우 뉴스 웹사이트 Breitbart(159위), 반이민 웹사이트 vdare( No. 993)은 백인 우월주의와 관련이 있습니다.
챗봇은 잘못된 정보를 공유하는 것으로 입증되었습니다. 신뢰할 수 없는 교육 데이터는 사용자가 원본 소스를 추적할 수 없는 상태에서 편견을 확산시키고 잘못된 정보를 조장할 수 있습니다.
커뮤니티 웹사이트는 기밀 콘텐츠의 약 5%를 차지하며, 주로 종교 웹사이트입니다.
대부분의 회사와 마찬가지로 Google은 AI에 데이터를 제공하기 전에 데이터를 필터링하고 선별합니다. 무의미하고 반복적인 텍스트를 제거하는 것 외에도 회사는 402개의 영어 용어와 이모티콘이 포함된 오픈 소스 "불량 단어 목록"도 사용합니다. 기업에서는 사용자가 보고 싶어하지 않는 콘텐츠를 차단하기 위해 모델을 미세 조정하기 위해 고품질 데이터 세트를 사용하는 경우가 많습니다.
이러한 목록은 모델이 훈련을 받는 동안 인종 비방과 부적절한 콘텐츠에 노출되는 것을 제한하기 위한 것이지만, 많은 것들이 필터를 통과합니다. 워싱턴 포스트(Washington Post)는 금지어 목록에서 수백 개의 포르노 웹사이트와 72,000개 이상의 "나치" 예시를 발견했습니다.
한편, 워싱턴 포스트는 백인 우월주의 웹사이트, 트랜스젠더 반대 웹사이트, 개인에 대한 괴롭힘 캠페인을 조직하는 것으로 알려진 익명 게시판 등 일부 불안한 콘텐츠를 필터가 제거하지 못했다는 사실을 발견했습니다. 이 연구는 음모론을 조장하는 웹사이트도 발견했습니다.
웹 스크래핑은 인터넷 전체를 복사하는 것처럼 들릴 수도 있지만 실제로는 특정 시점의 웹페이지 샘플인 스냅샷을 수집하는 것입니다. C4 데이터 세트는 원래 2019년 4월 웹 콘텐츠 크롤링을 위해 비영리 조직인 CommonCrawl에서 생성되었으며 인공 지능 모델 교육을 위한 인기 있는 리소스입니다. CommonCrawl은 이 조직이 가장 중요하고 평판이 좋은 웹사이트에 우선순위를 두려고 노력하지만 라이센스가 있거나 저작권으로 보호되는 콘텐츠를 피하려는 시도는 하지 않는다고 말했습니다.
워싱턴 포스트(Washington Post)는 사람들의 현대 생활의 여러 측면을 관리할 것으로 예상되는 인공 지능 모델에 완전한 데이터 콘텐츠를 제공하는 것이 중요하다고 믿습니다. 그러나 이 데이터세트의 많은 웹사이트에는 매우 모욕적인 언어가 포함되어 있으며, 모델이 이러한 단어를 가리도록 훈련되었더라도 불쾌한 콘텐츠가 여전히 존재할 수 있습니다.
전문가들은 C4 데이터 세트가 크더라도 대규모 언어 모델은 더 큰 데이터 세트를 사용할 수 있다고 말합니다. 예를 들어, OpenAI는 2020년에 GPT-3 교육 데이터를 출시했는데, 이는 C4에서 웹 스크래핑된 데이터 양의 40배입니다. GPT-3의 학습 데이터에는 영어 위키피디아, 대규모 기술 기업에서 자주 사용하는 미출판 작가의 무료 소설 모음, Reddit 사용자가 높은 평가를 받은 링크 텍스트 모음이 모두 포함됩니다.
전문가들은 개인 식별 정보, 저작권 보호 자료 및 동의 없이 도난당한 기타 데이터를 알아낼 수 있다는 두려움 때문에 훈련 데이터의 내용을 (심지어 내부적으로도) 기록하지 않는 기업이 많다고 말합니다. 기업이 챗봇의 의사결정 방식을 설명하는 과제를 강조함에 따라 경영진은 이에 대해 투명한 답변을 제공해야 합니다.
위 내용은 미국 언론은 대규모 모델 훈련 데이터 세트를 공개했습니다. 일부 콘텐츠는 약간 '더럽습니다'.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!