미국 언론은 대규모 모델 훈련 데이터 세트를 공개했습니다. 일부 콘텐츠는 약간 '더럽습니다'.-일체 포함-php.cn

집

기술 주변기기

일체 포함

미국 언론은 대규모 모델 훈련 데이터 세트를 공개했습니다. 일부 콘텐츠는 약간 '더럽습니다'.

PHPz

May 01, 2023 pm 04:07 PM

일체 포함챗봇

미국 언론은 대규모 모델 훈련 데이터 세트를 공개했습니다. 일부 콘텐츠는 약간 더럽습니다.

4월 20일 뉴스에 따르면, 지난 4개월 동안 인공지능 챗봇의 인기가 높아졌습니다. 복잡한 학술 논문 작성, 격렬한 대화 진행 등 다양한 작업을 수행하는 능력이 인상적입니다.

챗봇은 인간처럼 생각하지 않으며, 자신이 무슨 말을 하는지조차 모릅니다. 로봇을 구동하는 인공 지능은 인터넷에서 스크랩한 방대한 양의 텍스트를 흡수하기 때문에 인간의 음성을 모방할 수 있습니다.

이 텍스트는 AI가 구축되는 동안 세상에 대한 정보를 얻을 수 있는 주요 소스이며, AI가 반응하는 방식에 큰 영향을 미칠 수 있습니다. 인공지능이 사법시험에서 좋은 성적을 거둔다면, 그 훈련 데이터에 수천 개의 LSAT(로스쿨 입학시험, 미국 로스쿨 입학시험) 정보가 담겨 있기 때문일 것이다.

기술 회사들은 인공지능에 어떤 정보를 제공하는지 항상 비밀로 합니다. 그래서 워싱턴 포스트(The Washington Post)는 이러한 중요한 데이터 세트 중 하나를 분석하여 AI 훈련에 사용되는 독점적이고 개인적이며 종종 공격적인 웹사이트의 유형을 밝혀냈습니다.

인공 지능 훈련 데이터의 내부 구성을 탐색하기 위해 Washington Post는 Allen Institute for Artificial Intelligence의 연구원들과 협력하여 Google의 C4 데이터 세트를 분석했습니다. 이 데이터 세트는 1,500만 개 이상의 웹사이트에 대한 대규모 스냅샷이며, 그 콘텐츠는 Google의 T5 및 Facebook의 LLaMA와 같은 많은 유명 영어 AI를 훈련하는 데 사용됩니다. OpenAI는 챗봇 ChatGPT를 지원하는 모델을 훈련하는 데 어떤 종류의 데이터 세트를 사용했는지 공개하지 않았습니다.

이 설문조사에서 연구원들은 웹 분석 회사인 Likeweb의 데이터를 사용하여 웹사이트를 분류했습니다. 이들 사이트 중 약 3분의 1은 분류되지 않고 제외되었는데, 그 주된 이유는 해당 사이트가 더 이상 인터넷에 존재하지 않기 때문입니다. 그런 다음 연구원들은 데이터 세트의 각 웹사이트에 나타난 "토큰" 수를 기준으로 나머지 1천만 개의 웹사이트 순위를 매겼습니다. 토큰은 AI 모델을 훈련하는 데 사용되는 작은 텍스트 처리 정보(일반적으로 단어나 구문)입니다.

Wikipedia에서 WoWhead까지

미국 언론은 대규모 모델 훈련 데이터 세트를 공개했습니다. 일부 콘텐츠는 약간 더럽습니다.

C4 데이터세트의 웹사이트는 주로 뉴스, 엔터테인먼트, 소프트웨어 개발, 의료 및 콘텐츠 제작과 같은 산업 분야의 웹사이트입니다. 이는 이러한 분야가 새로운 인공 지능의 물결에 의해 위협받을 수 있는 이유를 설명할 수 있습니다. 상위 3개 웹사이트는 다음과 같습니다. 첫 번째는 전 세계에 게시된 특허 텍스트를 포함하는 Google Patent Search이고, 두 번째는 Wikipedia이고, 세 번째는 유료 구독만 허용하는 디지털 라이브러리입니다. 이 밖에도 미국 법무부가 불법 행위로 폐쇄한 불법 전자책 마켓 라이브러리(190번)도 상위 사이트로 꼽힌다. 또한, 데이터 세트에는 미국 정부가 불법 복제 제품 및 위조 제품 시장으로 식별한 웹사이트가 최소 27개 있습니다.

월드 오브 워크래프트 플레이어를 위한 포럼인 wowhead(181위)와 Arianna Huffington이 175비트를 돕기 위해 설립한 사이트인 throveglobal(181위)과 같은 인기 사이트도 있습니다. 또한 덤프스테로이드(No. 183)를 포함하여 쓰레기 수거통을 판매하는 웹사이트가 최소 10개 이상 있지만 더 이상 접속할 수 없는 것으로 보입니다.

대부분의 웹사이트는 안전하지만 일부 웹사이트는 심각한 개인 정보 보호 문제를 안고 있습니다. 예를 들어, 상위 100위 안에 드는 두 웹사이트에는 주 유권자 등록 데이터베이스의 개인 호스팅 사본이 나열되어 있습니다. 유권자 데이터는 공개되어 있지만 이러한 모델은 이 개인 정보를 알 수 없는 방식으로 사용할 수 있습니다.

산업 및 상업 웹사이트가 가장 큰 카테고리를 차지합니다(카테고리 토큰의 16%를 차지). 목록 맨 위에는 투자 조언을 제공하는 The Motley Fool(13위)이 있습니다. 다음은 사용자가 창의적인 프로젝트를 크라우드펀딩할 수 있는 웹사이트인 Kickstarter(25위)입니다. 2,398위로 순위가 낮은 Patreon은 크리에이터가 구독자로부터 독점 콘텐츠에 대한 월 수수료를 징수할 수 있도록 도와줍니다.

그러나 Kickstarter와 Patreon은 인공지능이 아티스트의 아이디어와 마케팅 카피에 접근하도록 허용할 수 있으며, AI가 사용자에게 제안을 제공할 때 이러한 작품을 복사할 수 있다는 우려가 있습니다. 현재 자신의 작업이 AI 훈련 데이터에 포함되어도 아무런 보상을 받지 못하는 아티스트들은 텍스트-이미지 생성기 Stable Diffusion, MidJourney 및 DeviantArt를 상대로 침해 소송을 제기했습니다.

이 Washington Post 분석에 따르면 더 많은 법적 문제가 발생할 수 있습니다. C4 데이터 세트에는 저작권 기호(지적 재산으로 등록된 저작물을 나타냄)가 2억 번 이상 나타납니다.

기술 웹사이트는 카테고리 토큰의 15%를 차지하는 두 번째로 큰 카테고리입니다. 여기에는 영국 레딩의 유도 클럽부터 뉴저지의 유치원까지 모든 것을 다루는 페이지가 있는 Google 사이트(85번)와 같이 사람들이 웹사이트를 구축하는 데 도움이 되는 많은 플랫폼이 포함됩니다.

C4 데이터 세트에는 500,000개 이상의 개인 블로그도 포함되어 있으며 이는 기밀 콘텐츠의 3.8%를 차지합니다. 출판 플랫폼 Medium은 46위에 올랐으며 도메인 이름으로 수만 개의 블로그를 보유하고 있는 다섯 번째로 큰 기술 웹 사이트입니다. 그 외에도 WordPress, Tumblr, Blogpot, Live Journal 등의 플랫폼에 작성된 블로그가 있습니다.

이러한 블로그는 두 명의 익명 학자가 공동 저술한 "Grumpy Rumblings"라는 블로그와 같이 전문적인 것부터 개인적인 것까지 다양한 형태로 제공됩니다. 그 중 한 명은 최근 파트너의 실직이 몇 가지 세금에 어떤 영향을 미쳤는지에 대해 글을 썼습니다. 또한 C4 데이터세트의 실사 롤플레잉 게임에 초점을 맞춘 상위 블로그도 있습니다.

현대 웹의 핵심으로 간주되는 Facebook, Twitter와 같은 소셜 네트워크의 콘텐츠는 크롤링이 차단되어 있습니다. 이는 인공 지능 훈련에 사용되는 대부분의 데이터 세트에 액세스할 수 없음을 의미합니다. Facebook 및 Google과 같은 거대 기술 기업은 방대한 양의 대화 데이터를 보유하고 있지만 개인 사용자 정보를 사용하여 내부용 또는 제품 판매용 인공 지능 모델을 훈련시키는 방법을 아직 모릅니다.

뉴스 및 미디어 사이트는 모든 카테고리에서 3위를 차지했으며 상위 10개 사이트 중 절반은 뉴스 매체입니다. New York Times 웹사이트는 4위, Los Angeles Times 웹사이트는 6위, The Guardian 웹사이트는 3위 7위 , "Forbes" 웹사이트는 8위, "Huffington Post" 웹사이트는 9위, "Washington Post" 웹사이트는 11위를 차지했습니다. 예술가 및 창작자와 마찬가지로 몇몇 언론 기관에서는 기술 회사가 승인이나 보상 없이 콘텐츠를 사용하는 것에 대해 비난했습니다.

동시에 "워싱턴 포스트"는 러시아의 RT(65위), 극우 뉴스 웹사이트 Breitbart(159위), 반이민 웹사이트 vdare( No. 993)은 백인 우월주의와 관련이 있습니다.

챗봇은 잘못된 정보를 공유하는 것으로 입증되었습니다. 신뢰할 수 없는 교육 데이터는 사용자가 원본 소스를 추적할 수 없는 상태에서 편견을 확산시키고 잘못된 정보를 조장할 수 있습니다.

커뮤니티 웹사이트는 기밀 콘텐츠의 약 5%를 차지하며, 주로 종교 웹사이트입니다.

필터에 어떤 물고기가 빠졌나요?

대부분의 회사와 마찬가지로 Google은 AI에 데이터를 제공하기 전에 데이터를 필터링하고 선별합니다. 무의미하고 반복적인 텍스트를 제거하는 것 외에도 회사는 402개의 영어 용어와 이모티콘이 포함된 오픈 소스 "불량 단어 목록"도 사용합니다. 기업에서는 사용자가 보고 싶어하지 않는 콘텐츠를 차단하기 위해 모델을 미세 조정하기 위해 고품질 데이터 세트를 사용하는 경우가 많습니다.

이러한 목록은 모델이 훈련을 받는 동안 인종 비방과 부적절한 콘텐츠에 노출되는 것을 제한하기 위한 것이지만, 많은 것들이 필터를 통과합니다. 워싱턴 포스트(Washington Post)는 금지어 목록에서 수백 개의 포르노 웹사이트와 72,000개 이상의 "나치" 예시를 발견했습니다.

한편, 워싱턴 포스트는 백인 우월주의 웹사이트, 트랜스젠더 반대 웹사이트, 개인에 대한 괴롭힘 캠페인을 조직하는 것으로 알려진 익명 게시판 등 일부 불안한 콘텐츠를 필터가 제거하지 못했다는 사실을 발견했습니다. 이 연구는 음모론을 조장하는 웹사이트도 발견했습니다.

당신의 웹사이트는 AI 훈련에 사용되나요?

웹 스크래핑은 인터넷 전체를 복사하는 것처럼 들릴 수도 있지만 실제로는 특정 시점의 웹페이지 샘플인 스냅샷을 수집하는 것입니다. C4 데이터 세트는 원래 2019년 4월 웹 콘텐츠 크롤링을 위해 비영리 조직인 CommonCrawl에서 생성되었으며 인공 지능 모델 교육을 위한 인기 있는 리소스입니다. CommonCrawl은 이 조직이 가장 중요하고 평판이 좋은 웹사이트에 우선순위를 두려고 노력하지만 라이센스가 있거나 저작권으로 보호되는 콘텐츠를 피하려는 시도는 하지 않는다고 말했습니다.

워싱턴 포스트(Washington Post)는 사람들의 현대 생활의 여러 측면을 관리할 것으로 예상되는 인공 지능 모델에 완전한 데이터 콘텐츠를 제공하는 것이 중요하다고 믿습니다. 그러나 이 데이터세트의 많은 웹사이트에는 매우 모욕적인 언어가 포함되어 있으며, 모델이 이러한 단어를 가리도록 훈련되었더라도 불쾌한 콘텐츠가 여전히 존재할 수 있습니다.

전문가들은 C4 데이터 세트가 크더라도 대규모 언어 모델은 더 큰 데이터 세트를 사용할 수 있다고 말합니다. 예를 들어, OpenAI는 2020년에 GPT-3 교육 데이터를 출시했는데, 이는 C4에서 웹 스크래핑된 데이터 양의 40배입니다. GPT-3의 학습 데이터에는 영어 위키피디아, 대규모 기술 기업에서 자주 사용하는 미출판 작가의 무료 소설 모음, Reddit 사용자가 높은 평가를 받은 링크 텍스트 모음이 모두 포함됩니다.

전문가들은 개인 식별 정보, 저작권 보호 자료 및 동의 없이 도난당한 기타 데이터를 알아낼 수 있다는 두려움 때문에 훈련 데이터의 내용을 (심지어 내부적으로도) 기록하지 않는 기업이 많다고 말합니다. 기업이 챗봇의 의사결정 방식을 설명하는 과제를 강조함에 따라 경영진은 이에 대해 투명한 답변을 제공해야 합니다.

위 내용은 미국 언론은 대규모 모델 훈련 데이터 세트를 공개했습니다. 일부 콘텐츠는 약간 '더럽습니다'.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

최고의 프롬프트 엔지니어링 기술의 최신 연간 편집Apr 10, 2025 am 11:22 AM

내 칼럼을 처음 접할 수있는 분들을 위해, 나는 구체화 된 AI, AI 추론, AI의 첨단 획기적인 혁신, AI 교육, AI의 수비, ai re

유럽의 AI 대륙 행동 계획 : 기가 팩토리, 데이터 실험실 및 녹색 AIApr 10, 2025 am 11:21 AM

유럽의 야심 찬 AI 대륙 행동 계획은 EU를 인공 지능의 글로벌 리더로 설립하는 것을 목표로합니다. 핵심 요소는 AI Gigafactories 네트워크를 만드는 것입니다. 각각 약 100,000 개의 고급 AI 칩을 보유하고 있습니다 - Capaci의 4 배

Microsoft의 간단한 에이전트 스토리가 더 많은 팬을 만들기에 충분합니까?Apr 10, 2025 am 11:20 AM

AI 에이전트 애플리케이션에 대한 Microsoft의 통합 접근 방식 : 비즈니스를위한 명확한 승리 새로운 AI 에이전트 기능에 관한 Microsoft의 최근 발표는 명확하고 통합 된 프레젠테이션에 깊은 인상을 받았습니다. 많은 기술 발표와는 달리 TE에서 멍청한 것입니다

직원에게 AI 전략 판매 : Shopify CEO의 선언문Apr 10, 2025 am 11:19 AM

Shopify CEO Tobi Lütke의 최근 메모는 AI 숙련도가 모든 직원에 대한 근본적인 기대를 대담하게 선언하여 회사 내에서 중요한 문화적 변화를 표시합니다. 이것은 도망가는 트렌드가 아닙니다. 그것은 p에 통합 된 새로운 운영 패러다임입니다

IBM은 전체 AI 통합으로 Z17 메인 프레임을 출시합니다Apr 10, 2025 am 11:18 AM

IBM의 Z17 메인 프레임 : 향상된 비즈니스 운영을 위해 AI를 통합합니다 지난 달, IBM의 뉴욕 본사에서 Z17의 기능을 미리 보았습니다. Z16의 성공을 기반으로 (2022 년에 시작되어 지속적인 수익을 보여주는 시연

5 Chatgpt가 다른 사람에 따라 멈추고 자신을 완전히 믿으라고 프롬프트Apr 10, 2025 am 11:17 AM

흔들리지 않는 자신감을 해제하고 외부 검증의 필요성을 제거하십시오! 이 다섯 개의 chatgpt 프롬프트는 완전한 자립과 자기 인식의 변형적인 변화로 당신을 안내 할 것입니다. 간단히 괄호를 복사, 붙여 넣기 및 사용자 정의하십시오

AI는 당신의 마음과 위험합니다Apr 10, 2025 am 11:16 AM

인공 지능 보안 및 연구 회사 인 Anthropic의 최근 [연구]는 이러한 복잡한 과정에 대한 진실을 밝히기 시작하여 우리 자신의인지 영역과 방해가되는 복잡성을 보여줍니다. 자연 지능과 인공 지능은 우리가 생각하는 것보다 더 유사 할 수 있습니다. 내부 스누핑 : 의인성 해석 가능성 연구 Anthropic이 수행 한 연구에서 얻은 새로운 연구 결과는 AI의 내부 컴퓨팅을 역 엔지니어링하는 것을 목표로하는 기계적 해석 성 분야에서 상당한 발전을 나타냅니다. AI가하는 일을 관찰 할뿐만 아니라 인공 뉴런 수준에서 어떻게 수행하는지 이해합니다. 누군가가 특정한 대상을 보거나 특정한 아이디어에 대해 생각할 때 어떤 뉴런이 발사하는지 그림으로 뇌를 이해하려고한다고 상상해보십시오. 에이

Dragonwing은 Qualcomm의 가장자리 모멘텀을 보여줍니다Apr 10, 2025 am 11:14 AM

Qualcomm 's Dragonwing : 기업 및 인프라로의 전략적 도약 Qualcomm은 새로운 Dragonwing 브랜드를 통해 전 세계적으로 엔터프라이즈 및 인프라 시장을 대상으로 모바일을 넘어 범위를 적극적으로 확장하고 있습니다. 이것은 단지 Rebran이 아닙니다

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.