데이터 관리는 생성적 인공지능의 건전한 발전의 핵심이다-일체 포함-php.cn

집

기술 주변기기

일체 포함

데이터 관리는 생성적 인공지능의 건전한 발전의 핵심이다

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 03, 2023 pm 11:00 PM

일체 포함

2023년은 인공지능 시대의 공식적인 시작이 되었고 거의 모든 사람들이 ChatGPT를 이야기하고 있습니다.

데이터 관리는 생성적 인공지능의 건전한 발전의 핵심이다

ChatGPT와 같은 생성적 AI 언어 모델은 우리의 관심과 관심을 끌었습니다. AI가 실제 사람처럼 우리와 대화하고 창의적인 기사, 시 및 기타 새로운 단어라고 생각하는 단어를 생성하는 것을 처음으로 볼 수 있기 때문입니다. 콘텐츠. 생성적 AI 솔루션은 더 빠르고 더 나은 혁신, 생산성 및 가치 실현을 위한 획기적인 잠재력으로 가득 차 있는 것으로 보입니다. 그러나 그 제한 사항은 널리 알려져 있지 않으며 데이터 개인 정보 보호 및 데이터 관리 모범 사례도 널리 이해되지 않습니다.

최근 기술 및 보안 커뮤니티의 많은 사람들이 인공 지능 기술 사용에 대한 이해 부족과 적절한 규제로 인해 경종을 울렸습니다. 우리는 이미 AI 도구 출력의 신뢰성, IP(지식재산권) 및 민감 데이터 유출, 개인정보 보호 및 보안 위반에 대한 우려를 보고 있습니다.

삼성의 ChatGPT 사건은 거대 기술 기업이 실수로 인공 지능에 비밀을 유출한 이후 헤드라인을 장식했습니다. 삼성만이 아닙니다. Cyberhaven 연구에 따르면 직원의 4%가 민감한 기업 데이터를 대규모 언어 모델에 입력하는 것으로 나타났습니다. 많은 사람들은 회사 데이터에 대한 모델을 훈련할 때 AI 회사가 해당 데이터를 다른 곳에서 재사용할 수 있다는 사실을 모릅니다.

사이버 보안 정보 회사인 Recorded Future는 다음과 같이 밝혔습니다. “ChatGPT가 출시된 지 며칠 만에 우리는 다크 웹과 특별 액세스 포럼에서 결함이 있지만 강력한 악성 코드, 사회 공학 튜토리얼, 수익 창출 계획 등을 공유하는 수많은 위협 행위자를 발견했습니다. ”

개인 정보 보호 측면에서 개인이 ChatGPT와 같은 도구에 가입하면 오늘날의 검색 엔진과 마찬가지로 IP 주소, 브라우저 설정에 액세스할 수 있습니다. 하지만 프라이빗 인터넷 액세스(Private Internet Access)의 엔지니어링 이사인 호세 블라야는 "개인의 동의 없이 정치적 신념이나 성적 취향이 드러날 수 있고 당황스럽거나 심지어 경력을 파괴하는 정보가 공개될 수 있기 때문에 위험이 더 크다"고 말했습니다.

분명히 이러한 새로운 AI 기술을 구현하려면 더 나은 규정과 표준이 필요합니다. 그러나 데이터 거버넌스 및 데이터 관리의 중요한 역할에 대한 논의는 부족합니다. 그러나 이는 기업의 AI 채택 및 안전한 AI 사용에 핵심적인 역할을 합니다.

모든 것은 데이터에 관한 것입니다.

우리가 집중해야 할 세 가지 영역은 다음과 같습니다.

데이터 거버넌스 및 훈련 데이터의 투명성: 핵심 문제는 독점적인 사전 훈련된 AI 모델 또는 대규모 언어 모델을 둘러싸고 있습니다. (LLM). LLM을 사용하는 기계 학습 프로그램에는 다양한 소스의 대규모 데이터 세트가 포함되어 있습니다. 문제는 LLM이 원본 데이터에 대한 투명성을 거의 제공하지 않는 블랙박스라는 것입니다. 우리는 이러한 소스에 사기성 데이터가 포함되어 있는지, PII(개인 식별 정보)가 포함되어 있는지, 신뢰할 수 있는지, 편견이 없고 정확하거나 합법적인지 알 수 없습니다. LLM R&D는 소스 데이터를 공유하지 않습니다.

Washington Post는 1,500만 개 웹사이트에 걸쳐 Google의 C4 데이터 세트를 분석한 결과 의심스러운 콘텐츠 중에서 선동적인 데이터와 PII 데이터가 포함된 수십 개의 불쾌한 사이트를 발견했습니다. 우리에게는 사용된 데이터 소스에 대한 투명성과 해당 소스에 포함된 지식의 유효성/신뢰성을 요구하는 데이터 거버넌스가 필요합니다. 예를 들어, AI 봇은 확인되지 않은 소스나 가짜 뉴스 사이트의 데이터에 대해 교육을 받고 현재 회사의 새로운 정책이나 R&D 이니셔티브의 일부인 지식을 편향시킬 수 있습니다.

데이터 격리 및 데이터 도메인: 현재 다양한 AI 공급업체는 귀하가 제공하는 데이터를 처리하는 방법에 대해 서로 다른 개인 정보 보호 정책을 가지고 있습니다. 의도치 않게 직원은 모델이 데이터를 지식 기반에 통합할 수 있다는 사실을 모르고 프롬프트에서 LLM에 데이터를 제공할 수 있습니다. 기업은 자신도 모르게 영업 비밀, 소프트웨어 코드, 개인 데이터를 전 세계에 노출할 수 있습니다.

일부 AI 솔루션은 사전 훈련된 모델에서 데이터를 제외하여 데이터 개인 정보를 보호하기 위해 API 채택과 같은 해결 방법을 제공하지만 이로 인해 AI의 기능적 가치도 제한됩니다. 이상적인 사용 사례는 데이터 개인정보 보호를 유지하면서 사례별 데이터로 사전 훈련된 모델을 강화하는 것이기 때문입니다.

한 가지 해결책은 사전 훈련된 AI 도구가 데이터 "도메인"의 개념을 이해하도록 하는 것입니다. 훈련 데이터의 "공통" 도메인은 사전 훈련에 사용되고 공통 애플리케이션 간에 공유되는 반면, "독점 데이터"를 기반으로 한 훈련 모델은 조직 경계 내에서 안전하게 제한됩니다. 데이터 관리를 통해 이러한 경계가 생성되고 보존됩니다.

인공 지능의 파생물: 데이터 관리의 세 번째 영역은 AI 프로세스에 의해 생성된 데이터와 그 최종 소유자와 관련됩니다. 예를 들어 AI 봇을 사용하여 코딩 문제를 해결합니다. 어떤 일이 잘못 수행되어 버그나 버그가 발생한 경우 일반적으로 조사하고 수정하기 위해 누가 무엇을 했는지 알 수 있습니다. 그러나 AI를 사용하면 AI가 수행한 작업으로 인해 발생하는 오류나 나쁜 결과에 대해 조직이 누구의 책임인지 정의하기가 어렵습니다. 기계를 비난할 수는 없습니다. 오류나 나쁜 결과를 초래한 것은 어느 정도 인간입니다.

더 복잡한 질문은 IP입니다. 생성 인공 지능 도구를 사용하여 만든 작품의 IP를 소유하고 있습니까? 법정에서 어떻게 자신을 변호하겠습니까? Harvard Business Review에 따르면 예술계는 특정 인공 지능 응용 프로그램에 대해 소송을 제기하기 시작했습니다.

지금 데이터 관리 전략을 생각해 보십시오.

초창기에는 불량 데이터, 개인 정보 보호 및 보안, 지적 재산 및 기타 민감한 데이터 세트의 위험에 대해 AI가 무엇을 몰랐는지 몰랐습니다. 인공 지능은 또한 LLM, 비즈니스 프로세스 논리 기반 자동화와 같은 다양한 접근 방식을 사용하는 광범위한 분야입니다. 이는 데이터 거버넌스 정책과 데이터 관리 관행의 조합을 통해 탐구되는 주제 중 일부일 뿐입니다.

생성 중지 위험을 완화하고 결과를 검증하기 위한 감독 전략, 정책 및 절차가 마련될 때까지 AI 실험을 진행하세요.

데이터 관리 지침 원칙을 통합하는 것은 데이터가 어디에 있든 데이터를 확실하게 이해하는 것에서 시작됩니다. 민감한 PII와 고객 데이터는 어디에 있나요? 얼마나 많은 IP 데이터를 보유하고 있으며 이러한 파일은 어디에 있습니까? 이러한 유형의 데이터가 실수로 AI 도구에 입력되지 않도록 하고 보안 또는 개인정보 침해를 방지하기 위해 사용량을 모니터링할 수 있습니까?

필요한 것보다 더 많은 데이터를 AI 애플리케이션에 제공하지 말고 민감한 독점 데이터를 공유하지 마세요. IP 및 고객 데이터를 잠그거나 암호화하여 공유를 방지합니다.

AI 도구가 데이터 소스에 투명할 수 있는 방법과 여부를 이해합니다.

공급업체가 귀하의 데이터를 보호할 수 있나요? 구글은 블로그를 통해 해당 공지를 공유했지만 '어떻게'가 불분명하다. "회사가 Vertex AI에서 모델을 교육하든 Generative AI App Builder에서 고객 서비스 경험을 구축하든 개인 데이터는 비공개로 유지되며, 더 광범위한 기본 모델 훈련 코퍼스. "제공하는 데이터가 기밀로 유지될 수 있는지 알아보려면 각 AI 도구의 계약 언어를 읽어보세요.

프로젝트를 의뢰한 소유자, 개인 또는 부서의 2차 저작물을 태그한 데이터입니다. 이는 회사에서 생산하는 모든 작업에 대해 궁극적으로 책임을 질 수 있고 AI가 프로세스에 어떻게 통합되고 누가 관련되는지 알고 싶기 때문에 도움이 됩니다.

도메인 간 데이터 이동성을 보장합니다. 예를 들어, 팀은 IP 데이터와 식별 기능을 제거하고 나중에 사용할 수 있도록 공통 교육 데이터 세트에 제공할 수 있습니다. 이 프로세스를 자동화하고 추적하는 것이 중요합니다.

개발 중인 업계 규정 및 지침에 대한 최신 정보를 얻고 다른 조직의 동료와 대화하여 위험 완화 및 데이터 관리에 접근하는 방법을 이해하세요.

생성 AI 프로젝트를 시작하기 전에 법률 전문가와 상담하여 데이터 유출, 개인 정보 보호 및 IP 위반, 악의적인 행위자 또는 거짓/잘못된 결과가 발생할 경우의 위험과 프로세스를 이해하세요.

기업의 인공 지능에 대한 실용적인 접근 방식

인공 지능은 빠르게 발전하고 있으며 전례 없는 속도로 혁신을 가속화하고 비용을 절감하며 사용자 경험을 향상시킬 수 있는 잠재력을 가지고 큰 가능성을 갖고 있습니다. 그러나 가장 강력한 도구와 마찬가지로 AI는 적절한 데이터 거버넌스와 데이터 관리 가드레일을 마련하고 올바른 맥락에서 주의해서 사용해야 합니다. 인공지능을 위한 데이터 관리에 대한 명확한 표준은 아직 나오지 않았으며, 이는 더 많은 연구가 필요한 영역입니다. 동시에 기업은 AI 애플리케이션을 사용하기 전에 주의를 기울여야 하며 데이터 노출, 데이터 위반 및 잠재적인 데이터 보안 위험을 명확하게 이해해야 합니다.

위 내용은 데이터 관리는 생성적 인공지능의 건전한 발전의 핵심이다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제