Scikit-Llm을 통한 제로 샷 및 소수의 샷 텍스트 분류-일체 포함-php.cn

집

기술 주변기기

일체 포함

Scikit-Llm을 통한 제로 샷 및 소수의 샷 텍스트 분류

Jennifer Aniston

Mar 10, 2025 am 11:08 AM

Zero-Shot and Few-Shot Text Classification with SCIKIT-LLM 텍스트 데이터에서 고객 피드백을 분석하고 주요 테마를 식별하는 것은 전통적으로 힘든 프로세스입니다. 데이터 수집, 수동 라벨링 및 특수 모델의 미세 조정이 포함됩니다. 그러나 Zero-Shot 텍스트 분류는 광범위한 모델 교육의 필요성을 우회하기 위해 LLM (Large Language Model)의 힘을 활용하여 간소화 된 접근 방식을 제공합니다. 이 기사는 SKLLM 라이브러리 (Scikit-Learn 및 LLM을 결합)를 사용하여 제로 샷 분류가 감정 분석을 단순화하여 Kaggle Women의 전자 상거래 의류 검토 데이터 세트에 대한 응용 프로그램을 보여줍니다.

. 핵심 학습 결과

이 튜토리얼은 다음을 다룹니다

기존의 감정 분석 워크 플로우 및 그 제한 LLMS를 사용한 제로 샷 텍스트 분류의 원리와 이점. Skllm 라이브러리 소개 및 Scikit-Learn과의 통합. 여성의 전자 상거래 의류 검토 데이터 세트에 제로 샷 분류의 실제 적용.

실제 시나리오에 대한 제로 샷 분류를 통한 실습 경험

*이 기사는 *** 데이터 과학 블로그 톤의 일부입니다 목차

데이터 세트 개요 단계별 가이드 잠재적 단점
소수의 샷 텍스트 분류
텍스트 체인 텍스트 분류

요약 자주 묻는 질문

제로 샷 텍스트 분류 란 무엇입니까? 온라인 소매 업체가받은 대량의 고객 리뷰를 분석하면 효율적인 감정 분석 및 테마 식별에 중요한 어려움이 있습니다. 전통적인 방법은 다음과 같습니다
검토 데이터 수집 및 청소 수천 개의 샘플을 수동으로 표시합니다 (예 : "양성," "음성" "중립") 이 라벨이 붙은 데이터를 사용하여 특수 분류 모델을 미세 조정합니다
이 프로세스는 시간이 많이 걸리고 자원 집약적입니다. 제로 샷 텍스트 분류는 솔루션을 제공합니다. LLM을 직접 사용하여 맞춤 교육없이 텍스트를 분류합니다. 설명 레이블 (예 : "긍정적," "음성" "중립")을 제공 함으로써이 모델은 올바른 클래스를 유추합니다. Zero-Shot가 왜 그렇게 효율적입니까? 제로 샷 분류의 효율성은 다음과 같습니다
미세 조정 제거 :
gpt-4와 같은 미세 조정 LLM의 비용이 많이 드는 과정은 피합니다. 사전 훈련 된 LLM은 직접 사용하여 즉각적인 고품질 분류를 제공합니다 쉬운 레이블 적응 : 레이블 세트 변경 (예 : 일반적인 감정에서보다 구체적인 정서로)는 레이블 목록을 업데이트하면됩니다. 모델 재교육이 필요하지 않습니다. 감소 된 데이터 요구 사항 :
감독 학습과 달리 제로 샷 분류는 설명 레이블 만 필요하므로 데이터가 제한되지 않은 데이터에 적합하거나 표지되지 않은 데이터에 적합합니다. 더 빠른 배포 :
데이터 주석 및 모델 교육을 건너 뛰면 배포가 크게 가속화됩니다. 데이터 세트 개요 Kaggle의 여성 전자 상거래 의류 검토 데이터 세트는이 자습서에서 사용됩니다. [데이터 세트 링크] 키 데이터 세트 특성 : 는 여성 의류에 대한 수천 개의 고객 리뷰가 포함되어 있습니다 "검토 텍스트"열에는 본문 데이터가 포함되어 있습니다 추가 메타 데이터 ( "제목", "등급", "권장 IND"등)를 사용할 수 있지만 제로 샷 분류에는 필수적이지 않습니다.
단계별 가이드 이 섹션은 LLMS 및 SKLLM 라이브러리로 제로 샷 분류를 사용하여 감정 분석 및 테마 탐지를 수행하는 방법에 대해 자세히 설명합니다. 1 단계 : 설치 및 설정 Python 3.7이 설치되어 Skllm : 를 설치하십시오
LLM 제공 업체 (예 : OpenAI)에 대한 유효한 API 키를 얻고 환경에 설정하십시오. 2 단계 : 라이브러리 가져 오기 및로드 데이터
3 단계 : 라벨을 정의하십시오 감정 분류의 경우 를 사용하십시오 : . 필요에 따라 사용자 정의 할 수 있습니다.
4 단계 : 제로 샷 분류 instantiate ( 또는 다른 적합한 모델 사용) :

는 훈련 데이터가 필요하지 않음을 나타냅니다. 분류기는 레이블 세트로 초기화됩니다 5 단계 : 리뷰를 분류
이것은 처음 5 개의 리뷰와 예측 된 감정을 나타냅니다.
결과 비교 전통적인 ML 접근 방식에는 라벨링, 모델 교육, 검증 및 지속적인 업데이트가 필요합니다. Zero-Shot은 이러한 오버 헤드를 크게 줄여서 데이터와 쉬운 라벨 정제없이 즉각적인 결과를 제공합니다. 잠재적 단점

정확도 변동 : 정확도는 텍스트의 복잡성과 도메인 별 전문 용어를 해석하는 모델의 능력에 따라 다를 수 있습니다. 비용 고려 사항 :
GPT-4와 같은 강력한 모델 사용 API 비용이 발생합니다. 데이터 프라이버시 :
데이터를 외부 API로 보낼 때 데이터 개인 정보 보호 규정 준수 확인. 소수의 샷 텍스트 분류 소수의 분류는 수업 당 소수의 레이블이 붙은 예제를 사용하여 모델을 안내합니다. SKLLM 추정기는 전체 교육 세트를 사용하여 몇 가지 예제를 만듭니다. 대형 데이터 세트의 경우 데이터를 분할하고 소규모 교육 하위 집합 (예 : 클래스 당 10 개 이하의 예제)을 사용하고 예제를 뒤섞습니다.
텍스트 체인 텍스트 분류
중심의 분류 체인은 중간 추론 단계를 생성하여 정확도를 향상시킬 수 있지만 토큰 사용 및 비용이 증가합니다. 소수의 샷 및 사슬의 접근 방식을 사용한 실험은 기준선 제로 샷 방법보다 더 나은 결과를 산출 할 수 있습니다. 요약 SKLLM 라이브러리는 맞춤형 감정 분석 파이프 라인을 구축하는 빠르고 효율적인 대안을 제공합니다. 제로 샷 분류는 수동 라벨링 또는 모델 교육없이 고객 피드백을 빠르게 분석 할 수 있습니다. 이것은 특히 반복 작업 및 라벨 확장에 유용합니다.
키 포인트 제로 샷 분류는 수동 라벨링 또는 모델 교육없이 감정 분석을 단순화합니다. Skllm은 효율적인 텍스트 분류를 위해 Scikit-Learn을 LLM과 통합합니다 GPT-4와 같은 LLMS는 즉시 고품질 분류 결과를 제공합니다 제로 샷 분류는 빠르고 적응할 수 있으며 최소한의 데이터가 필요합니다
자주 묻는 질문 Q1. Zero-Shot, Few-Shot 및 Thought Chain 중에서 선택하는 것은 다음과 같이 선택하는 것이 빠른 프로토 타이핑 및 제한된 데이터에 이상적입니다. 작은 라벨이 붙은 데이터 세트로 정확도를 향상시킵니다. 생각의 체인은 성능을 향상 시키지만 비용을 증가시킵니다 Q2. 소수의 예제 수 : 수업 당 최대 10 개의 예제가 권장됩니다. 편견을 피하기위한 셔플 예 Q3. 정확성에 대한 사슬의 영향 : 정확도를 향상시키는 것은 보장되지 않습니다. 효과는 작업 복잡성과 신속한 선명도에 달려 있습니다 Q4. 규모의 비용 : 비용은 토큰 사용, 모델 선택, 프롬프트 길이 및 데이터 세트 크기에 따라 다릅니다. 더 긴 프롬프트로 인한 사슬의 사슬은 비용을 증가시킵니다 참고 :
이 기사에 사용 된 이미지는 저자가 소유하지 않으며 허가와 함께 사용됩니다.

위 내용은 Scikit-Llm을 통한 제로 샷 및 소수의 샷 텍스트 분류의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

개인 해킹은 꽤 치열한 곰이 될 것입니다May 11, 2025 am 11:09 AM

사이버 공격이 발전하고 있습니다. 일반 피싱 이메일의 시대는 지났습니다. 사이버 범죄의 미래는 과인간화되어 온라인 데이터와 AI를 활용하여 고도로 표적화 된 공격을 만들어냅니다. 당신의 직업을 아는 사기꾼을 상상해보십시오. f

교황 레오 XIVMay 11, 2025 am 11:07 AM

시카고 출신의 로버트 프랜시스 프레 보스 (Robert Francis Prevost)는 카디널스 대학 (Cardinals) 대학의 첫 연설에서 새로 선출 된 교황 레오 14 세는 교황 (1878-1903)이 자동차의 새벽과 일치하는 교황 레오 XIII의 영향에 대해 논의했다.

초보자 및 전문가를위한 Fastapi -MCP 튜토리얼 - 분석 VidhyaMay 11, 2025 am 10:56 AM

이 튜토리얼은 MCP (Model Context Protocol) 및 Fastapi를 사용하여 LLM (Large Language Model)을 외부 도구와 통합하는 방법을 보여줍니다. Fastapi를 사용하여 간단한 웹 응용 프로그램을 구축하고이를 MCP 서버로 변환하여 L을 활성화합니다.

DIA-1.6B TTS : 최고의 텍스트-다이얼그 생성 모델-분석 VidhyaMay 11, 2025 am 10:27 AM

DIA-1.6B : 자금이없는 두 명의 학부생이 개발 한 획기적인 텍스트 음성 연설 모델을 탐색하십시오! 이 16 억 개의 매개 변수 모델은 웃음과 재채기와 같은 비언어적 신호를 포함하여 현저하게 현실적인 연설을 생성합니다. 이 기사 안내서

AI가 멘토링을 그 어느 때보 다 의미있게 만들 수있는 3 가지 방법May 10, 2025 am 11:17 AM

나는 진심으로 동의합니다. 나의 성공은 멘토의지도와 불가분의 관계입니다. 특히 비즈니스 관리에 관한 그들의 통찰력은 나의 믿음과 관행의 기반을 형성했습니다. 이 경험은 멘토에 대한 나의 약속을 강조합니다

AI는 광업 산업에서 새로운 잠재력을 발굴합니다May 10, 2025 am 11:16 AM

AI 강화 마이닝 장비 광업 운영 환경은 가혹하고 위험합니다. 인공 지능 시스템은 가장 위험한 환경에서 인간을 제거하고 인간 능력을 향상시켜 전반적인 효율성과 보안을 향상시킵니다. 인공 지능은 채굴 작업에 사용되는 자율 트럭, 드릴 및 로더에 전력을 공급하는 데 점점 더 많이 사용됩니다. 이러한 AI 구동 차량은 위험한 환경에서 정확하게 작동하여 안전성과 생산성을 높일 수 있습니다. 일부 회사는 대규모 광업 운영을위한 자율 광업 차량을 개발했습니다. 도전적인 환경에서 작동하는 장비에는 지속적인 유지 보수가 필요합니다. 그러나 유지 보수는 중요한 장치를 오프라인으로 유지하고 리소스를 소비 할 수 있습니다. 보다 정확한 유지 보수는 비싸고 필요한 장비의 가동 시간이 증가하고 상당한 비용 절감을 의미합니다. AI 중심

AI 요원이 25 년 만에 가장 큰 직장 혁명을 유발하는 이유May 10, 2025 am 11:15 AM

Salesforce CEO 인 Marc Benioff는 AI 에이전트가 주도하는 기념비적 인 직장 혁명을 예측하고 있으며, 이미 Salesforce와 고객 기반 내에서 변화가 진행되고 있습니다. 그는 전통적인 시장에서에 중점을 둔 훨씬 더 큰 시장으로의 전환을 구상합니다.