텍스트 데이터에서 고객 피드백을 분석하고 주요 테마를 식별하는 것은 전통적으로 힘든 프로세스입니다. 데이터 수집, 수동 라벨링 및 특수 모델의 미세 조정이 포함됩니다. 그러나 Zero-Shot 텍스트 분류는 광범위한 모델 교육의 필요성을 우회하기 위해 LLM (Large Language Model)의 힘을 활용하여 간소화 된 접근 방식을 제공합니다. 이 기사는 SKLLM 라이브러리 (Scikit-Learn 및 LLM을 결합)를 사용하여 제로 샷 분류가 감정 분석을 단순화하여 Kaggle Women의 전자 상거래 의류 검토 데이터 세트에 대한 응용 프로그램을 보여줍니다.
.
핵심 학습 결과
이 튜토리얼은 다음을 다룹니다
기존의 감정 분석 워크 플로우 및 그 제한
LLMS를 사용한 제로 샷 텍스트 분류의 원리와 이점.
Skllm 라이브러리 소개 및 Scikit-Learn과의 통합.
여성의 전자 상거래 의류 검토 데이터 세트에 제로 샷 분류의 실제 적용.
실제 시나리오에 대한 제로 샷 분류를 통한 실습 경험
*이 기사는 *** 데이터 과학 블로그 톤의 일부입니다
목차
제로 샷 텍스트 분류 란 무엇입니까?
Zero-Shot가 왜 그렇게 효율적입니까?
데이터 세트 개요
단계별 가이드
잠재적 단점 -
소수의 샷 텍스트 분류
텍스트 체인 텍스트 분류 -
요약
자주 묻는 질문 -
제로 샷 텍스트 분류 란 무엇입니까?
온라인 소매 업체가받은 대량의 고객 리뷰를 분석하면 효율적인 감정 분석 및 테마 식별에 중요한 어려움이 있습니다. 전통적인 방법은 다음과 같습니다
-
검토 데이터 수집 및 청소
수천 개의 샘플을 수동으로 표시합니다 (예 : "양성," "음성" "중립")
이 라벨이 붙은 데이터를 사용하여 특수 분류 모델을 미세 조정합니다
이 프로세스는 시간이 많이 걸리고 자원 집약적입니다. 제로 샷 텍스트 분류는 솔루션을 제공합니다. LLM을 직접 사용하여 맞춤 교육없이 텍스트를 분류합니다. 설명 레이블 (예 : "긍정적," "음성" "중립")을 제공 함으로써이 모델은 올바른 클래스를 유추합니다.
Zero-Shot가 왜 그렇게 효율적입니까?
제로 샷 분류의 효율성은 다음과 같습니다
미세 조정 제거 : - gpt-4와 같은 미세 조정 LLM의 비용이 많이 드는 과정은 피합니다. 사전 훈련 된 LLM은 직접 사용하여 즉각적인 고품질 분류를 제공합니다
쉬운 레이블 적응 : 레이블 세트 변경 (예 : 일반적인 감정에서보다 구체적인 정서로)는 레이블 목록을 업데이트하면됩니다. 모델 재교육이 필요하지 않습니다.
감소 된 데이터 요구 사항 :
감독 학습과 달리 제로 샷 분류는 설명 레이블 만 필요하므로 데이터가 제한되지 않은 데이터에 적합하거나 표지되지 않은 데이터에 적합합니다.
더 빠른 배포 : - 데이터 주석 및 모델 교육을 건너 뛰면 배포가 크게 가속화됩니다.
데이터 세트 개요
Kaggle의 여성 전자 상거래 의류 검토 데이터 세트는이 자습서에서 사용됩니다.
[데이터 세트 링크]
키 데이터 세트 특성 :
는 여성 의류에 대한 수천 개의 고객 리뷰가 포함되어 있습니다
"검토 텍스트"열에는 본문 데이터가 포함되어 있습니다
추가 메타 데이터 ( "제목", "등급", "권장 IND"등)를 사용할 수 있지만 제로 샷 분류에는 필수적이지 않습니다.
단계별 가이드
이 섹션은 LLMS 및 SKLLM 라이브러리로 제로 샷 분류를 사용하여 감정 분석 및 테마 탐지를 수행하는 방법에 대해 자세히 설명합니다.
1 단계 : 설치 및 설정
Python 3.7이 설치되어 Skllm : 를 설치하십시오
-
LLM 제공 업체 (예 : OpenAI)에 대한 유효한 API 키를 얻고 환경에 설정하십시오.
2 단계 : 라이브러리 가져 오기 및로드 데이터
3 단계 : 라벨을 정의하십시오
감정 분류의 경우 를 사용하십시오 : . 필요에 따라 사용자 정의 할 수 있습니다. -
4 단계 : 제로 샷 분류
instantiate ( 또는 다른 적합한 모델 사용) :
는 훈련 데이터가 필요하지 않음을 나타냅니다. 분류기는 레이블 세트로 초기화됩니다
5 단계 : 리뷰를 분류
이것은 처음 5 개의 리뷰와 예측 된 감정을 나타냅니다.
결과 비교
전통적인 ML 접근 방식에는 라벨링, 모델 교육, 검증 및 지속적인 업데이트가 필요합니다. Zero-Shot은 이러한 오버 헤드를 크게 줄여서 데이터와 쉬운 라벨 정제없이 즉각적인 결과를 제공합니다. 잠재적 단점
정확도 변동 : 정확도는 텍스트의 복잡성과 도메인 별 전문 용어를 해석하는 모델의 능력에 따라 다를 수 있습니다.
비용 고려 사항 : GPT-4와 같은 강력한 모델 사용 API 비용이 발생합니다.
데이터 프라이버시 : - 데이터를 외부 API로 보낼 때 데이터 개인 정보 보호 규정 준수 확인.
소수의 샷 텍스트 분류
소수의 분류는 수업 당 소수의 레이블이 붙은 예제를 사용하여 모델을 안내합니다. SKLLM 추정기는 전체 교육 세트를 사용하여 몇 가지 예제를 만듭니다. 대형 데이터 세트의 경우 데이터를 분할하고 소규모 교육 하위 집합 (예 : 클래스 당 10 개 이하의 예제)을 사용하고 예제를 뒤섞습니다.
텍스트 체인 텍스트 분류 -
중심의 분류 체인은 중간 추론 단계를 생성하여 정확도를 향상시킬 수 있지만 토큰 사용 및 비용이 증가합니다.
소수의 샷 및 사슬의 접근 방식을 사용한 실험은 기준선 제로 샷 방법보다 더 나은 결과를 산출 할 수 있습니다.
요약
SKLLM 라이브러리는 맞춤형 감정 분석 파이프 라인을 구축하는 빠르고 효율적인 대안을 제공합니다. 제로 샷 분류는 수동 라벨링 또는 모델 교육없이 고객 피드백을 빠르게 분석 할 수 있습니다. 이것은 특히 반복 작업 및 라벨 확장에 유용합니다.
- 키 포인트
제로 샷 분류는 수동 라벨링 또는 모델 교육없이 감정 분석을 단순화합니다.
Skllm은 효율적인 텍스트 분류를 위해 Scikit-Learn을 LLM과 통합합니다
GPT-4와 같은 LLMS는 즉시 고품질 분류 결과를 제공합니다
제로 샷 분류는 빠르고 적응할 수 있으며 최소한의 데이터가 필요합니다
자주 묻는 질문
Q1. Zero-Shot, Few-Shot 및 Thought Chain 중에서 선택하는 것은 다음과 같이 선택하는 것이 빠른 프로토 타이핑 및 제한된 데이터에 이상적입니다. 작은 라벨이 붙은 데이터 세트로 정확도를 향상시킵니다. 생각의 체인은 성능을 향상 시키지만 비용을 증가시킵니다
Q2. 소수의 예제 수 : 수업 당 최대 10 개의 예제가 권장됩니다. 편견을 피하기위한 셔플 예
Q3. 정확성에 대한 사슬의 영향 : 정확도를 향상시키는 것은 보장되지 않습니다. 효과는 작업 복잡성과 신속한 선명도에 달려 있습니다
Q4. 규모의 비용 : 비용은 토큰 사용, 모델 선택, 프롬프트 길이 및 데이터 세트 크기에 따라 다릅니다. 더 긴 프롬프트로 인한 사슬의 사슬은 비용을 증가시킵니다
참고 : 이 기사에 사용 된 이미지는 저자가 소유하지 않으며 허가와 함께 사용됩니다.
|
|
|
위 내용은 Scikit-Llm을 통한 제로 샷 및 소수의 샷 텍스트 분류의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!