>  기사  >  백엔드 개발  >  텍스트 분류를 위한 ML 모델 정확도를 향상시키는 방법은 무엇입니까?

텍스트 분류를 위한 ML 모델 정확도를 향상시키는 방법은 무엇입니까?

WBOY
WBOY원래의
2024-08-06 20:16:301071검색

How to improve ML Model Accuracy for Text Classification?

전문가 여러분,

안녕하세요.

텍스트 분류 문제를 다루고 있습니다. 우리는 약 50개의 클래스로 구성된 약 80,000개의 레코드를 보유하고 있습니다. 데이터의 불균형이 매우 심합니다. 여기에는 설명용 열과 클래스가 포함된 열이 2개 있습니다.
지금까지 우리는 다음과 같은 모델과 기술을 시도했습니다:

  1. 데이터 전처리: 에이. 소문자 변환, 숫자 텍스트 제거, 제거됨 구두점 비. 중요하지 않은 단어와 중지 단어를 제거했습니다. 기음. 표절화
  2. TFIDF 변환
  3. SKLEARN 모델 사용: 에이. 선형 SVC 비. 선형 회귀 기음. 로지스틱 회귀 디. 의사결정 트리 이자형. 랜덤 포레스트
  4. Huggingface Transformers 사용: 에이. 구글 버트 비. 디스틸 버트
  5. SMOTE 샘플링

우리가 얻은 최대 정확도는 70%인 것으로 관찰되었습니다(Random Forest 및 Google Bert).
정확도를 높일 수 있는 여지가 있나요?
그렇다면 정확성을 높이기 위해 사용할 수 있는 다른 기술이나 모델은 무엇입니까?

위 내용은 텍스트 분류를 위한 ML 모델 정확도를 향상시키는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
이전 기사:파이썬 목록다음 기사:파이썬 목록