데이터 세트를 올바르게 분할하는 방법은 무엇입니까? 세 가지 일반적인 방법 요약-일체 포함-php.cn

집

기술 주변기기

일체 포함

데이터 세트를 올바르게 분할하는 방법은 무엇입니까? 세 가지 일반적인 방법 요약

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 08, 2023 pm 06:51 PM

기계 학습데이터세트검증 전략

데이터 세트를 훈련 세트로 분해하면 모델을 이해하는 데 도움이 되며, 이는 모델이 보이지 않는 새로운 데이터로 일반화되는 방식에 매우 중요합니다. 모델이 과적합되면 보이지 않는 새로운 데이터에 대해 잘 일반화되지 않을 수 있습니다. 그러므로 좋은 예측은 할 수 없습니다.

올바른 검증 전략을 갖는 것은 좋은 예측을 성공적으로 생성하고 AI 모델의 비즈니스 가치를 사용하기 위한 첫 번째 단계입니다. 이 기사에서는 몇 가지 일반적인 데이터 분할 전략을 정리했습니다.

간단한 훈련 및 테스트 분할

데이터 세트를 훈련 및 검증 부분으로 분할합니다(80% 훈련 및 20% 검증). Scikit의 무작위 샘플링을 사용하여 이를 수행할 수 있습니다.

데이터 세트를 올바르게 분할하는 방법은 무엇입니까? 세 가지 일반적인 방법 요약

먼저 랜덤 시드를 수정해야 합니다. 그렇지 않으면 동일한 데이터 분할을 비교할 수 없으며 디버깅 중에 결과를 재현할 수 없습니다. 데이터 세트가 작으면 검증 분할이 훈련 분할과 상관 관계가 없을 수 있다는 보장이 없습니다. 데이터의 균형이 맞지 않으면 동일한 분할 비율을 얻을 수 없습니다.

간단한 분할은 개발 및 디버그에만 도움이 될 수 있으며 실제 교육만으로는 충분하지 않으므로 다음 분할 방법을 사용하면 이러한 문제를 해결하는 데 도움이 될 수 있습니다.

K-겹 교차 검증

은 데이터 세트를 k개의 파티션으로 분할합니다. 아래 이미지에서 데이터 세트는 5개의 파티션으로 나뉩니다.

데이터 세트를 올바르게 분할하는 방법은 무엇입니까? 세 가지 일반적인 방법 요약

한 파티션을 검증 데이터 세트로 선택하고 다른 파티션은 훈련 데이터 세트로 선택하세요. 이렇게 하면 각각의 서로 다른 파티션 세트에서 모델을 학습하게 됩니다.

결국 K개의 서로 다른 모델을 얻게 되며, 이 모델들은 추후 추론 및 예측 시 통합 방식을 사용하여 함께 사용됩니다.

K는 일반적으로 [3,5,7,10,20]으로 설정됩니다.

낮은 편향으로 모델 성능을 확인하려면 더 높은 K[20]를 사용하세요. 변수 선택을 위한 모델을 구축하는 경우 낮은 k [3,5]를 사용하면 모델의 분산이 낮아집니다.

장점:

모델 예측을 평균화하면 동일한 분포에서 가져온 보이지 않는 데이터에 대한 모델 성능을 향상시킬 수 있습니다.
좋은 생산 모델을 얻기 위해 널리 사용되는 방법입니다.
다양한 통합 기술을 사용하여 데이터 세트의 각 데이터에 대한 예측을 생성하고 이러한 예측을 사용하여 OOF(아웃폴드 예측)라고 하는 모델을 개선할 수 있습니다.

질문:

불균형 데이터 세트가 있는 경우 Stratified-kFold를 사용하세요.
모든 데이터 세트에 대해 모델을 재교육하는 경우 k-Fold로 교육된 모델과 성능을 비교할 수 없습니다. 이 모델은 전체 데이터 세트가 아닌 k-1에 대해 학습되기 때문입니다.

Stratified-kFold

는 각 접기에서 서로 다른 클래스 간의 비율을 보존할 수 있습니다. 데이터 세트가 불균형한 경우 Class1에는 10개의 예가 있고 Class2에는 100개의 예가 있다고 가정합니다. Stratified-kFold는 원본 데이터세트와 동일한 비율로 각 폴드 분류를 생성합니다.

이 아이디어는 K-폴드 교차 검증과 유사하지만 각 폴드에 대한 비율은 원본 데이터세트와 동일합니다.

데이터 세트를 올바르게 분할하는 방법은 무엇입니까? 세 가지 일반적인 방법 요약

클래스 간 초기 비율은 각 분할에서 보존될 수 있습니다. 데이터 세트가 큰 경우 K-fold의 교차 검증도 비율을 보존할 수 있지만 이는 확률론적인 반면 Stratified-kFold는 결정론적이며 작은 데이터 세트에 사용할 수 있습니다.

Bootstrap 및 Subsampling

Bootstrap 및 Subsampling은 K-Fold 교차 검증과 유사하지만 고정된 접기가 없습니다. 데이터 세트에서 일부 데이터를 무작위로 선택하고 다른 데이터를 검증으로 사용하여 n번 반복합니다.

Bootstrap = 교대 샘플링, 이전 기사에서 자세히 소개했습니다.

언제 사용하나요? 부트스트랩과 서브샘플링은 추정된 메트릭 오류의 표준 오류가 큰 경우에만 사용할 수 있습니다. 이는 데이터 세트의 이상값으로 인해 발생할 수 있습니다.

요약

일반적으로 기계 학습에서는 k-fold 교차 검증을 시작점으로 사용합니다. 데이터 세트의 균형이 맞지 않으면 Stratified-kFold를 사용하여 이상값이 많은 경우 Bootstrap이나 다른 방법을 사용할 수 있습니다. 데이터 폴딩을 개선합니다.

위 내용은 데이터 세트를 올바르게 분할하는 방법은 무엇입니까? 세 가지 일반적인 방법 요약의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

외삽에 대한 포괄적 인 가이드Apr 15, 2025 am 11:38 AM

소개 매일 몇 주 만에 작물의 진행 상황을 관찰하는 농부가 있다고 가정합니다. 그는 성장률을보고 몇 주 안에 식물이 얼마나 키가 커질 수 있는지에 대해 숙고하기 시작합니다. Th

소프트 AI의 부상과 오늘날 비즈니스의 의미Apr 15, 2025 am 11:36 AM

Soft AI-대략적인 추론, 패턴 인식 및 유연한 의사 결정을 사용하여 구체적이고 좁은 작업을 수행하도록 설계된 AI 시스템으로 정의 된 것은 모호성을 수용하여 인간과 같은 사고를 모방하려고합니다. 그러나 이것이 바이러스의 의미는 무엇입니까?

AI 국경을위한 진화 보안 프레임 워크Apr 15, 2025 am 11:34 AM

클라우드 컴퓨팅이 클라우드 네이티브 보안 도구로의 전환이 필요했기 때문에 AI는 AI의 고유 한 요구를 위해 특별히 설계된 새로운 유형의 보안 솔루션을 요구합니다. 클라우드 컴퓨팅 및 보안 수업의 상승이 배웠습니다 th

3 가지 방법 생성 AI 기업가를 증폭시킵니다 : 평균을 조심하십시오!Apr 15, 2025 am 11:33 AM

기업가와 AI 및 생성 AI를 사용하여 비즈니스를 개선합니다. 동시에, 모든 기술과 마찬가지로 생성 AI를 기억하는 것이 중요합니다. 앰프는 앰프입니다. 엄격한 2024 연구 o

Andrew Ng의 모델 임베딩에 대한 새로운 단기 과정Apr 15, 2025 am 11:32 AM

임베딩 모델의 힘 잠금 해제 : Andrew Ng의 새로운 코스에 대한 깊은 다이빙 기계가 완벽한 정확도로 질문을 이해하고 응답하는 미래를 상상해보십시오. 이것은 공상 과학이 아닙니다. AI의 발전 덕분에 R이되었습니다

대형 언어 모델 (LLMS)에서 환각이 불가피합니까?Apr 15, 2025 am 11:31 AM

대형 언어 모델 (LLM) 및 환각의 피할 수없는 문제 Chatgpt, Claude 및 Gemini와 같은 AI 모델을 사용했을 것입니다. 이들은 대규모 텍스트 데이터 세트에 대해 교육을받은 강력한 AI 시스템의 대형 언어 모델 (LLM)의 예입니다.

60% 문제 - AI 검색이 트래픽을 배출하는 방법Apr 15, 2025 am 11:28 AM

최근의 연구에 따르면 AI 개요는 산업 및 검색 유형에 따라 유기 트래픽이 15-64% 감소 할 수 있습니다. 이러한 급격한 변화로 인해 마케팅 담당자는 디지털 가시성에 관한 전체 전략을 재고하게합니다. 새로운

AI R & D의 중심에 인간 번성을하는 MIT Media LabApr 15, 2025 am 11:26 AM

Elon University의 Digital Future Center를 상상 한 최근 보고서는 거의 300 명의 글로벌 기술 전문가를 조사했습니다. 결과적인 보고서 인‘2035 년에 인간이되는 것’은 대부분 AI 시스템의 심화가 T에 대한 우려가 있다고 결론지었습니다.

See all articles

핫 AI 도구

뜨거운 도구

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는