머신러닝은 하늘이 내린 축복입니다! 데이터 과학자 및 Kaggle 마스터가 'ML 함정 방지 가이드' 출시-일체 포함-php.cn

집

기술 주변기기

일체 포함

머신러닝은 하늘이 내린 축복입니다! 데이터 과학자 및 Kaggle 마스터가 'ML 함정 방지 가이드' 출시

PHPz

Apr 12, 2023 pm 08:40 PM

기계 학습해결책

데이터 과학과 기계 학습이 점점 더 대중화되고 있습니다.

이 분야에 진출하는 사람들의 수가 나날이 늘어나고 있습니다.

이는 많은 데이터 과학자가 첫 번째 기계 학습 모델을 구축할 때 풍부한 경험이 없기 때문에 실수가 발생하기 쉽다는 것을 의미합니다.

다음은 기계 학습 솔루션에서 초보자가 저지르는 가장 흔한 실수 중 일부입니다.

머신러닝은 하늘이 내린 축복입니다! 데이터 과학자 및 Kaggle 마스터가 ML 함정 방지 가이드 출시

필요한 곳에 데이터 정규화를 사용하지 않음

초심자에게는 모델에 특성을 추가하고 모델이 예측을 제공할 때까지 기다리는 것이 당연한 것처럼 보일 수 있습니다.

그러나 어떤 경우에는 매우 중요한 단계를 놓쳤기 때문에 결과가 실망스러울 수도 있습니다.

머신러닝은 하늘이 내린 축복입니다! 데이터 과학자 및 Kaggle 마스터가 ML 함정 방지 가이드 출시

선형 회귀, 고전적인 신경망 등을 포함한 특정 유형의 모델에는 데이터 정규화가 필요합니다. 이러한 유형의 모델은 학습된 가중치를 곱한 특성 값을 사용합니다. 특성이 정규화되지 않으면 한 특성의 가능한 값 범위가 다른 특성의 가능한 값 범위와 매우 다른 경우가 발생할 수 있습니다.

한 특성의 값이 [0, 0.001] 범위에 있고 다른 특성의 값이 [100000, 200000] 범위에 있다고 가정해 보겠습니다. 두 가지 기능이 똑같이 중요한 모델의 경우 첫 번째 기능의 가중치는 두 번째 기능 가중치의 100,000,000배가 됩니다. 무게가 너무 크면 모델에 심각한 문제가 발생할 수 있습니다. 예를 들어, 몇 가지 이상값이 있습니다.

또한 가중치가 크다는 것은 해당 기능이 중요하다는 의미일 수도 있고 단순히 값이 작다는 의미일 수도 있기 때문에 다양한 기능의 중요도를 추정하는 것이 매우 어려울 수 있습니다.

정규화 후에는 모든 특성이 동일한 값 범위, 일반적으로 [0, 1] 또는 [-1, 1]에 있습니다. 이 경우 가중치는 비슷한 범위에 있으며 각 기능의 실제 중요성과 밀접하게 일치합니다.

전반적으로 필요한 곳에 데이터 정규화를 사용하면 더 좋고 더 정확한 예측이 생성됩니다.

기능이 많을수록 좋다고 생각합니다

어떤 사람들은 기능을 많이 추가할수록 모델이 자동으로 가장 좋은 기능을 선택해서 사용한다고 생각할 수도 있습니다.

실제로는 그렇지 않습니다. 대부분의 경우 신중하게 설계되고 선택된 기능을 갖춘 모델은 10배 더 많은 기능을 갖춘 유사한 모델보다 훨씬 뛰어난 성능을 발휘합니다.

모델에 기능이 많을수록 과적합 위험이 커집니다. 완전히 무작위인 데이터에서도 모델은 때로는 약하고 때로는 강한 일부 신호를 찾을 수 있습니다.

머신러닝은 하늘이 내린 축복입니다! 데이터 과학자 및 Kaggle 마스터가 ML 함정 방지 가이드 출시

물론 랜덤 노이즈에는 실제 신호가 없습니다. 그러나 노이즈 열이 충분하면 모델이 감지된 오류 신호를 기반으로 일부를 사용할 수 있습니다. 이런 일이 발생하면 부분적으로 무작위 노이즈를 기반으로 하기 때문에 모델 예측의 품질이 저하됩니다.

이 경우 도움이 될 수 있는 특징 선택을 위한 다양한 기술이 존재한다는 것은 사실입니다. 그러나 이 기사에서는 이에 대해 논의하지 않습니다.

가장 중요한 점은 보유한 모든 기능을 설명하고 이 기능이 모델에 도움이 되는 이유를 이해할 수 있어야 한다는 것입니다.

외삽이 필요한 경우 트리 기반 모델을 사용하세요

나무 모델이 인기 있는 주된 이유는 강도뿐 아니라 사용하기 쉽기 때문입니다.

머신러닝은 하늘이 내린 축복입니다! 데이터 과학자 및 Kaggle 마스터가 ML 함정 방지 가이드 출시

그러나 이것이 항상 시도되고 사실인 것은 아닙니다. 어떤 경우에는 트리 기반 모델을 사용하는 것이 실수일 수도 있습니다.

트리 모델에는 추론 기능이 없습니다. 이러한 모델은 훈련 데이터에서 볼 수 있는 최대값보다 큰 예측값을 제공하지 않습니다. 또한 훈련 시 최소값보다 작은 예측을 출력하지 않습니다.

그러나 일부 작업에서는 외삽 능력이 중요한 역할을 할 수 있습니다. 예를 들어, 이 모델을 사용하여 주가를 예측한다면 미래의 주가는 이전보다 더 높아질 가능성이 있습니다. 따라서 이 경우 트리 기반 모델은 예측이 사상 최고 가격에 가까운 수준으로 제한되므로 더 이상 적합하지 않습니다.

머신러닝은 하늘이 내린 축복입니다! 데이터 과학자 및 Kaggle 마스터가 'ML 함정 방지 가이드' 출시

이 문제를 해결하는 방법은 무엇입니까?

사실 모든 길은 로마로 통해요!

한 가지 옵션은 값을 직접 예측하는 대신 변화나 차이를 예측하는 것입니다.

또 다른 솔루션은 선형 회귀 또는 외삽이 가능한 신경망과 같은 작업에 다른 모델 유형을 사용하는 것입니다.

과도한 정규화

모든 사람은 데이터 정규화의 중요성을 잘 알고 있어야 합니다. 그러나 작업마다 다른 정규화 방법이 필요합니다. 잘못된 유형을 누르면 얻는 것보다 잃는 것이 더 많습니다!

머신러닝은 하늘이 내린 축복입니다! 데이터 과학자 및 Kaggle 마스터가 ML 함정 방지 가이드 출시

트리 기반 모델에는 특성 원시 값이 승수로 사용되지 않고 이상값이 영향을 주지 않기 때문에 데이터 정규화가 필요하지 않습니다.

신경망에는 정규화가 필요하지 않을 수도 있습니다. 예를 들어 네트워크에 내부적으로 정규화를 처리하는 레이어(예: Keras 라이브러리의 BatchNormalization)가 이미 포함되어 있는 경우입니다.

머신러닝은 하늘이 내린 축복입니다! 데이터 과학자 및 Kaggle 마스터가 ML 함정 방지 가이드 출시

어떤 경우에는 선형 회귀에 데이터 정규화가 필요하지 않을 수도 있습니다. 이는 모든 특성이 비슷한 값 범위 내에 있고 동일한 의미를 갖는다는 것을 의미합니다. 예를 들어 모델이 시계열 데이터에 적용되고 모든 기능이 동일한 매개변수의 과거 값인 경우입니다.

실제로 불필요한 데이터 정규화를 적용한다고 해서 모델이 반드시 손상되는 것은 아닙니다. 대부분의 경우 이러한 경우의 결과는 건너뛴 정규화와 매우 유사합니다. 그러나 불필요한 데이터 변환을 추가로 수행하면 솔루션이 복잡해지고 일부 오류가 발생할 위험이 높아집니다.

그래서 사용하든 말든 연습을 통해 진실을 알 수 있습니다!

데이터 유출

데이터 유출은 생각보다 쉽습니다.

다음 코드 조각을 참조하세요.

머신러닝은 하늘이 내린 축복입니다! 데이터 과학자 및 Kaggle 마스터가 ML 함정 방지 가이드 출시

사실 "sum_feature"와 "diff_feature" 기능 모두 올바르지 않습니다.

학습/테스트 세트로 분할된 후 학습 데이터가 있는 부분에 테스트 행의 정보 중 일부가 포함되므로 정보가 "유출"됩니다. 이렇게 하면 더 나은 검증 결과를 얻을 수 있지만 실제 데이터 모델에 적용하면 성능이 급락합니다.

올바른 접근 방식은 학습/테스트 분할을 먼저 수행하는 것입니다. 그래야만 특징 생성 기능이 적용됩니다. 일반적으로 훈련 세트와 테스트 세트를 별도로 처리하는 것은 좋은 기능 엔지니어링 패턴입니다.

어떤 경우에는 둘 사이에 일부 정보가 전달되어야 합니다. 예를 들어 훈련 세트에 사용되어 훈련된 것과 동일한 StandardScaler를 테스트 세트에서 사용하기를 원할 수 있습니다. 하지만 이는 개별 사례일 뿐이므로 구체적인 문제를 자세히 분석해야 합니다!

머신러닝은 하늘이 내린 축복입니다! 데이터 과학자 및 Kaggle 마스터가 ML 함정 방지 가이드 출시

실수로부터 배우는 것이 좋습니다. 하지만 다른 사람의 실수로부터 배우는 것이 가장 좋습니다. 이 기사에 제공된 실수의 예가 도움이 되기를 바랍니다.

위 내용은 머신러닝은 하늘이 내린 축복입니다! 데이터 과학자 및 Kaggle 마스터가 'ML 함정 방지 가이드' 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

메타의 새로운 AI 어시스턴트 : 생산성 부스터 또는 시간 싱크?May 01, 2025 am 11:18 AM

Meta는 NVIDIA, IBM 및 DELL과 같은 파트너와 함께 LLAMA 스택의 엔터프라이즈 수준 배포 통합을 확장했습니다. 보안 측면에서 Meta는 Llama Guard 4, Llamafirewall 및 Cyberseceval 4와 같은 새로운 도구를 출시했으며 AI 보안을 향상시키기 위해 LLAMA Defenders 프로그램을 시작했습니다. 또한 Meta는 공공 서비스, 건강 관리 및 교육을 개선하기 위해 노력하는 신생 기업을 포함하여 10 개의 글로벌 기관에 LLAMA Impact Grants의 150 만 달러를 배포했습니다. Llama 4에 의해 구동되는 새로운 Meta AI 응용 프로그램, Meta AI로 생각됩니다.

Gen Zers의 80%가 AI : 연구와 결혼 할 것입니다May 01, 2025 am 11:17 AM

인간 -AI 상호 작용을 개척하는 회사 인 Joi AI는 이러한 진화하는 관계를 설명하기 위해 "AI-Lationships"라는 용어를 도입했습니다. Joi AI의 관계 치료사 인 Jaime Bronstein은 이것이 인간 C를 대체하는 것이 아니라는 것을 분명히합니다.

AI는 인터넷의 봇 문제를 악화시키고 있습니다. 이 20 억 달러 규모의 스타트 업은 최전선에 있습니다May 01, 2025 am 11:16 AM

온라인 사기와 봇 공격은 비즈니스에 큰 도전을 제기합니다. 소매 업체는 봇과 싸우고, 은행은 전투 계정 인수 및 소셜 미디어 플랫폼이 사천자와 어려움을 겪고 있습니다. AI의 부상은이 문제를 악화시킨다

로봇에 판매 : 비즈니스를 만들거나 파괴 할 마케팅 혁명May 01, 2025 am 11:15 AM

AI 에이전트는 마케팅에 혁명을 일으킬 준비가되어 있으며 이전 기술 변화의 영향을 능가 할 수 있습니다. 생성 AI의 상당한 발전을 나타내는이 에이전트는 Chatgpt와 같은 정보뿐만 아니라 Actio도 취합니다.

컴퓨터 비전 기술이 NBA 플레이 오프를 혁신하는 방법May 01, 2025 am 11:14 AM

중요한 NBA 게임 4 결정에 대한 AI의 영향 두 가지 중추적 인 게임 4 NBA 매치업은 AI의 게임 변화 역할을 선보였습니다. 첫 번째로 덴버의 Nikola Jokic의 놓친 3 점은 Aaron Gordon의 마지막으로 골목길을 이끌었습니다. 소니의 매

AI가 재생 의학의 미래를 가속화하는 방법May 01, 2025 am 11:13 AM

전통적으로 전 세계적으로 재생 의학 전문 지식을 확장하여 광범위한 여행, 실습 교육 및 수년간의 멘토링을 요구했습니다. 이제 AI는이 환경을 변화시키고 지리적 한계를 극복하고 EN을 통한 진행 상황을 가속화하고 있습니다.

Intel Foundry Direct Connect 2025의 주요 테이크 아웃May 01, 2025 am 11:12 AM

인텔은 제조 공정을 선도적 인 위치로 반환하기 위해 노력하고 있으며 팹 반도체 고객을 유치하여 팹에서 칩을 만들려고 노력하고 있습니다. 이를 위해 인텔은 프로세스의 경쟁력을 증명할뿐만 아니라 파트너가 친숙하고 성숙한 워크 플로우, 일관되고 신뢰할 수있는 방식으로 칩을 제조 할 수 있음을 보여주기 위해 업계에 대한 신뢰를 더 많이 구축해야합니다. 오늘 내가 듣는 모든 것은 인텔 이이 목표를 향해 나아가고 있다고 믿게 만듭니다. 새로운 CEO 인 탄 리바이 (Tan Libai)의 기조 연설이 그 날을 시작했다. Tan Libai는 간단하고 간결합니다. 그는 Intel의 Foundry Services에서 몇 가지 과제를 간략하게 설명하고 회사가 이러한 과제를 해결하고 향후 인텔의 파운드리 서비스를위한 성공적인 경로를 계획하기 위해 취한 조치를 취했습니다. Tan Libai는 고객을 더 많이 만들기 위해 인텔의 OEM 서비스가 구현되는 과정에 대해 이야기했습니다.

ai 잘못 되었나요? 이제 보험이 있습니다May 01, 2025 am 11:11 AM

AI 위험과 관련된 점점 더 많은 문제를 해결하기 위해, 글로벌 특수 재보험 회사 인 Chaucer Group 및 Armilla AI는 TPL (Third-Party Liability) 보험 상품을 도입하기 위해 힘을 합쳤습니다. 이 정책은 비즈니스를 보호합니다

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는