트리 기반 모델이 표 형식 데이터에서 딥 러닝보다 여전히 뛰어난 성능을 보이는 이유-일체 포함-php.cn

집

기술 주변기기

일체 포함

트리 기반 모델이 표 형식 데이터에서 딥 러닝보다 여전히 뛰어난 성능을 보이는 이유

王林

Apr 08, 2023 pm 04:11 PM

신경망딥러닝나무 모델

이 글에서는 "왜 트리 기반 모델이 여전히 테이블 형식 데이터에서 딥 러닝보다 성능이 뛰어난가"라는 논문에 대해 자세히 설명하겠습니다. 이 논문에서는 다양한 분야에서 전 세계 머신러닝 실무자들이 관찰한 현상에 대해 설명합니다. 기반 모델은 딥 러닝/신경망보다 표 형식 데이터를 분석하는 데 훨씬 더 좋습니다.

트리 기반 모델이 표 형식 데이터에서 딥 러닝보다 여전히 뛰어난 성능을 보이는 이유

논문에 관한 참고 사항

이 논문은 많은 전처리를 거쳤습니다. 예를 들어 누락된 데이터를 제거하는 것과 같은 작업은 트리 성능을 저하시킬 수 있지만, 데이터가 매우 지저분하고 많은 특징과 차원을 포함하는 경우 데이터 누락 상황에 랜덤 포레스트가 적합합니다. RF의 견고성과 장점은 문제가 발생하기 쉬운 "고급" 솔루션보다 우수합니다.

트리 기반 모델이 표 형식 데이터에서 딥 러닝보다 여전히 뛰어난 성능을 보이는 이유

나머지 작업의 대부분은 꽤 표준적입니다. 저는 개인적으로 너무 많은 전처리 기술을 적용하는 것을 좋아하지 않습니다. 이로 인해 데이터 세트의 뉘앙스가 많이 손실될 수 있기 때문입니다. 그러나 논문에서 수행한 단계는 기본적으로 동일한 데이터 세트를 생성합니다. 그러나 최종 결과를 평가할 때도 동일한 처리 방법이 사용된다는 점에 유의해야 합니다.

이 논문에서는 초매개변수 조정을 위해 무작위 검색도 사용합니다. 이는 업계 표준이기도 하지만 내 경험상 베이지안 검색은 더 넓은 검색 공간에서 검색하는 데 더 적합합니다.

이를 이해하면 주요 질문인 트리 기반 방법이 딥 러닝보다 뛰어난 이유를 탐구할 수 있습니다.

1. 신경망은 너무 부드러운 솔루션인 경향이 있습니다.

저자는 딥 러닝 신경망이 무작위와 경쟁할 수 없다고 공유합니다. 산림 경쟁의 첫 번째 원인. 간단히 말해서, 신경망은 매끄럽지 않은 함수/결정 경계와 관련하여 가장 적합한 함수를 생성하는 데 어려움을 겪습니다. 랜덤 포레스트는 이상한/들쭉날쭉한/불규칙한 패턴에서 더 잘 작동합니다.

트리 기반 모델이 표 형식 데이터에서 딥 러닝보다 여전히 뛰어난 성능을 보이는 이유

이유를 추측해보면 신경망에서 그라디언트가 사용되며 그라디언트는 정의상 매끄러우므로 뾰족한 점과 일부 임의 함수를 구별할 수 없는 미분 가능한 검색 공간에 의존하기 때문일 수 있습니다. 따라서 진화 알고리즘, 전통 검색 및 더 기본적인 개념과 같은 AI 개념을 학습하는 것이 좋습니다. 이러한 개념은 NN이 실패할 때 다양한 상황에서 좋은 결과로 이어질 수 있기 때문입니다.

트리 기반 방법(RandomForests)과 심층 학습기 간의 결정 경계 차이에 대한 보다 구체적인 예를 보려면 아래 그림을 살펴보세요.

트리 기반 모델이 표 형식 데이터에서 딥 러닝보다 여전히 뛰어난 성능을 보이는 이유

부록에서 저자는 위 시각화에 대해 아래에서 설명합니다.

이 부분에서는 RandomForest가 MLP가 학습할 수 없는 x축(날짜 특성에 해당)의 불규칙한 패턴을 학습할 수 있음을 알 수 있습니다. 우리는 신경망의 일반적인 동작인 기본 하이퍼파라미터에서 이러한 차이를 보여 주지만 실제로 이러한 패턴을 성공적으로 학습하는 하이퍼파라미터를 찾는 것은 어렵습니다(불가능하지는 않지만).

2. 정보가 없는 속성은 mlp

와 같은 신경망에 영향을 미칩니다. 특히 여러 관계를 동시에 인코딩하는 대규모 데이터 세트의 경우 또 다른 중요한 요소입니다. 관련 없는 기능을 신경망에 제공하면 결과가 좋지 않을 것입니다(모델 교육에 더 많은 리소스를 낭비하게 됩니다). 이것이 바로 EDA/도메인 탐색에 많은 시간을 투자하는 것이 중요한 이유입니다. 이는 기능을 이해하고 모든 것이 원활하게 실행되도록 하는 데 도움이 됩니다.

논문의 저자는 무작위로 추가하고 불필요한 기능을 제거할 때 모델의 성능을 테스트했습니다. 그 결과 2가지 매우 흥미로운 결과가 발견되었습니다.

많은 기능을 제거하면 모델 간의 성능 격차가 줄어듭니다. 이는 트리 모델의 장점 중 하나가 기능이 유용한지 판단하고 쓸모 없는 기능의 영향을 피할 수 있다는 점을 분명히 보여줍니다.

데이터 세트에 무작위 기능을 추가하면 신경망이 트리 기반 방법보다 훨씬 더 심각하게 저하되는 것을 알 수 있습니다. ResNet은 특히 이러한 쓸모없는 속성으로 인해 어려움을 겪고 있습니다. Transformer의 개선은 그 안에 있는 주의 메커니즘이 어느 정도 도움이 되기 때문일 수 있습니다.

트리 기반 모델이 표 형식 데이터에서 딥 러닝보다 여전히 뛰어난 성능을 보이는 이유

이 현상에 대한 가능한 설명 중 하나는 의사결정 트리가 설계되는 방식입니다. AI 과정을 수강한 사람이라면 누구나 의사결정 트리의 정보 획득 및 엔트로피 개념을 알게 될 것입니다. 이를 통해 의사결정 트리는 나머지 기능을 비교하여 최상의 경로를 선택할 수 있습니다.

주제로 돌아가서, 표 형식 데이터와 관련하여 RF의 성능을 NN보다 더 좋게 만드는 마지막 요소가 하나 있습니다. 그것은 회전 불변입니다.

3. NN은 회전 불변이지만 실제 데이터는 그렇지 않습니다.

신경망은 회전 불변입니다. 이는 데이터 세트에 대해 회전 작업을 수행해도 성능이 변경되지 않음을 의미합니다. 데이터 세트를 회전한 후 다양한 모델의 성능과 순위가 크게 변경되었습니다. ResNets는 항상 최악이었지만 회전 후에도 원래 성능을 유지한 반면 다른 모든 모델은 크게 변경되었습니다.

트리 기반 모델이 표 형식 데이터에서 딥 러닝보다 여전히 뛰어난 성능을 보이는 이유

이것은 매우 흥미로운 현상입니다. 데이터 세트 회전이 정확히 무엇을 의미합니까? 전체 논문에 자세한 설명이 없습니다(저자에게 연락했으며 이 현상에 대해 후속 조치를 취할 것입니다). 생각이 있으시면 댓글로도 공유해주세요.

하지만 이 작업을 통해 회전 분산이 왜 중요한지 알 수 있습니다. 저자에 따르면, 기능의 선형 조합(ResNet을 불변으로 만드는 이유)을 취하는 것은 실제로 기능과 그 관계를 잘못 나타낼 수 있습니다.

원본 데이터를 인코딩하여 최적의 데이터 편향을 얻으면 통계적 속성이 매우 다른 특성이 혼합될 수 있고 회전 불변 모델로 복구할 수 없는 것이 모델에 더 나은 성능을 제공합니다.

요약

이것은 매우 흥미로운 논문입니다. 딥러닝이 텍스트 및 이미지 데이터 세트에서 큰 진전을 이루었지만 기본적으로 표 형식 데이터에서는 이점이 없습니다. 이 논문은 테스트를 위해 다양한 도메인의 45개 데이터 세트를 사용하며, 결과는 뛰어난 속도를 고려하지 않더라도 트리 기반 모델이 중간 데이터(~10K 샘플)에서 여전히 최첨단임을 보여줍니다.

위 내용은 트리 기반 모델이 표 형식 데이터에서 딥 러닝보다 여전히 뛰어난 성능을 보이는 이유의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

신속한 엔지니어링에서 생각의 그래프는 무엇입니까?Apr 13, 2025 am 11:53 AM

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Apr 13, 2025 am 11:44 AM

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

Apache Pinot을 사용한 실시간 앱 성능 모니터링Apr 13, 2025 am 11:40 AM

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Apr 13, 2025 am 11:23 AM

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaApr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 VidhyaApr 13, 2025 am 11:13 AM

쿼리에 응답 할뿐만 아니라 자율적으로 정보를 모으고, 작업을 실행하며, 여러 유형의 데이터 (텍스트, 이미지 및 코드를 처리하는 AI 구동 조수가 있다고 상상해보십시오. 미래처럼 들리나요? 이것에서

금융 부문에서 생성 AI의 응용Apr 13, 2025 am 11:12 AM

소개 금융 산업은 효율적인 거래 및 신용 가용성을 촉진함으로써 경제 성장을 주도하기 때문에 모든 국가 개발의 초석입니다. 거래가 발생하는 용이성 및 신용

온라인 학습 및 수동 공격 알고리즘 안내Apr 13, 2025 am 11:09 AM

소개 소셜 미디어, 금융 거래 및 전자 상거래 플랫폼과 같은 소스에서 전례없는 속도로 데이터가 생성되고 있습니다. 이 지속적인 정보 스트림을 처리하는 것은 어려운 일이지만

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

드림위버 CS6

시각적 웹 개발 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.