기계 학습의 앙상블 방법 개요-일체 포함-php.cn

집

기술 주변기기

일체 포함

기계 학습의 앙상블 방법 개요

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 15, 2023 pm 01:52 PM

기계 학습데이터통합

온라인 쇼핑을 하고 있는데 동일한 평가로 동일한 제품을 판매하는 두 매장을 발견했다고 상상해 보세요. 그러나 첫 번째는 단 한 사람의 평가를 받았고 두 번째는 100명의 평가를 받았습니다. 어떤 평가를 더 신뢰하시겠습니까? 결국 어떤 제품을 구매하시겠어요? 대부분의 사람들의 대답은 간단합니다. 100명의 의견은 단 한 사람의 의견보다 확실히 더 신뢰할 만합니다. 이것이 "군중의 지혜"라고 불리며 앙상블 접근 방식이 작동하는 이유입니다.

기계 학습의 앙상블 방법 개요

앙상블 방법

보통 우리는 훈련 데이터로부터 오직 학습자(학습자 = 훈련 모델)만을 생성합니다(즉, 훈련 데이터에 대해서만 기계 학습 모델을 훈련시킵니다). 앙상블 방식은 여러 학습자가 동일한 문제를 해결한 후 함께 결합하는 방식입니다. 이러한 학습자를 기본 학습자라고 하며 신경망, 지원 벡터 머신, 의사결정 트리 등과 같은 기본 알고리즘을 가질 수 있습니다. 이러한 기본 학습기가 모두 동일한 알고리즘으로 구성되면 동종 기본 학습기라고 하고, 서로 다른 알고리즘으로 구성되면 이종 기본 학습기라고 합니다. 단일 기본 학습기에 비해 앙상블은 일반화 기능이 더 뛰어나므로 더 나은 결과를 얻을 수 있습니다.

앙상블 방식이 약한 학습자로 구성된 경우. 따라서 기본 학습자를 약한 학습자라고도 합니다. 앙상블 모델이나 강한 학습기(약한 학습기의 조합)는 편향/분산이 더 낮고 더 나은 성능을 달성합니다. 약한 학습자를 강한 학습자로 변환하는 이러한 통합 접근 방식의 능력은 실제로 약한 학습자를 더 쉽게 사용할 수 있기 때문에 대중화되었습니다.

최근 몇 년 동안 통합 방법은 다양한 온라인 대회에서 지속적으로 우승을 차지했습니다. 앙상블 방식은 온라인 대회 외에도 객체 탐지, 인식, 추적 등 컴퓨터 비전 기술 등 실생활 응용 분야에도 적용된다.

앙상블 방법의 주요 유형

약한 학습자는 어떻게 생성되나요?

기본 학습자가 생성되는 방식에 따라 통합 방법은 크게 순차 통합 방법과 병렬 통합 방법의 두 가지 범주로 나눌 수 있습니다. 이름에서 알 수 있듯이 Sequential ensemble 방법에서는 AdaBoost와 같은 Boosting 알고리즘과 같이 기본 학습기를 순차적으로 생성한 후 결합하여 예측을 합니다. 병렬 앙상블 방식에서는 기본 학습기를 병렬로 생성한 후 이를 결합하여 랜덤 포레스트, 스태킹 등의 배깅 알고리즘 등 예측을 수행합니다. 다음 그림은 병렬 및 순차 접근 방식을 설명하는 간단한 아키텍처를 보여줍니다.

기본 학습자의 다양한 생성 방법에 따라 통합 방법은 크게 순차 통합 방법과 병렬 통합 방법의 두 가지 범주로 나눌 수 있습니다. 이름에서 알 수 있듯이 순차 앙상블 방법에서는 AdaBoost와 같은 Boosting 알고리즘과 같이 기본 학습기를 순서대로 생성한 후 결합하여 예측을 합니다. 병렬 앙상블 방법에서는 기본 학습기가 병렬로 생성된 다음 Random Forest 및 Stacking과 같은 배깅 알고리즘과 같은 예측을 위해 함께 결합됩니다. 아래 그림은 병렬 및 순차 접근 방식을 모두 설명하는 간단한 아키텍처를 보여줍니다.

기계 학습의 앙상블 방법 개요

병렬 및 순차 통합 방법

순차적 학습 방법은 약한 학습자 간의 종속성을 활용하여 잔여 감소 방식으로 전체 성능을 향상시켜 나중에 학습자가 이전 학습자의 오류에 더 많은 관심을 기울일 수 있도록 합니다. 대략적으로 말하면(회귀 문제의 경우) 부스팅 방법으로 얻은 앙상블 모델 오류의 감소는 주로 약한 학습기의 높은 편향을 줄임으로써 달성되지만 분산의 감소는 때때로 관찰됩니다. 반면, 병렬 앙상블 방법은 독립적인 약한 학습기를 결합하여 오류를 줄입니다. 즉, 약한 학습기 간의 독립성을 활용합니다. 이러한 오류 감소는 기계 학습 모델의 분산이 감소했기 때문입니다. 따라서 부스팅은 주로 머신러닝 모델의 편향을 줄여 오류를 줄이는 반면, 배깅은 머신러닝 모델의 분산을 줄여 오류를 줄이는 것으로 요약할 수 있습니다. 어떤 앙상블 방법을 선택하느냐는 약한 학습기의 분산이 높은지 아니면 높은 편향을 갖는지에 따라 달라지기 때문에 이는 중요합니다.

약한 학습자를 어떻게 합칠 수 있나요?

이러한 소위 기본 학습자를 생성한 후 우리는 이러한 학습자 중 가장 좋은 것을 선택하지 않고 더 나은 일반화를 위해 함께 결합합니다. 이를 수행하는 방식은 앙상블 접근 방식에서 중요한 역할을 합니다.

평균화: 출력이 숫자인 경우 기본 학습자를 결합하는 가장 일반적인 방법은 평균화입니다. 평균은 단순 평균 또는 가중 평균일 수 있습니다. 회귀 문제의 경우 단순 평균은 모든 기본 모델의 오류 합계를 총 학습자 수로 나눈 값입니다. 가중 평균 결합 출력은 각 기본 학습자에게 서로 다른 가중치를 부여하여 달성됩니다. 회귀 문제의 경우 각 기본 학습기의 오류에 주어진 가중치를 곱한 다음 합산합니다.

투표: 명목 출력의 경우 투표는 기본 학습자를 결합하는 가장 일반적인 방법입니다. 투표에는 다수결, 다수결, 가중투표, 소프트투표 등 다양한 유형이 있습니다. 분류 문제의 경우 절대다수 투표는 각 학습자에게 한 표를 주고 클래스 레이블에 투표합니다. 어떤 클래스 레이블이 50% 이상의 표를 얻었는지가 앙상블의 예측 결과입니다. 그러나 클래스 레이블이 50% 이상의 표를 얻지 못하면 거부 옵션이 제공됩니다. 이는 결합된 앙상블이 어떤 예측도 할 수 없음을 의미합니다. 상대적 다수 투표에서는 가장 많은 표를 얻은 클래스 레이블이 예측 결과이며, 클래스 레이블에는 50% 이상의 표가 필요하지 않습니다. 즉, 3개의 출력 레이블이 있고 3개 모두 40% 30% 30%와 같이 50% 미만의 결과를 얻는 경우 클래스 레이블의 40%를 얻는 것이 앙상블 모델의 예측 결과입니다. . 가중 평균과 마찬가지로 가중 투표는 중요도와 특정 학습자의 강점을 기준으로 분류자에 가중치를 할당합니다. 소프트 투표는 레이블(이진 또는 기타)이 아닌 확률(0과 1 사이의 값)이 있는 클래스 출력에 사용됩니다. 소프트 투표는 다시 단순 소프트 투표(확률의 단순 평균)와 가중치 소프트 투표(학습자에게 가중치를 부여하고 확률에 이 가중치를 곱하여 더함)로 세분화됩니다.

학습: 결합하는 또 다른 방법은 스태킹 앙상블 방법이 사용하는 학습을 통해서입니다. 이 접근 방식에서는 메타 학습자라고 하는 별도의 학습자가 원래 기계 학습 데이터 세트에서 생성된 다른 기본/약한 학습자를 결합하기 위해 새로운 데이터 세트에 대해 훈련됩니다.

부스팅, 배깅 또는 스태킹 여부에 관계없이 세 가지 앙상블 방법 모두 동종 또는 이종 약한 학습기를 사용하여 생성될 수 있습니다. 가장 일반적인 접근 방식은 배깅 및 부스팅에는 동종 약한 학습기를 사용하고, 스태킹에는 이종 약한 학습기를 사용하는 것입니다. 아래 그림은 세 가지 주요 앙상블 방법을 잘 분류한 것입니다.

기계 학습의 앙상블 방법 개요

앙상블 방법의 주요 유형 분류

앙상블 다양성

앙상블 다양성은 기본 학습자가 얼마나 다른지를 나타내며, 이는 좋은 앙상블 모델을 생성하는 데 큰 의미가 있습니다. 서로 다른 조합 방법을 통해 완전히 독립적인(다양한) 기본 학습자는 오류를 최소화할 수 있는 반면, 완전히(고도로) 관련된 학습자는 아무런 개선도 가져오지 않는다는 것이 이론적으로 입증되었습니다. 이는 실제 생활에서 어려운 문제입니다. 동일한 데이터 세트를 사용하여 동일한 문제를 해결하도록 모든 약한 학습자를 교육하고 있어 높은 상관 관계가 발생하기 때문입니다. 게다가 약한 학습자가 실제로 나쁜 모델이 아닌지 확인해야 합니다. 이로 인해 앙상블 성능이 저하될 수도 있기 때문입니다. 반면에 강력하고 정확한 기본 학습자를 결합하는 것은 일부 약한 학습자와 일부 강한 학습자를 결합하는 것만큼 효과적이지 않을 수 있습니다. 따라서 기본 학습기의 정확도와 기본 학습기 간의 차이점 사이에 균형을 맞춰야 합니다.

통합된 다양성을 달성하는 방법은 무엇입니까?

1. 데이터 처리

기본 학습자를 위해 데이터 세트를 하위 세트로 나눌 수 있습니다. 기계 학습 데이터 세트가 큰 경우 데이터 세트를 동일한 부분으로 분할하여 기계 학습 모델에 공급할 수 있습니다. 데이터 세트가 작은 경우 무작위 추출을 복원하여 원래 데이터 세트에서 새 데이터 세트를 생성할 수 있습니다. 배깅 방법은 부트스트래핑 기술을 사용하여 기본적으로 교체를 통한 무작위 샘플링인 새로운 데이터 세트를 생성합니다. 부트스트래핑을 사용하면 생성된 모든 데이터 세트가 서로 다른 값을 가져야 하므로 어느 정도 임의성을 생성할 수 있습니다. 그러나 대부분의 값(이론에 따르면 약 67%)은 여전히 반복되므로 데이터 세트가 완전히 독립적이지는 않습니다.

2. 입력 기능

모든 데이터세트에는 데이터에 대한 정보를 제공하는 기능이 포함되어 있습니다. 하나의 모델에서 모든 기능을 사용하는 대신 기능의 하위 집합을 만들고 다양한 데이터 세트를 생성하여 모델에 제공할 수 있습니다. 이 방법은 랜덤 포레스트(Random Forest) 기법에 의해 채택되었으며, 데이터에 중복된 특징이 많을 때 효과적입니다. 데이터 세트에 특성이 거의 없으면 효율성이 감소합니다.

3. 학습 매개변수

이 기술은 기본 학습 알고리즘에 다양한 매개변수 설정을 적용하여 기본 학습기에서 임의성을 생성합니다. 즉, 하이퍼 매개변수 조정입니다. 예를 들어 정규화 용어를 변경하면 개별 신경망에 서로 다른 초기 가중치를 할당할 수 있습니다.

통합 가지치기

마지막으로 통합 가지치기 기술은 경우에 따라 더 나은 통합 성능을 달성하는 데 도움이 될 수 있습니다. 앙상블 프루닝(Ensemble Pruning)은 모든 약한 학습자를 결합하는 대신 학습자의 하위 집합만 결합하는 것을 의미합니다. 이 외에도 소규모 통합으로 스토리지 및 컴퓨팅 리소스를 절약하여 효율성을 높일 수 있습니다.

마지막으로

이 글은 머신러닝 앙상블 방법에 대한 개요입니다. 모두가 좀 더 깊이 있는 연구를 하고, 더 중요한 것은 연구를 실생활에 적용할 수 있기를 바랍니다.

위 내용은 기계 학습의 앙상블 방법 개요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

AI 게임 개발May 02, 2025 am 11:17 AM

격변 게임 : AI 에이전트와의 게임 개발 혁명 Blizzard 및 Obsidian과 같은 업계 대기업의 재향 군인으로 구성된 게임 개발 스튜디오 인 Upheaval은 혁신적인 AI 구동 Platfor로 게임 제작에 혁명을 일으킬 준비가되어 있습니다.

Uber는 Robotaxi 상점이되기를 원합니다. 제공자가 그들을 허락할까요?May 02, 2025 am 11:16 AM

Uber의 Robotaxi 전략 : 자율 주행 차량을위한 승차원 생태계 최근 Curbivore 컨퍼런스에서 Uber의 Richard Willder는 Robotaxi 제공 업체를위한 승마 플랫폼이되기위한 전략을 공개했습니다. 그들의 지배적 인 위치를 활용합니다

비디오 게임을하는 AI 요원은 미래의 로봇을 변화시킬 것입니다May 02, 2025 am 11:15 AM

비디오 게임은 특히 자율적 인 에이전트 및 실제 로봇의 개발에서 최첨단 AI 연구를위한 귀중한 테스트 근거로 입증되며, 인공 일반 정보 (AGI)에 대한 탐구에 잠재적으로 기여할 수 있습니다. 에이

스타트 업 산업 단지, VC 3.0 및 James Currier 's ManifestoMay 02, 2025 am 11:14 AM

진화하는 벤처 캐피탈 환경의 영향은 미디어, 재무 보고서 및 일상적인 대화에서 분명합니다. 그러나 투자자, 신생 기업 및 자금에 대한 구체적인 결과는 종종 간과됩니다. 벤처 캐피탈 3.0 : 패러다임

Adobe 업데이트 Adobe Max London 2025에서 Creative Cloud and FireflyMay 02, 2025 am 11:13 AM

Adobe Max London 2025는 Creative Cloud and Firefly에 상당한 업데이트를 제공하여 접근성 및 생성 AI로의 전략적 전환을 반영했습니다. 이 분석에는 Adobe Leadership과의 사전 이벤트 브리핑의 통찰력이 포함되어 있습니다. (참고 : Adob

모든 메타는 Llamacon에서 발표했습니다May 02, 2025 am 11:12 AM

Meta의 Llamacon 발표는 OpenAi와 같은 폐쇄 된 AI 시스템과 직접 경쟁하도록 설계된 포괄적 인 AI 전략을 보여 주며 동시에 오픈 소스 모델을위한 새로운 수익원을 만듭니다. 이 다각적 인 접근법은 Bo를 대상으로합니다

AI가 정상적인 기술에 지나지 않는다는 제안에 대한 양조 논쟁May 02, 2025 am 11:10 AM

이 결론에 대한 인공 지능 분야에는 심각한 차이가 있습니다. 어떤 사람들은 "황제의 새로운 옷"을 폭로 할 때라고 주장하는 반면, 인공 지능은 단지 일반적인 기술이라는 생각에 강력하게 반대합니다. 논의합시다. 이 혁신적인 AI 혁신에 대한 분석은 다양한 영향력있는 AI 복잡성을 식별하고 설명하는 것을 포함하여 AI 분야의 최신 발전을 다루는 진행중인 Forbes 열의 일부입니다 (링크를 보려면 여기를 클릭하십시오). 공통 기술로서의 인공 지능 첫째,이 중요한 토론을위한 토대를 마련하기 위해서는 몇 가지 기본 지식이 필요합니다. 현재 인공 지능을 발전시키는 데 전념하는 많은 연구가 있습니다. 전반적인 목표는 인공 일반 지능 (AGI) 및 가능한 인공 슈퍼 인텔리전스 (AS)를 달성하는 것입니다.

모델 시민, AI 가치가 다음 비즈니스 척도 인 이유May 02, 2025 am 11:09 AM

회사의 AI 모델의 효과는 이제 핵심 성과 지표입니다. AI 붐 이후 생일 초대장 작성부터 소프트웨어 코드 작성에 이르기까지 생성 AI는 모든 데 사용되었습니다. 이로 인해 언어 모드가 확산되었습니다

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는