Featuretools를 사용하여 자동 기능 엔지니어링 구현-일체 포함-php.cn

집

기술 주변기기

일체 포함

Featuretools를 사용하여 자동 기능 엔지니어링 구현

PHPz

Jan 22, 2024 pm 03:18 PM

기능 엔지니어링

Featuretools를 사용하여 자동 기능 엔지니어링 구현

Featuretools는 자동화된 기능 엔지니어링을 위한 Python 라이브러리입니다. 기능 엔지니어링 프로세스를 단순화하고 기계 학습 모델의 성능을 향상시키는 것을 목표로 합니다. 라이브러리는 원시 데이터에서 유용한 기능을 자동으로 추출하여 사용자가 시간과 노력을 절약하는 동시에 모델 정확도를 높이는 데 도움을 줍니다.

Featuretools를 사용하여 기능 엔지니어링을 자동화하는 방법에 대한 단계는 다음과 같습니다.

1단계: 데이터 준비

Featuretools를 사용하기 전에 데이터 세트를 준비해야 합니다. 데이터 세트는 Pandas DataFrame 형식이어야 하며, 여기서 각 행은 관찰을 나타내고 각 열은 기능을 나타냅니다. 분류 및 회귀 문제의 경우 데이터 세트에 목표 변수가 포함되어야 하고, 클러스터링 문제의 경우 데이터 세트에 목표 변수가 필요하지 않습니다. 따라서 Featuretools를 사용할 때 데이터 세트가 이러한 요구 사항을 충족하는지 확인하여 기능 엔지니어링 및 기능 생성을 효율적으로 수행할 수 있습니다.

2단계: 엔터티 및 관계 정의

특성 엔지니어링을 위해 Featuretools를 사용할 때는 먼저 엔터티와 관계를 정의해야 합니다. 엔터티는 관련된 특성 집합을 포함하는 데이터 집합의 하위 집합입니다. 예를 들어 전자상거래 웹사이트에서는 주문, 사용자, 제품, 결제 등이 서로 다른 개체로 처리될 수 있습니다. 관계는 엔터티 간의 연결입니다. 예를 들어 주문은 사용자와 연결될 수 있으며 사용자는 여러 제품을 구매할 수 있습니다. 엔터티와 관계를 명확하게 정의함으로써 데이터 세트의 구조를 더 잘 이해할 수 있으므로 기능 생성 및 데이터 분석이 용이해집니다.

3단계: 엔터티 세트 만들기

Featuretools를 사용하면 엔터티와 관계를 정의하여 엔터티 세트를 만들 수 있습니다. 엔터티 세트는 여러 엔터티의 모음입니다. 이 단계에서는 각 엔터티의 이름, 데이터 세트, 인덱스, 변수 유형, 타임스탬프 등을 정의해야 합니다. 예를 들어 주문 및 사용자 엔터티를 포함하는 엔터티 세트는 다음 코드를 사용하여 생성할 수 있습니다.

import featuretools as ft

# Create entity set
es=ft.EntitySet(id=&#x27;ecommerce&#x27;)

# Define entities
orders=ft.Entity(id=&#x27;orders&#x27;,dataframe=orders_df,index=&#x27;order_id&#x27;,time_index=&#x27;order_time&#x27;)
users=ft.Entity(id=&#x27;users&#x27;,dataframe=users_df,index=&#x27;user_id&#x27;)

# Add entities to entity set
es=es.entity_from_dataframe(entity_id=&#x27;orders&#x27;,dataframe=orders_df,index=&#x27;order_id&#x27;,time_index=&#x27;order_time&#x27;)
es=es.entity_from_dataframe(entity_id=&#x27;users&#x27;,dataframe=users_df,index=&#x27;user_id&#x27;)

여기에서는 EntitySet을 사용하여 "ecommerce"라는 엔터티 세트를 생성하고 Entity, Orders 및 Users를 사용하여 두 엔터티를 정의합니다. . 주문 엔터티의 경우 주문 ID를 인덱스로, 주문 시간을 타임스탬프로 지정했습니다. 사용자 엔터티의 경우 사용자 ID만 인덱스로 지정했습니다.

4단계: 관계 정의

이 단계에서는 엔터티 간의 관계를 정의해야 합니다. Featuretools를 사용하면 엔터티 간의 공유 변수, 타임스탬프 등을 통해 관계를 정의할 수 있습니다. 예를 들어 전자상거래 웹사이트에서 각 주문은 사용자와 연결됩니다. 주문과 사용자 간의 관계는 다음 코드를 사용하여 정의할 수 있습니다.

# Define relationships
r_order_user = ft.Relationship(orders[&#x27;user_id&#x27;], users[&#x27;user_id&#x27;])
es = es.add_relationship(r_order_user)

여기에서는 Relationship을 사용하여 주문과 사용자 간의 관계를 정의하고 add_relationship을 사용하여 엔터티 세트에 추가했습니다.

5단계: 심층 특징 합성 알고리즘 실행

위 단계를 완료한 후 Featuretools의 심층 특징 합성 알고리즘을 사용하여 자동으로 특징을 생성할 수 있습니다. 이 알고리즘은 집계, 변환, 조합과 같은 새로운 기능을 자동으로 생성합니다. 다음 코드를 사용하여 심층 기능 합성 알고리즘을 실행할 수 있습니다.

# Run deep feature synthesis algorithm
features, feature_names = ft.dfs(entityset=es, target_entity=&#x27;orders&#x27;, max_depth=2)

여기에서는 dfs 함수를 사용하여 심층 기능 합성 알고리즘을 실행하고 대상 엔터티를 순서 엔터티로 지정하고 최대 깊이를 2로 설정합니다. 이 함수는 새로운 기능과 기능 이름 목록이 포함된 DataFrame을 반환합니다.

6단계: 모델 구축

새로운 기능을 얻은 후에는 이를 사용하여 기계 학습 모델을 훈련할 수 있습니다. 다음 코드를 사용하여 원본 데이터세트에 새로운 기능을 추가할 수 있습니다.

# Add new features to original dataset
df=pd.merge(orders_df,features,left_on=&#x27;order_id&#x27;,right_on=&#x27;order_id&#x27;)

여기에서는 훈련 및 테스트를 위해 병합 기능을 사용하여 원본 데이터세트에 새로운 기능을 추가합니다. 그런 다음 새로운 기능을 사용하여 기계 학습 모델을 훈련할 수 있습니다. 예:

# Split dataset into train and test sets
X_train, X_test, y_train, y_test = train_test_split(df[feature_names], df[&#x27;target&#x27;], test_size=0.2, random_state=42)

# Train machine learning model
model = RandomForestClassifier()
model.fit(X_train, y_train)

# Evaluate model performance
y_pred = model.predict(X_test)
accuracy_score(y_test, y_pred)

여기에서는 Random Forest 분류기를 기계 학습 모델로 사용하고 훈련 세트를 사용하여 모델을 훈련합니다. 그런 다음 테스트 세트를 사용하여 정확도를 평가 지표로 사용하여 모델 성능을 평가합니다.

요약:

Featuretools를 사용하여 기능 엔지니어링을 자동화하는 단계에는 데이터 준비, 엔터티 및 관계 정의, 엔터티 세트 생성, 관계 정의, 심층 기능 합성 알고리즘 실행 및 모델 구축이 포함됩니다. Featuretools는 원시 데이터에서 유용한 기능을 자동으로 추출하여 사용자가 많은 시간과 노력을 절약하고 기계 학습 모델의 성능을 향상시키는 데 도움을 줍니다.

위 내용은 Featuretools를 사용하여 자동 기능 엔지니어링 구현의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 网易伏羲에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

신속한 엔지니어링에서 생각의 그래프는 무엇입니까?Apr 13, 2025 am 11:53 AM

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Apr 13, 2025 am 11:44 AM

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

Apache Pinot을 사용한 실시간 앱 성능 모니터링Apr 13, 2025 am 11:40 AM

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Apr 13, 2025 am 11:23 AM

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaApr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다