利用Featuretools實現自動特徵工程-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

利用Featuretools實現自動特徵工程

PHPz

Jan 22, 2024 pm 03:18 PM

特徵工程

利用Featuretools實現自動特徵工程

Featuretools是一個Python庫，用於自動化特徵工程。它旨在簡化特徵工程流程，提高機器學習模型的性能。該函式庫能夠從原始資料中自動提取有用的特徵，幫助使用者節省時間和精力，同時還能提高模型的準確性。

以下是如何使用Featuretools自動化特徵工程的步驟：

第一步：準備資料

在使用Featuretools之前，需要準備好資料集。資料集必須是Pandas DataFrame格式，其中每行代表一個觀察值，每列代表一個特徵。對於分類和迴歸問題，資料集必須包含一個目標變量，而對於聚類問題，資料集不需要目標變數。因此，在使用Featuretools時，請確保資料集符合這些要求，以便能夠有效地進行特徵工程和特徵生成。

第二步：定義實體和關係

使用Featuretools進行特徵工程時，需要先定義實體和關係。實體是資料集中的子集，它包含一組相關的特徵。例如，在電商網站上，訂單、使用者、產品和付款等可以作為不同的實體。關係則是實體之間的聯繫，例如，一個訂單可能與一個使用者相關聯，一個使用者可能購買了多個產品。透過明確定義實體和關係，可以更好地理解資料集的結構，以便進行特徵生成和資料分析。

第三步：建立實體集

使用Featuretools，可以透過定義實體和關係來建立實體集。實體集合是一個包含多個實體的集合。在這個步驟中，需要定義每個實體的名稱、資料集、索引、變數類型和時間戳記等。例如，可以使用以下程式碼建立一個包含訂單和使用者實體的實體集：

import featuretools as ft

# Create entity set
es=ft.EntitySet(id=&#x27;ecommerce&#x27;)

# Define entities
orders=ft.Entity(id=&#x27;orders&#x27;,dataframe=orders_df,index=&#x27;order_id&#x27;,time_index=&#x27;order_time&#x27;)
users=ft.Entity(id=&#x27;users&#x27;,dataframe=users_df,index=&#x27;user_id&#x27;)

# Add entities to entity set
es=es.entity_from_dataframe(entity_id=&#x27;orders&#x27;,dataframe=orders_df,index=&#x27;order_id&#x27;,time_index=&#x27;order_time&#x27;)
es=es.entity_from_dataframe(entity_id=&#x27;users&#x27;,dataframe=users_df,index=&#x27;user_id&#x27;)

在這裡，我們使用EntitySet建立一個名為「ecommerce」的實體集，並使用Entity定義了兩個實體，訂單和使用者。對於訂單實體，我們指定了訂單ID作為索引，訂單時間作為時間戳記。對於使用者實體，我們只指定了使用者ID作為索引。

第四步：定義關係

在這一步驟中，需要定義實體之間的關係。使用Featuretools，可以透過實體之間的共享變數、時間戳記等來定義關係。例如，在電商網站上，每個訂單都與一個使用者相關聯。可以使用以下程式碼定義訂單和使用者之間的關係：

# Define relationships
r_order_user = ft.Relationship(orders[&#x27;user_id&#x27;], users[&#x27;user_id&#x27;])
es = es.add_relationship(r_order_user)

在這裡，我們使用Relationship定義了訂單和使用者之間的關係，並使用add_relationship將它們新增至實體集中。

第五步：執行深度特徵合成演算法

#在完成上述步驟後，可以使用Featuretools的深度特徵合成演算法來自動生成特徵。這個演算法會自動創建新的特徵，例如聚合、變換和組合等。可以使用以下程式碼執行深度特徵合成演算法：

# Run deep feature synthesis algorithm
features, feature_names = ft.dfs(entityset=es, target_entity=&#x27;orders&#x27;, max_depth=2)

在這裡，我們使用dfs函數運行深度特徵合成演算法，指定了目標實體為訂單實體，並設定了最大深度為2。函數傳回一個包含新特徵的DataFrame以及特徵名稱的清單。

第六步：建立模型

在獲得新特徵後，可以使用它們來訓練機器學習模型。可以使用以下程式碼將新特徵新增至原始資料集中：

# Add new features to original dataset
df=pd.merge(orders_df,features,left_on=&#x27;order_id&#x27;,right_on=&#x27;order_id&#x27;)

在這裡，我們使用merge函數將新特徵新增至原始資料集中，以便進行訓練和測試。然後，可以使用新特徵來訓練機器學習模型，例如：

# Split dataset into train and test sets
X_train, X_test, y_train, y_test = train_test_split(df[feature_names], df[&#x27;target&#x27;], test_size=0.2, random_state=42)

# Train machine learning model
model = RandomForestClassifier()
model.fit(X_train, y_train)

# Evaluate model performance
y_pred = model.predict(X_test)
accuracy_score(y_test, y_pred)

在這裡，我們使用隨機森林分類器作為機器學習模型，並使用訓練集來訓練模型。然後，我們使用測試集來評估模型效能，並使用準確率作為評估指標。