使用 Scikit-Learn 对多个 DataFrame 列进行标签编码
在 pandas DataFrame 中使用字符串标签时,通常需要将它们编码为整数以与机器学习算法兼容。 Scikit-learn 的 LabelEncoder 是完成此任务的便捷工具,但为每列使用多个 LabelEncoder 对象可能会很乏味。
要绕过此问题,您可以利用以下方法:
df.apply(LabelEncoder().fit_transform)
这将 LabelEncoder 应用于 DataFrame 中的每一列,有效地将所有字符串标签编码为整数。
使用 OneHotEncoder 增强编码
在 Scikit-Learn 的最新版本(0.20 及更高版本)中,建议使用 OneHotEncoder() 类对字符串输入进行标签编码:
OneHotEncoder().fit_transform(df)
OneHotEncoder 提供高效的 one-hot 编码,这对于分类数据来说通常是必需的。
逆变换和变换操作
要逆变换或变换编码标签,您可以使用以下技术:
from collections import defaultdict d = defaultdict(LabelEncoder) # Encoding fit = df.apply(lambda x: d[x.name].fit_transform(x)) # Inverse transform fit.apply(lambda x: d[x.name].inverse_transform(x)) # Transform future data df.apply(lambda x: d[x.name].transform(x))
from sklearn.preprocessing import ColumnTransformer, OneHotEncoder # Select specific columns for encoding encoder = OneHotEncoder() transformer = ColumnTransformer(transformers=[('ohe', encoder, ['col1', 'col2', 'col3'])]) # Transform the DataFrame encoded_df = transformer.fit_transform(df)
from neuraxle.preprocessing import FlattenForEach # Flatten all columns and apply LabelEncoder encoded_df = FlattenForEach(LabelEncoder(), then_unflatten=True).fit_transform(df)
取决于您的具体情况要求,您可以在 Scikit-Learn 中选择最合适的方法对多列进行标签编码。
以上是如何使用 Scikit-Learn 高效编码多个 DataFrame 列?的详细内容。更多信息请关注PHP中文网其他相关文章!