在進行資料科學時,可能會浪費大量時間編碼並等待電腦運行某些東西。所以我選擇了一些 Python 函式庫,可以幫助你節省寶貴的時間。
Optuna 是一個開源的超參數最佳化框架,它可以自動為機器學習模型找到最佳超參數。
最基本的(也可能是眾所周知的)替代方案是 sklearn 的 GridSearchCV,它將嘗試多種超參數組合並根據交叉驗證選擇最佳組合。
GridSearchCV 將在先前定義的空間內嘗試組合。例如,對於隨機森林分類器,可能想要測試幾個不同的樹的最大深度。 GridSearchCV 會提供每個超參數的所有可能值,並查看所有組合。
Optuna會在定義的搜尋空間中使用自己嘗試的歷史來決定接下來要嘗試的值。它使用的方法是一種稱為「Tree-structured Parzen Estimator」的貝葉斯最佳化演算法。
這種不同的方法意味著它不是無意義的地嘗試每一個值,而是在嘗試之前尋找最佳候選者,這樣可以節省時間,否則這些時間會花在嘗試沒有希望的替代品上(並且可能也會產生更好的結果)。
最後,它與框架無關,這意味著您可以將它與 TensorFlow、Keras、PyTorch 或任何其他 ML 框架一起使用。
ITMO_FS 是一個特徵選擇函式庫,它可以為 ML 模型進行特徵選擇。擁有的觀察值越少,就越需要謹慎處理過多的特徵,以避免過度擬合。所謂「謹慎」意思是應該規範你的模型。通常一個更簡單的模型(更少的特徵),更容易理解和解釋。
ITMO_FS 演算法分為 6 個不同的類別:監督過濾器、無監督過濾器、包裝器、混合、嵌入式、整合(儘管它主要關注監督過濾器)。
「監督過濾器」演算法的一個簡單範例是根據特徵與目標變數的相關性來選擇特徵。 “backward selection”,可以嘗試逐一刪除特徵,並確認這些特徵如何影響模型預測能力。
這是一個關於如何使用ITMO_FS 及其對模型分數的影響的普通示例:
>>> from sklearn.linear_model import SGDClassifier >>> from ITMO_FS.embedded import MOS >>> X, y = make_classification(n_samples=300, n_features=10, random_state=0, n_informative=2) >>> sel = MOS() >>> trX = sel.fit_transform(X, y, smote=False) >>> cl1 = SGDClassifier() >>> cl1.fit(X, y) >>> cl1.score(X, y) 0.9033333333333333 >>> cl2 = SGDClassifier() >>> cl2.fit(trX, y) >>> cl2.score(trX, y) 0.9433333333333334
ITMO_FS是一個相對較新的庫,因此它仍然有點不穩定,但我仍然建議嘗試一下。
到目前為止,我們已經看到了用於特徵選擇和超參數調整的庫,但為什麼不能同時使用兩者呢?這就是shap-hypetune的作用。
讓我們從了解什麼是「SHAP」開始:
「SHAP(SHapley Additive exPlanations)是一種博弈論方法,用於解釋任何機器學習模型的輸出。」
SHAP 是用於解釋模型的最廣泛使用的庫之一,它透過產生每個特徵對模型最終預測的重要性來運作。
另一方面,shap-hypertune 受益於此方法來選擇最佳特徵,同時也選擇最佳超參數。為什麼要合併在一起?因為沒有考慮它們之間的相互作用,獨立地選擇特徵和調整超參數可能會導致次優選擇。同時執行這兩項不僅考慮到了這一點,而且還節省了一些編碼時間(儘管由於搜尋空間的增加可能會增加運行時間)。
搜尋可以透過 3 種方式完成:網格搜尋、隨機搜尋或貝葉斯搜尋(另外,它可以並行化)。
但是,shap-hypertune 只適用於梯度提升模型!
PyCaret 是一個開源、低程式碼的機器學習庫,可自動執行機器學習工作流程。它涵蓋探索性資料分析、預處理、建模(包括可解釋性)和 MLOps。
讓我們看看他們網站上的一些實際範例,看看它是如何運作的:
# load dataset from pycaret.datasets import get_data diabetes = get_data('diabetes') # init setup from pycaret.classification import * clf1 = setup(data = diabetes, target = 'Class variable') # compare models best = compare_models()
只需幾行程式碼,就可以嘗試多個模型,並在整個主要分類指標中對它們進行了比較。
它還允許創建一個基本的應用程式來與模型互動:
from pycaret.datasets import get_data juice = get_data('juice') from pycaret.classification import * exp_name = setup(data = juice, target = 'Purchase') lr = create_model('lr') create_app(lr)
最後,可以輕鬆地為模型建立API 和Docker 檔案:
from pycaret.datasets import get_data juice = get_data('juice') from pycaret.classification import * exp_name = setup(data = juice, target = 'Purchase') lr = create_model('lr') create_api(lr, 'lr_api') create_docker('lr_api')
沒有比這更容易的了,對吧?
PyCaret是一個非常完整的庫,在這裡很難涵蓋所有內容,建議你現在下載並開始使用它來了解一些其在實踐中的能力。
FloWeaver 可以從流資料集中產生桑基圖。如果你不知道什麼是桑基圖,這裡有一個例子:
在顯示轉換漏斗、行銷旅程或預算分配的資料時,它們非常有用(上例)。入口資料應採用以下格式:“來源 x 目標 x 值”,只需一行程式碼即可建立此類圖(非常具體,但也非常直觀)。
如果你阅读过敏捷数据科学,就会知道拥有一个让最终用户从项目开始就与数据进行交互的前端界面是多么有帮助。一般情况下在Python中最常用是 Flask,但它对初学者不太友好,它需要多个文件和一些 html、css 等知识。
Gradio 允许您通过设置输入类型(文本、复选框等)、功能和输出来创建简单的界面。 尽管它似乎不如 Flask 可定制,但它更直观。
由于 Gradio 现在已经加入 Huggingface,可以在互联网上永久托管 Gradio 模型,而且是免费的!
理解 Terality 的最佳方式是将其视为“Pandas ,但速度更快”。这并不意味着完全替换 pandas 并且必须重新学习如何使用df:Terality 与 Pandas 具有完全相同的语法。实际上,他们甚至建议“import Terality as pd”,并继续按照以前的习惯的方式进行编码。
它快多少?他们的网站有时会说它快 30 倍,有时快 10 到 100 倍。
另一个重要是 Terality 允许并行化并且它不在本地运行,这意味着您的 8GB RAM 笔记本电脑将不会再出现 MemoryErrors!
但它在背后是如何运作的呢?理解 Terality 的一个很好的比喻是可以认为他们在本地使用的 Pandas 兼容的语法并编译成 Spark 的计算操作,使用Spark进行后端的计算。所以计算不是在本地运行,而是将计算任务提交到了他们的平台上。
那有什么问题呢?每月最多只能免费处理 1TB 的数据。如果需要更多则必须每月至少支付 49 美元。 1TB/月对于测试工具和个人项目可能绰绰有余,但如果你需要它来实际公司使用,肯定是要付费的。
如果你是Pytorch的使用者,可以试试这个库。
torchhandle是一个PyTorch的辅助框架。 它将PyTorch繁琐和重复的训练代码抽象出来,使得数据科学家们能够将精力放在数据处理、创建模型和参数优化,而不是编写重复的训练循环代码。 使用torchhandle,可以让你的代码更加简洁易读,让你的开发任务更加高效。
torchhandle将Pytorch的训练和推理过程进行了抽象整理和提取,只要使用几行代码就可以实现PyTorch的深度学习管道。并可以生成完整训练报告,还可以集成tensorboard进行可视化。
from collections import OrderedDict import torch from torchhandle.workflow import BaseContext class Net(torch.nn.Module): def __init__(self, ): super().__init__() self.layer = torch.nn.Sequential(OrderedDict([ ('l1', torch.nn.Linear(10, 20)), ('a1', torch.nn.ReLU()), ('l2', torch.nn.Linear(20, 10)), ('a2', torch.nn.ReLU()), ('l3', torch.nn.Linear(10, 1)) ])) def forward(self, x): x = self.layer(x) return x num_samples, num_features = int(1e4), int(1e1) X, Y = torch.rand(num_samples, num_features), torch.rand(num_samples) dataset = torch.utils.data.TensorDataset(X, Y) trn_loader = torch.utils.data.DataLoader(dataset, batch_size=64, num_workers=0, shuffle=True) loaders = {"train": trn_loader, "valid": trn_loader} device = 'cuda' if torch.cuda.is_available() else 'cpu' model = {"fn": Net} criterion = {"fn": torch.nn.MSELoss} optimizer = {"fn": torch.optim.Adam, "args": {"lr": 0.1}, "params": {"layer.l1.weight": {"lr": 0.01}, "layer.l1.bias": {"lr": 0.02}} } scheduler = {"fn": torch.optim.lr_scheduler.StepLR, "args": {"step_size": 2, "gamma": 0.9} } c = BaseContext(model=model, criterion=criterion, optimizer=optimizer, scheduler=scheduler, context_tag="ex01") train = c.make_train_session(device, dataloader=loaders) train.train(epochs=10)
定义一个模型,设置数据集,配置优化器、损失函数就可以自动训练了,是不是和TF差不多了。
以上是八個可以提高資料科學工作效率並節省寶貴時間的Python庫的詳細內容。更多資訊請關注PHP中文網其他相關文章!