時間序列是資料點的序列,通常由在一段時間間隔內進行的連續測量組成。時間序列分析是使用統計技術對時間序列資料進行建模和分析,以便從中提取有意義的資訊並做出預測的過程。
時間序列分析是一個強大的工具,可以用來從資料中提取有價值的信息,並對未來的事件做出預測。它可以用來識別趨勢、季節模式和變數之間的其他關係。時間序列分析也可以用來預測未來的事件,如銷售、需求或價格變動。
如果你正在使用Python處理時間序列數據,那麼有許多不同的函式庫可以選擇。所以在本文中,我們將整理Python中最受歡迎處理時間序列的函式庫。
Sktime是一個用於處理時間序列資料的Python函式庫。它提供了一組處理時間序列資料的工具,包括用於處理、視覺化和分析資料的工具。 Sktime的設計是易於使用和可擴展的,這樣新的時間序列演算法就可以輕鬆實現並且進行整合。
Sktime如其名,它支援scikit-learn API,包含了有效解決涉及時間序列回歸、預測和分類問題的所有必要方法和工具。該庫包含專門的機器學習演算法以及時間序列的獨特的轉換方法,在其他庫中並沒有提供,所以Sktime可以作為一個非常好的基礎庫。
根據sktime的文檔,「我們的目標是使時間序列分析生態系統作為一個整體更具互通性和可用性。Sktime為不同但相關的時間序列學習任務提供了統一的介面。它的特點是專門的時間序列演算法和工具,用於組合模型的構建,包括管線管道、集成、調優和簡化,使用戶可以將一個任務的演算法應用到另一個任務。
sktime也提供與相關函式庫的接口,例如scikit-learn、statsmodels、tsfresh、PyOD和[fbprophet]等等。」
下面是一個程式碼範例
from sktime.datasets import load_airline from sktime.forecasting.model_selection import temporal_train_test_split # from sktime.utils.plotting.forecasting import plot_ys y = load_airline() y_train, y_test = temporal_train_test_split(y) plt.title('Airline Data with Train and Test') y_train.plot(label = 'train') y_test.plot(label = 'test') plt.legend()
#pmdarima是用於時間序列資料統計分析的Python庫。它基於ARIMA模型並且提供了各種分析、預測和視覺化時間序列資料的工具。 Pmdarima也提供了處理季節性資料的各種工具,包括季節性測試和季節性分解工具。
在時間序列分析中經常使用的預測模型之一是ARIMA(自迴歸綜合移動平均)。 ARIMA是一種預測演算法,可以根據時間序列的過去值中的信息來預測未來的值。
pmdarima是ARIMA模型的包裝器,它自帶一個自動超參數搜尋函數,可以自動為ARIMA模型找到最佳超參數(p,d,q)。這個函式庫包括下面一些主要的功能點:
顧名思義,它是一個用於自動時間序列分析的Python 函式庫。 AutoTS 讓我們可以用一行程式碼訓練多個時間序列模型,以便我們可以選擇最適合的模型。
該函式庫是 autoML 的一部分,其目標是為初學者提供自動化函式庫。
tsfresh是一個可以自動從時間序列中提取特徵的Python套件。它基於時間序列中的信息可以分解為一組有意義的特徵來實現的。 tsfresh 負責手動提取這些特徵的繁瑣任務,並提供自動特徵選擇和分類的工具。它可以與pandas DataFrames 一起使用,並提供廣泛的用於處理時間序列資料的函數,包括:
#Prophet是由Facebook核心資料科學團隊發佈的開源軟體。它基於一個相加模型,其中非線性趨勢適合每年、每周和每日的季節性,加上假日效應。它最適合具有強烈季節性效應的時間序列和幾個季節的歷史資料。 Prophet對於缺失的資料和趨勢的變化具有很強的穩健性,通常能夠很好地處理異常值。
根据官方文档,fbprophet在处理具有显著季节性影响的时间序列数据和几个季节价值的之前数据时工作得非常好。此外fbprophet能够抵抗缺失数据,并能够有效地管理异常值。
Statsforecast提供了一组广泛使用的单变量时间序列预测模型,包括自动ARIMA和ETS建模并使用numba优化。它还包括大量的基准测试模型。根据官网的介绍:
Kats 是 Facebook 研究团队最近开发的另一个专门处理时间序列数据的库。该框架的目标是为解决时间序列问题提供一个完整的解决方案。使用此库,我们可以执行以下操作:
Darts 是由 Unit8.co 开发的用于预测时间序列,并且对scikit-learn 友好 的Python 包。它包含大量模型,从 ARIMA 到深度神经网络,用于处理与日期和时间相关的数据。
该库的好处在于它还支持用于处理神经网络的多维类。
它还允许用户结合来自多个模型和外部回归模型的预测,从而更容易地对模型进行回测。
Pyflux 是一个为 Python 构建的开源时间序列库。Pyflux选择了更多的概率方法来解决时间序列问题。这种方法对于需要更完整的不确定性的预测这样的任务特别有利。
用户可以建立一个概率模型,其中通过联合概率将数据和潜在变量视为随机变量。
PyCaret是一个基于Python的开源、低代码的机器学习库,它是一个端到端机器学习和模型管理工具,可以成倍地加快实验周期,让工作效率更高。
与其他开源机器学习库相比,PyCaret是一个可替代的低代码库,可以只用几行代码替换数百行代码。这使得实验的速度和效率呈指数级增长。PyCaret本质上是scikit-learn、XGBoost、LightGBM、CatBoost、spacacy、Optuna、Hyperopt、Ray等几个机器学习库和框架的Python包装。
虽然PyCaret不是一个专门的时间序列预测库,但它有一个专门用于时间序列预测的新模块。它仍然处于预发布状态,但是安装时需要使用以下代码进行安装才能使用新的模块
pip install --pre pycaret
PyCaret时间序列模块与现有的API一致,并且可以使用完整的功能,例如:统计测试、模型训练和选择(30+算法模型)、模型分析、自动超参数调优、实验日志、云部署等。所有这些都只用了几行代码就完成了。
Python中有许多可用的时间序列预测库(比我们在这里介绍的更多)。每个库都有自己的优缺点,因此根据自己的需要选择合适的是很重要的。如果你有什么更好的推荐,请留言告诉我们。
以上是2022年十個用於時間序列分析的Python庫推薦的詳細內容。更多資訊請關注PHP中文網其他相關文章!