首页 >科技周边 >人工智能 >Openai O1-preiview教程：构建机器学习项目

Openai O1-preiview教程：构建机器学习项目

Christopher Nolan原创: 2025-03-04 09:13:10290浏览

在本教程中，我们将从头开始创建一个水质分类器应用程序，并使用Docker部署到云中。

>我们将首先探索OpenAI O1模型并了解其功能。然后，我们将通过API和CHATGPT访问该模型，并在开发构建水质分类器应用程序的有效提示之前，先尝试O1-preiview和O1-Mini版本。

>输出后，我们将通过本地执行Python代码来将O1模型提供的代码和文件添加到项目文件夹中，然后加载，预处理，训练和评估。最后，我们将构建一个FastAPI应用程序，并使用Docker将其部署在拥抱面上。

如果您是AI的新手，那么AI基础知识技能轨道是一个不错的起点。它将帮助您了解流行的AI主题，例如Chatgpt和大型语言模型。

>由作者图像

开始使用O1-preiview和O1-Mini

>有许多易于访问的O1型号，但是官方型号是通过OpenAI API或使用Chatgpt Plus或团队订阅。

在本节中，我们将学习如何使用它们来解决复杂的问题。

访问O1模型

>如果您熟悉OpenAI API进行聊天完成，则必须将模型名称设置为“ O1-Preview”并提供详细的提示。这是那么简单的。

>要在Chatgpt上访问它，您必须单击“模型选择”下拉选项，然后选择“ O1-Preview”模型，如下所示。

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="o1-preview",
    messages=[
        {
            "role": "user", 
            "content": "Create an SQL database from scratch, including guides on usage and code everything in Python."
        }
    ]
)

print(response.choices[0].message.content)

。

Openai O1-preiview教程：构建机器学习项目在chatgpt中使用o1-preview模型

O1模型的提示不同。您必须为其提供多个说明或详细问题，以充分实现其力量。生成最佳答案可能需要长时间复杂的指示。

>计算欧洲自由职业业务的税收可能很复杂。我们将使用O1模型来确定我们对西班牙政府的纳税责任。

提示：“

我是西班牙的自由职业者，在美国一家公司工作。在过去的一年中，我赚了12万美元，我需要计算我所欠的税款。请考虑我8个月前搬到西班牙。

>响应花费了将近30秒，但响应详细介绍了。它包括数学方程式，税收信息以及所有必要的细节，以确定我们欠西班牙政府多少。

响应分为以下部分：

确定您的税收居留状态
>将您的收入转换为欧元
计算您的应税收入
计算社会保障贡献
欠估计税的总估计

审查摘要部分为我们提供了欠政府的大约税款，这很有帮助。

Openai O1-preiview教程：构建机器学习项目

>您可以单击聊天响应中的下拉菜单，以查看思想和决策链。

>我们可以看到该模型在回答您的问题之前了解他的背景，税收影响和税收范围。

Openai O1-preiview教程：构建机器学习项目在chatgpt

中使用O1-Mini模型 O1-MINI模型的准确性较差，但要比O1-preview模型更快。在我们的情况下，我们将使用此模型来创建一个用于数据科学恢复的静态网站。

>提示：“

请使用Python框架为我的数据科学简历创建一个静态网站。

>不仅创建了一个适当的简历网站，而且还为我们提供了有关如何免费在Github页面上发布的指南。>

响应分为以下部分：

Pelican简介 Openai O1-preiview教程：构建机器学习项目

>先决条件

设置鹈鹕

选择一个主题

创建您的简历内容
构建网站
与Makefile
>部署您的简历网站
增强您的简历网站
其他资源
>

如果您有兴趣使用Chatgpt构建数据科学项目，请查看使用CHATGPT进行数据科学项目的指南。您将学习如何使用CHATGPT进行项目计划，数据分析，数据预处理，模型选择，超参数调整，开发Web应用程序并部署。

1。及时工程

>我们将在及时工程上花费更多的时间，因为我们要确保将所有项目指令都提供给模型。 Openai O1-preiview教程：构建机器学习项目

提示分为三个部分：

项目描述：对项目的详细说明以及我们要构建的内容。>

>阅读chatgpt的初学者指南提示工程，以了解如何在chatgpt中编写适当的提示并生成所需的结果。迅速的工程是一门艺术，随着O1模型的引入，已经变得更加必要学习。

提示：“我的项目经理已任务使用https://www.kaggle.com/datasets/adityakadiwal/water-potability提供的Kaggle数据集开发水质应用程序。请提供有关文件，Python软件包和代码的所有必要信息，以便我们可以构建一个高度准确的模型。

目标是达到90％的总体准确性。

请按照构建项目的步骤：

1。使用API从Kaggle加载数据集并将其解压缩到数据文件夹中。

2。预处理数据并执行一些数据分析。将分析数字和文件保存在“指标”文件夹中。

3。使用Scikit-Learn框架训练模型。确保您跟踪实验并保存模型文件和元数据。使用Skos库保存模型。

4。执行详细的模型评估并保存结果。

5。创建一个FastApi应用程序，该应用程序从用户那里获取图像并预测水的质量。>

6。确保使用JINJA2模板添加用户界面。

7。使用Docker选项将应用程序部署在拥抱面线上。

生成的响应为我们提供了加载数据，预处理，训练和评估模型，创建FastAPI应用程序，创建用户界面并部署它所需的所有信息。

问题是它是分散的，我们希望它创建python和html文件，以便我们复制和粘贴代码。

>现在，我们将将所有代码转换为Python和HTML文件，使我们的生活更加轻松。

后续提示：“请将代码转换为Python文件。”

如我们所见，我们有一个项目结构，其中包含所有文件和代码。我们要做的就是创建文件夹和文件，然后复制并粘贴代码。

Openai O1-preiview教程：构建机器学习项目

2。设置

O1模型提供了设置项目目录所需的所有信息。我们只需要使用代码编辑器在项目目录中创建文件夹和文件。

我们将创建以下文件夹：>

>应用程序：此文件夹将包含FastApi和HTML模板的应用程序文件。

数据：此文件夹将包含原始数据和预处理数据。
>指标：此文件夹将包含模型评估数据和数据分析。

> src：此文件夹将包含所有可以帮助我们进行加载，处理，培训和评估的Python文件。

>此外，主要目录将包含Dockerfile，readme和unignts.txt文件。

3。加载数据集

>我们将使用Kaggle API加载水质Kaggle数据集并将其解压缩到数据文件夹中。 Openai O1-preiview教程：构建机器学习项目

> datadownload_data.py：

运行Python文件将下载数据集，解压缩并删除zip文件。

$ python .srcdownload_data.py

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="o1-preview",
    messages=[
        {
            "role": "user", 
            "content": "Create an SQL database from scratch, including guides on usage and code everything in Python."
        }
    ]
)

print(response.choices[0].message.content)

4。预处理数据并执行数据分析

>预处理python文件将加载数据，清洁，处理丢失的数据，缩放它，然后保存缩放器和预处理数据集。它还将执行数据分析并保存指标和数据可视化。

import os

# Ensure the data directory exists
os.makedirs("data", exist_ok=True)

# Download the dataset
os.system("kaggle datasets download -d adityakadiwal/water-potability -p data --unzip")

> datapreprocess_data.py：

>我们获得了预处理数据和所有数据分析报告。

Dataset URL: https://www.kaggle.com/datasets/adityakadiwal/water-potability
License(s): CC0-1.0
Downloading water-potability.zip to data
100%|████████████████████████████████████████████████████████████████████████████████| 251k/251k [00:00<00:00, 304kB/s]
100%|████████████████████████████████████████████████████████████████████████████████| 251k/251k [00:00<00:00, 303kB/s]

import os
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
import joblib

# Create directories if they don't exist
os.makedirs("metrics", exist_ok=True)
os.makedirs("models", exist_ok=True)

# Load the dataset
data = pd.read_csv("data/water_potability.csv")

# Check for missing values and save the summary
missing_values = data.isnull().sum()
missing_values.to_csv("metrics/missing_values.csv")

# Statistical summary
stats = data.describe()
stats.to_csv("metrics/data_statistics.csv")

# Pair plot
sns.pairplot(data, hue="Potability")
plt.savefig("metrics/pairplot.png")

# Correlation heatmap
plt.figure(figsize=(10, 8))
sns.heatmap(data.corr(), annot=True)
plt.savefig("metrics/correlation_heatmap.png")

# Handle missing values
imputer = SimpleImputer(strategy="mean")
data_imputed = pd.DataFrame(imputer.fit_transform(data), columns=data.columns)

# Feature scaling
scaler = StandardScaler()
features = data_imputed.drop("Potability", axis=1)
target = data_imputed["Potability"]
features_scaled = scaler.fit_transform(features)

# Save the scaler
joblib.dump(scaler, "models/scaler.joblib")

# Save preprocessed data
preprocessed_data = pd.DataFrame(features_scaled, columns=features.columns)
preprocessed_data["Potability"] = target
preprocessed_data.to_csv("metrics/preprocessed_data.csv", index=False)

5。建筑和培训

>训练脚本加载了预处理数据，并使用它来训练随机的森林分类器。然后，Skope用于保存模型，手动跟踪实验，然后将模型元数据保存为JSON文件。 Openai O1-preiview教程：构建机器学习项目

> srctrain_model.py：

培训脚本将生成模型文件和元数据，如下所示。

$ python .\src\preprocess_data.py

import os
import json
import skops.io as sio
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

# Load preprocessed data
data = pd.read_csv("metrics/preprocessed_data.csv")
features = data.drop("Potability", axis=1)
target = data["Potability"]

# Split the data
X_train, X_test, y_train, y_test = train_test_split(
    features, target, test_size=0.2, random_state=42, stratify=target
)

# Train the model
model = RandomForestClassifier(n_estimators=200, random_state=42)
model.fit(X_train, y_train)

# Save the model using skops
os.makedirs("models", exist_ok=True)
sio.dump(model, "models/water_quality_model.skops")

# Track experiments and save metadata
metadata = {
    "model_name": "RandomForestClassifier",
    "parameters": model.get_params(),
    "training_score": model.score(X_train, y_train),
}

with open("models/metadata.json", "w") as f:
    json.dump(metadata, f, indent=4)

6。模型评估

>模型评估脚本加载已处理的数据和保存的模型，以生成分类报告，混乱矩阵，ROC曲线，AUC和整体准确性。所有的指标和数字都保存在指标文件夹中。

> Openai O1-preiview教程：构建机器学习项目 > srcevaluate_model.py：

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="o1-preview",
    messages=[
        {
            "role": "user", 
            "content": "Create an SQL database from scratch, including guides on usage and code everything in Python."
        }
    ]
)

print(response.choices[0].message.content)

import os

# Ensure the data directory exists
os.makedirs("data", exist_ok=True)

# Download the dataset
os.system("kaggle datasets download -d adityakadiwal/water-potability -p data --unzip")

>总体准确性不是很好。但是，我们总是可以要求O1模型提高准确性。

Dataset URL: https://www.kaggle.com/datasets/adityakadiwal/water-potability
License(s): CC0-1.0
Downloading water-potability.zip to data
100%|████████████████████████████████████████████████████████████████████████████████| 251k/251k [00:00<00:00, 304kB/s]
100%|████████████████████████████████████████████████████████████████████████████████| 251k/251k [00:00<00:00, 303kB/s]

指标文件夹包含所有保存的模型评估数字和指标。我们可以手动查看它以详细了解模型性能。

Openai O1-preiview教程：构建机器学习项目

7。创建一个FastApi应用程序

为了为FastAPI应用程序创建用户界面，我们需要创建索引和结果页面。这可以通过在应用程序目录中创建模板文件夹并添加两个HTML文件来完成这一点：一个用于主页，一个用于结果页面。

>查看FastAPI教程：使用FastApi详细了解FastAPI框架以及如何在项目中实现它的简介。

如果您不熟悉HTML，请不要担心。您只需要复制和粘贴代码并信任O1模型即可。

> appTemplatesform.html：

import os
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
import joblib

# Create directories if they don't exist
os.makedirs("metrics", exist_ok=True)
os.makedirs("models", exist_ok=True)

# Load the dataset
data = pd.read_csv("data/water_potability.csv")

# Check for missing values and save the summary
missing_values = data.isnull().sum()
missing_values.to_csv("metrics/missing_values.csv")

# Statistical summary
stats = data.describe()
stats.to_csv("metrics/data_statistics.csv")

# Pair plot
sns.pairplot(data, hue="Potability")
plt.savefig("metrics/pairplot.png")

# Correlation heatmap
plt.figure(figsize=(10, 8))
sns.heatmap(data.corr(), annot=True)
plt.savefig("metrics/correlation_heatmap.png")

# Handle missing values
imputer = SimpleImputer(strategy="mean")
data_imputed = pd.DataFrame(imputer.fit_transform(data), columns=data.columns)

# Feature scaling
scaler = StandardScaler()
features = data_imputed.drop("Potability", axis=1)
target = data_imputed["Potability"]
features_scaled = scaler.fit_transform(features)

# Save the scaler
joblib.dump(scaler, "models/scaler.joblib")

# Save preprocessed data
preprocessed_data = pd.DataFrame(features_scaled, columns=features.columns)
preprocessed_data["Potability"] = target
preprocessed_data.to_csv("metrics/preprocessed_data.csv", index=False)

> appTemplatesResult.html：

$ python .\src\preprocess_data.py

主应用程序Python文件具有两个Python函数：主页和预测。 “主页”功能显示包含输入框和一个按钮的欢迎页面。 “预测”函数会转换用户输入，通过模型运行并显示结果，指示水是否饮用。

> apptemplatesmain.py：

import os
import json
import skops.io as sio
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

# Load preprocessed data
data = pd.read_csv("metrics/preprocessed_data.csv")
features = data.drop("Potability", axis=1)
target = data["Potability"]

# Split the data
X_train, X_test, y_train, y_test = train_test_split(
    features, target, test_size=0.2, random_state=42, stratify=target
)

# Train the model
model = RandomForestClassifier(n_estimators=200, random_state=42)
model.fit(X_train, y_train)

# Save the model using skops
os.makedirs("models", exist_ok=True)
sio.dump(model, "models/water_quality_model.skops")

# Track experiments and save metadata
metadata = {
    "model_name": "RandomForestClassifier",
    "parameters": model.get_params(),
    "training_score": model.score(X_train, y_train),
}

with open("models/metadata.json", "w") as f:
    json.dump(metadata, f, indent=4)

我们将首先在本地测试该应用程序，以验证它是否正在运行。

通过使用UVicorn运行Python文件，我们获得了可以复制并粘贴到我们的浏览器中的本地地址。

$ python .\src\train_model.py

注意：O1模型也提供了有关如何运行文件的所有信息。

如我们所见，该应用程序正常工作。

import os
import json
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.metrics import (
    classification_report,
    confusion_matrix,
    roc_auc_score,
    roc_curve,
)
import skops.io as sio
from sklearn.model_selection import train_test_split

# Load preprocessed data
data = pd.read_csv("metrics/preprocessed_data.csv")
features = data.drop("Potability", axis=1)
target = data["Potability"]

# Split the data
X_train, X_test, y_train, y_test = train_test_split(
    features, target, test_size=0.2, random_state=42, stratify=target
)

# Load the model
model = sio.load("models/water_quality_model.skops")

# Predictions
y_pred = model.predict(X_test)
y_pred_proba = model.predict_proba(X_test)[:, 1]

# Classification report
report = classification_report(y_test, y_pred, output_dict=True)
with open("metrics/classification_report.json", "w") as f:
    json.dump(report, f, indent=4)

# Confusion matrix
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt="d")
plt.title("Confusion Matrix")
plt.ylabel("Actual Label")
plt.xlabel("Predicted Label")
plt.savefig("metrics/confusion_matrix.png")

# ROC curve and AUC
fpr, tpr, _ = roc_curve(y_test, y_pred_proba)
roc_auc = roc_auc_score(y_test, y_pred_proba)

plt.figure()
plt.plot(fpr, tpr, label="AUC = %0.2f" % roc_auc)
plt.plot([0, 1], [0, 1], "k--")
plt.legend(loc="lower right")
plt.xlabel("False Positive Rate")
plt.ylabel("True Positive Rate")
plt.title("Receiver Operating Characteristic")
plt.savefig("metrics/roc_curve.png")

# Overall accuracy
accuracy = model.score(X_test, y_test)
print(f"Overall Accuracy: {accuracy * 100:.2f}%")

>让我们提供随机值以检查水质并按预测按钮。

Openai O1-preiview教程：构建机器学习项目

结果很棒。它表明水是不可酒的。

Openai O1-preiview教程：构建机器学习项目

>您甚至可以通过在URL之后键入“/docs”来测试API并生成结果来访问FastApi Swagger UI。

Openai O1-preiview教程：构建机器学习项目

8。使用docker

部署该应用程序在拥抱脸部集线器上

> OpenAI O1模型已经生成了Docker代码，指南和参考链接，以成功地学习如何在拥抱面前部署应用程序。

阅读数据科学的Docker：一个了解Docker的工作方式的简介教程。您将学习如何设置Docker，使用Docker命令，Dockerize机器学习应用程序并遵循行业范围的最佳实践。

首先，通过单击“拥抱脸”网站上的个人资料图片，然后单击“新空间”按钮来创建一个新的空间。输入应用程序名称，选择SDK类型（Docker），选择许可证类型，然后按“创建空间”。

Openai O1-preiview教程：构建机器学习项目

>来源：拥抱脸

>在主页上提供了使用Docker部署该应用程序的所有说明。

Openai O1-preiview教程：构建机器学习项目

来源：水质分类器

接下来，我们必须克隆存储库。

在存储库中，移动应用程序和模型文件夹。创建一个dockerfile并键入以下命令。 O1模型为我们提供了代码；我们只需要将端口号更改为7860。

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="o1-preview",
    messages=[
        {
            "role": "user", 
            "content": "Create an SQL database from scratch, including guides on usage and code everything in Python."
        }
    ]
)

print(response.choices[0].message.content)

> dockerfile：

>创建需求.txt文件，其中包含有关Python软件包的信息。我们将使用此文件下载并在云服务器上安装所有必需的Python软件包。>

import os

# Ensure the data directory exists
os.makedirs("data", exist_ok=True)

# Download the dataset
os.system("kaggle datasets download -d adityakadiwal/water-potability -p data --unzip")

>要求.txt：

这是我们的应用存储库应该看起来的方式：

Dataset URL: https://www.kaggle.com/datasets/adityakadiwal/water-potability
License(s): CC0-1.0
Downloading water-potability.zip to data
100%|████████████████████████████████████████████████████████████████████████████████| 251k/251k [00:00<00:00, 304kB/s]
100%|████████████████████████████████████████████████████████████████████████████████| 251k/251k [00:00<00:00, 303kB/s]

我们的模型是一个大文件（＆GT; 10MB），因此我们需要使用Git LFS跟踪它。安装git lfs，并使用扩展名“ .skops”跟踪所有文件。 Openai O1-preiview教程：构建机器学习项目 >

阶段所有更改，使用消息提交，然后将其推向远程服务器。

import os
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
import joblib

# Create directories if they don't exist
os.makedirs("metrics", exist_ok=True)
os.makedirs("models", exist_ok=True)

# Load the dataset
data = pd.read_csv("data/water_potability.csv")

# Check for missing values and save the summary
missing_values = data.isnull().sum()
missing_values.to_csv("metrics/missing_values.csv")

# Statistical summary
stats = data.describe()
stats.to_csv("metrics/data_statistics.csv")

# Pair plot
sns.pairplot(data, hue="Potability")
plt.savefig("metrics/pairplot.png")

# Correlation heatmap
plt.figure(figsize=(10, 8))
sns.heatmap(data.corr(), annot=True)
plt.savefig("metrics/correlation_heatmap.png")

# Handle missing values
imputer = SimpleImputer(strategy="mean")
data_imputed = pd.DataFrame(imputer.fit_transform(data), columns=data.columns)

# Feature scaling
scaler = StandardScaler()
features = data_imputed.drop("Potability", axis=1)
target = data_imputed["Potability"]
features_scaled = scaler.fit_transform(features)

# Save the scaler
joblib.dump(scaler, "models/scaler.joblib")

# Save preprocessed data
preprocessed_data = pd.DataFrame(features_scaled, columns=features.columns)
preprocessed_data["Potability"] = target
preprocessed_data.to_csv("metrics/preprocessed_data.csv", index=False)

>在拥抱脸上转到您的应用页面，您会发现它正在构建容器并安装所有必要的软件包。

$ python .\src\preprocess_data.py

来源：水质分类器 Openai O1-preiview教程：构建机器学习项目

几分钟后，该应用程序将准备好使用。它看起来类似于本地应用。让我们尝试为其提供样本值并生成结果。

来源：水质分类器 Openai O1-preiview教程：构建机器学习项目

我们的应用程序正常运行，并产生了预期的结果。

来源：水质分类器 Openai O1-preiview教程：构建机器学习项目

这个拥抱的面部空间应用程序可供任何人使用，这意味着我们可以使用终端中的curl命令访问它。

>输出：

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="o1-preview",
    messages=[
        {
            "role": "user", 
            "content": "Create an SQL database from scratch, including guides on usage and code everything in Python."
        }
    ]
)

print(response.choices[0].message.content)

所有项目文件，数据，模型和元数据都可以在KingAbzPro/Water-water-app github存储库上提供。

作者的意见

O1-Preview模型远远优于GPT-4O。它完美地遵循说明，并且无漏洞，因此它生成的代码已准备就绪。在构建机器学习应用程序时，我只需要进行次要更改，约为5％。最好的部分是，我还从AI模型的决策中学到了为什么它做出某些选择的原因。

abid ali ali ali awan

>结论

在本教程中，我们已经看到了OpenAI的O1推理模型的功能。我们建立了一个完整的机器学习项目，只需对代码进行一些更改，它立即起作用。该模型完美地处理了每个命令，并产生了出色的结果，而无需进行后续说明。

>现在，我们可以访问O1模型的较小版本，例如O1-Preview和O1 Mini。将来，我们将可以访问完整的O1模型，这对于构建复杂的项目甚至会更好。关键是要提出正确的问题以从模型中获得最大收益。使用AI模型

构建机器学习项目很简单，但是如果您想使其成为职业，则需要了解这些模型的工作原理。没有这些，很难解决问题或将模型应用于特定的业务需求。为了获得这种理解，我们建议初学者将机器学习科学家带入Python职业轨道。它包括21个课程和3个项目，可以教您如何建立和改善不同类型的机器学习模型。

>赚取顶级AI认证

>证明您可以有效，负责任地使用AI。

以上是Openai O1-preiview教程：构建机器学习项目的详细内容。更多信息请关注PHP中文网其他相关文章！

声明：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Figure's Helix: AI that Brings Human-Like Robots to your Home - Analytics Vidhya下一篇：OpenAI’s SWE-Lancer Benchmark

查看更多