搜尋
首頁後端開發Python教學使用 .NET Core、Python 和 Azure 微調大型語言模型 (LLM)

Fine-Tuning Large Language Models (LLMs) with .NET Core, Python, and Azure

目錄

  1. 引言
  2. 為什麼微調大型語言模型?
  3. 解概述
  4. 環境設定
  5. 使用 Python 進行訓練和微調
  6. 在 .NET Core 中整合微調後的模型
  7. 部署到 Azure
  8. 最佳實務
  9. 結論

  1. 引言

大型語言模型 (LLM) 因其理解和產生類似人類文本的能力而受到廣泛關注。然而,許多組織擁有獨特的、特定領域的資料集和詞彙表,通用模型可能無法完全捕捉到這些資料集和詞彙表。 微調使開發人員能夠根據特定環境或產業調整這些大型模型,從而提高準確性和相關性。

本文將探討如何使用Python 微調LLM,然後將產生的模型整合並部署到.NET Core C# 應用程式中,所有這些都在Microsoft Azure 上完成,以實現可擴展性和便捷性。


  1. 為什麼微調大型語言模型?

  2. 領域專用性: 可以微調 LLM 以使用特定行業的術語、產品名稱或專業術語。

  3. 效能提升: 微調通常會減少錯誤並在客戶服務、研究和分析等用例中提高相關性。

  4. 降低成本: 無需從頭開始建立模型,您可以自訂現有的強大 LLM。

  5. 提高效率: 您利用預訓練權重,只調整最終層或參數,從而加快流程。


  1. 解決方案概述

組件與技術

  1. 用於微調的 Python

    • 常用函式庫(例如,Hugging Face Transformers、PyTorch)
    • 簡化了載入和調整預訓練模型的過程
  2. 用於整合的 .NET Core C#

    • 公開微調模型的後端服務或 API
    • 強型別語言,許多企業開發人員都很熟悉
  3. Azure 服務

    • Azure 機器學習 用於訓練和模型管理
    • Azure 儲存 用於資料和模型工件
    • Azure 應用服務Azure 函數 用於託管 .NET Core 應用程式
    • Azure 金鑰保管庫(可選)用於保護憑證

  1. 環境設定

先決條件

  • Azure 訂閱: 需要建立機器學習工作區和應用程式服務等資源。
  • Python 3.8 : 在本地安裝,用於模型微調。
  • .NET 6/7/8 SDK: 用於建立和執行 .NET Core C# 應用程式。
  • Visual Studio 2022Visual Studio Code: 建議使用的 IDE。
  • Azure CLI: 用於透過終端設定和管理 Azure 服務。
  • Docker(可選):如果需要,可用於容器化您的應用程式。

  1. 使用 Python 進行訓練和微調

此範例使用 Hugging Face Transformers-這是最廣泛採用的 LLM 微調函式庫之一。

5.1 設定虛擬環境

<code>python -m venv venv
source venv/bin/activate  # 在 Windows 上:venv\Scripts\activate</code>

5.2 安裝依賴項

<code>pip install torch transformers azureml-sdk</code>

5.3 建立 Azure 機器學習工作區

  1. 資源組工作區:
<code>   az group create --name LLMFinetuneRG --location eastus
   az ml workspace create --name LLMFinetuneWS --resource-group LLMFinetuneRG</code>
  1. 配置本機環境以連接到工作區(使用 config.json 檔案或環境變數)。

5.4 微調腳本 (train.py)

<code>import os
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer
from azureml.core import Workspace, Run

# 连接到 Azure ML
ws = Workspace.from_config()
run = Run.get_context()

model_name = "gpt2"  # 示例模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 加载自定义数据集(本地或来自 Azure 存储)
# 示例:Azure ML 中的文本文件或数据集
train_texts = ["此处输入您的特定领域文本..."]  # 简化版
train_encodings = tokenizer(train_texts, truncation=True, padding=True)

class CustomDataset(torch.utils.data.Dataset):
    def __init__(self, encodings):
        self.encodings = encodings
    def __len__(self):
        return len(self.encodings["input_ids"])
    def __getitem__(self, idx):
        return {k: torch.tensor(v[idx]) for k, v in self.encodings.items()}

train_dataset = CustomDataset(train_encodings)

training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=2,
    save_steps=100,
    logging_steps=100
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
)

trainer.train()

# 保存微调后的模型
trainer.save_model("./fine_tuned_model")
tokenizer.save_pretrained("./fine_tuned_model")</code>

5.5 在 Azure 中註冊模型

<code>from azureml.core.model import Model

model = Model.register(
    workspace=ws,
    model_path="./fine_tuned_model",
    model_name="myFineTunedLLM"
)</code>

此時,您的微調模型已儲存在 Azure 機器學習中,方便存取和版本控制。


  1. 在 .NET Core 整合微調後的模型

6.1 建立 .NET Core Web API 專案

<code>dotnet new webapi -n FineTunedLLMApi
cd FineTunedLLMApi</code>

6.2 新增依賴項

  • HttpClient 用於呼叫 Azure 端點或本機推理 API
  • Newtonsoft.Json(如果您喜歡使用 JSON.NET 進行序列化)
  • Azure.Storage.BlobsAzure.Identity 用於安全存取 Azure 資源
<code>dotnet add package Microsoft.Extensions.Http
dotnet add package Microsoft.Azure.Storage.Blob
dotnet add package Newtonsoft.Json</code>

6.3 ModelConsumerService.cs

假設您已將微調後的模型部署為 Web 服務(例如,使用 Azure 容器執行個體或 Azure ML 中的自訂端點)。以下程式碼段呼叫該服務以取得完成結果。

<code>using Newtonsoft.Json;
using System.Net.Http;
using System.Text;
using System.Threading.Tasks;

public class ModelConsumerService
{
    private readonly HttpClient _httpClient;

    public ModelConsumerService(IHttpClientFactory httpClientFactory)
    {
        _httpClient = httpClientFactory.CreateClient("FineTunedModel");
    }

    public async Task<string> GetCompletionAsync(string prompt)
    {
        var requestBody = new { prompt = prompt };
        var content = new StringContent(
            JsonConvert.SerializeObject(requestBody),
            Encoding.UTF8, 
            "application/json");

        var response = await _httpClient.PostAsync("/predict", content);
        response.EnsureSuccessStatusCode();
        return await response.Content.ReadAsStringAsync();
    }
}</string></code>

6.4 LLMController.cs

<code>using Microsoft.AspNetCore.Mvc;
using System.Threading.Tasks;

[ApiController]
[Route("[controller]")]
public class LLMController : ControllerBase
{
    private readonly ModelConsumerService _modelService;

    public LLMController(ModelConsumerService modelService)
    {
        _modelService = modelService;
    }

    [HttpPost("complete")]
    public async Task<iactionresult> CompletePrompt([FromBody] PromptRequest request)
    {
        var result = await _modelService.GetCompletionAsync(request.Prompt);
        return Ok(new { Completion = result });
    }
}

public class PromptRequest
{
    public string Prompt { get; set; }
}</iactionresult></code>

6.5 設定 .NET Core 應用程式

Program.csStartup.cs 中:

<code>var builder = WebApplication.CreateBuilder(args);

// 注册 HttpClient
builder.Services.AddHttpClient("FineTunedModel", client =>
{
    client.BaseAddress = new Uri("https://your-model-endpoint/");
});

// 注册 ModelConsumerService
builder.Services.AddTransient<modelconsumerservice>();

builder.Services.AddControllers();
var app = builder.Build();

app.MapControllers();
app.Run();</modelconsumerservice></code>

  1. 部署到 Azure

  2. Azure 應用服務:

    • 對於許多 .NET Core 應用程式來說,這是最簡單的途徑。
    • 從 Azure 入口網站或透過 CLI 建立新的 Web 應用程式
<code>python -m venv venv
source venv/bin/activate  # 在 Windows 上:venv\Scripts\activate</code>
  1. Azure 函數(可選):

    • 如果您的使用是間歇性的或計劃性的,則非常適合運行無伺服器、事件驅動的邏輯。
  2. Azure Kubernetes 服務 (AKS)(進階):

    • 非常適合大規模部署。
    • 使用 Docker 容器化您的應用程式並將其推送到 Azure 容器註冊表 (ACR)。

  1. 最佳實踐

  2. 資料隱私: 確保負責任地處理敏感或專有數據,尤其是在模型訓練期間。

  3. 監控和日誌記錄: 整合 Azure Application Insights 以監控效能、追蹤使用情況並偵測異常。

  4. 安全性: 使用 Azure 金鑰保管庫 來儲存金鑰(API 金鑰、連接字串)。

  5. 模型版本控制: 追蹤 Azure ML 中不同微調版本的模型;如果需要,回滾到舊版本。

  6. 提示工程: 完善您的提示以從微調後的模型中獲得最佳結果。


  1. 結論

使用PythonAzure 機器學習 微調LLM,然後將它們整合到.NET Core 應用程式中,使您可以建立強大的特定領域AI 解決方案。對於尋求利用 Python 的 AI 生態系統和 .NET 的企業功能的組織來說,這種組合是一個極好的選擇,所有這些都由 Azure 的可擴展性提供支援。

透過仔細規劃安全、資料治理和 DevOps,您可以推出一個滿足現實世界需求的生產就緒型解決方案,在強大且易於維護的框架中提供準確的特定領域語言功能。

以上是使用 .NET Core、Python 和 Azure 微調大型語言模型 (LLM)的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
Python的科學計算中如何使用陣列?Python的科學計算中如何使用陣列?Apr 25, 2025 am 12:28 AM

Arraysinpython,尤其是Vianumpy,ArecrucialInsCientificComputingfortheireftheireffertheireffertheirefferthe.1)Heasuedfornumerericalicerationalation,dataAnalysis和Machinelearning.2)Numpy'Simpy'Simpy'simplementIncressionSressirestrionsfasteroperoperoperationspasterationspasterationspasterationspasterationspasterationsthanpythonlists.3)inthanypythonlists.3)andAreseNableAblequick

您如何處理同一系統上的不同Python版本?您如何處理同一系統上的不同Python版本?Apr 25, 2025 am 12:24 AM

你可以通過使用pyenv、venv和Anaconda來管理不同的Python版本。 1)使用pyenv管理多個Python版本:安裝pyenv,設置全局和本地版本。 2)使用venv創建虛擬環境以隔離項目依賴。 3)使用Anaconda管理數據科學項目中的Python版本。 4)保留系統Python用於系統級任務。通過這些工具和策略,你可以有效地管理不同版本的Python,確保項目順利運行。

與標準Python陣列相比,使用Numpy數組的一些優點是什麼?與標準Python陣列相比,使用Numpy數組的一些優點是什麼?Apr 25, 2025 am 12:21 AM

numpyarrayshaveseveraladagesoverandastardandpythonarrays:1)基於基於duetoc的iMplation,2)2)他們的aremoremoremorymorymoremorymoremorymoremorymoremoremory,尤其是WithlargedAtasets和3)效率化,效率化,矢量化函數函數函數函數構成和穩定性構成和穩定性的操作,製造

陣列的同質性質如何影響性能?陣列的同質性質如何影響性能?Apr 25, 2025 am 12:13 AM

數組的同質性對性能的影響是雙重的:1)同質性允許編譯器優化內存訪問,提高性能;2)但限制了類型多樣性,可能導致效率低下。總之,選擇合適的數據結構至關重要。

編寫可執行python腳本的最佳實踐是什麼?編寫可執行python腳本的最佳實踐是什麼?Apr 25, 2025 am 12:11 AM

到CraftCraftExecutablePythcripts,lollow TheSebestPractices:1)Addashebangline(#!/usr/usr/bin/envpython3)tomakethescriptexecutable.2)setpermissionswithchmodwithchmod xyour_script.3)

Numpy數組與使用數組模塊創建的數組有何不同?Numpy數組與使用數組模塊創建的數組有何不同?Apr 24, 2025 pm 03:53 PM

numpyArraysareAreBetterFornumericalialoperations andmulti-demensionaldata,而learthearrayModuleSutableforbasic,內存效率段

Numpy數組的使用與使用Python中的數組模塊陣列相比如何?Numpy數組的使用與使用Python中的數組模塊陣列相比如何?Apr 24, 2025 pm 03:49 PM

numpyArraySareAreBetterForHeAvyNumericalComputing,而lelethearRayModulesiutable-usemoblemory-connerage-inderabledsswithSimpleDatateTypes.1)NumpyArsofferVerverVerverVerverVersAtility andPerformanceForlargedForlargedAtatasetSetsAtsAndAtasEndCompleXoper.2)

CTYPES模塊與Python中的數組有何關係?CTYPES模塊與Python中的數組有何關係?Apr 24, 2025 pm 03:45 PM

ctypesallowscreatingingangandmanipulatingc-stylarraysinpython.1)usectypestoInterfacewithClibrariesForperfermance.2)createc-stylec-stylec-stylarraysfornumericalcomputations.3)passarraystocfunctions foreforfunctionsforeffortions.however.however,However,HoweverofiousofmemoryManageManiverage,Pressiveo,Pressivero

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中