首頁 >web前端 >js教程 >如何創建由螢幕和麥克風驅動的人工智慧代理

如何創建由螢幕和麥克風驅動的人工智慧代理

Linda Hamilton
Linda Hamilton原創
2025-01-22 08:35:10553瀏覽

How to create an AI agent powered by your screen & mic

Screenpipe:用於 24/7 螢幕和麥克風錄音、OCR、轉錄和 AI 整合的 CLI/應用程式

Screenpipe 是一個命令列介面 (CLI) 應用程序,可連續記錄您的螢幕和麥克風活動、提取光學字元辨識 (OCR) 資料、生成轉錄,並簡化將此資料輸入 AI 模型的過程。 其靈活的管道系統可讓您創建功能強大的插件,與捕獲的螢幕和音訊資訊進行互動。此範例示範了建立一個利用 Ollama 分析螢幕活動的簡單管道。

先決條件:

  • Screenpipe 已安裝並正在運作。
  • 小圓麵包已安裝 (npm install -g bun)。
  • Ollama 安裝了模型(本例中使用 DeepSeek-r1:1.5b)。

1。管道創建:

使用 CLI 建立一個新的 Screenpipe 管道:

<code class="language-bash">bunx @screenpipe/create-pipe@latest</code>

依照指示命名您的管道(例如「my-activity-analyzer」)並選擇目錄。

2。項目設定:

在您喜歡的編輯器(例如,遊標、VS Code)中開啟項目:

<code class="language-bash">cursor my-activity-analyzer</code>

初始專案結構將包含多個檔案。 對於此範例,刪除不必要的檔案:

<code class="language-bash">rm -rf src/app/api/intelligence src/components/obsidian-settings.tsx src/components/file-suggest-textarea.tsx</code>

3。實施分析 Cron 作業:

使用以下程式碼建立src/app/api/analyze/route.ts

<code class="language-typescript">import { NextResponse } from "next/server";
import { pipe } from "@screenpipe/js";
import { streamText } from "ai";
import { ollama } from "ollama-ai-provider";

export async function POST(request: Request) {
  try {
    const { messages, model } = await request.json();
    console.log("model:", model);

    const fiveMinutesAgo = new Date(Date.now() - 5 * 60 * 1000).toISOString();
    const results = await pipe.queryScreenpipe({
      startTime: fiveMinutesAgo,
      limit: 10,
      contentType: "all",
    });

    const provider = ollama(model);
    const result = streamText({
      model: provider,
      messages: [
        ...messages,
        {
          role: "user",
          content: `Analyze this activity data and summarize what I've been doing: ${JSON.stringify(results)}`,
        },
      ],
    });

    return result.toDataStreamResponse();
  } catch (error) {
    console.error("error:", error);
    return NextResponse.json({ error: "Failed to analyze activity" }, { status: 500 });
  }
}</code>

4。 pipe.json 調度配置:

建立或修改 pipe.json 以包含 cron 作業:

<code class="language-json">{
  "crons": [
    {
      "path": "/api/analyze",
      "schedule": "*/5 * * * *" // Runs every 5 minutes
    }
  ]
}</code>

5。更新首頁 (src/app/page.tsx):

<code class="language-typescript">"use client";

import { useState } from "react";
import { Button } from "@/components/ui/button";
import { OllamaModelsList } from "@/components/ollama-models-list";
import { Label } from "@/components/ui/label";
import { useChat } from "ai/react";

export default function Home() {
  const [selectedModel, setSelectedModel] = useState("deepseek-r1:1.5b");
  const { messages, input, handleInputChange, handleSubmit } = useChat({
    body: { model: selectedModel },
    api: "/api/analyze",
  });

  return (
    <main className="p-4 max-w-2xl mx-auto space-y-4">
      <div className="space-y-2">
        <label htmlFor="model">Ollama Model</label>
        <OllamaModelsList defaultValue={selectedModel} onChange={setSelectedModel} />
      </div>

      <div>
        {messages.map((message) => (
          <div key={message.id}>
            <div>{message.role === "user" ? "User: " : "AI: "}</div>
            <div>{message.content}</div>
          </div>
        ))}
      </div>
    </main>
  );
}</code>

6。本地測試:

在本地運作管道:

<code class="language-bash">bun i  // or npm install
bun dev</code>

存取http://localhost:3000應用程式。

7。屏管安裝:

將管道安裝到 Screenpipe 中:

  • UI:開啟 Screenpipe 應用程序,導航至“管道”部分,按一下“”,然後提供管道的本機路徑。
  • CLI:
    <code class="language-bash">screenpipe install /path/to/my-activity-analyzer
    screenpipe enable my-activity-analyzer</code>

工作原理:

  • 資料查詢: pipe.queryScreenpipe()擷取最近的螢幕和音訊資料。
  • 人工智慧處理:Ollama 使用提示分析資料。
  • UI:簡單的介面顯示分析結果。
  • 調度: Screenpipe 的 cron 作業每 5 分鐘執行一次分析。

後續步驟:

  • 新增配置選項。
  • 與外部服務整合。
  • 實作更複雜的 UI 元件。

參考文獻:

  • Screenpipe 文檔。
  • Screenpipe 管道範例。
  • Screenpipe SDK 參考。

以上是如何創建由螢幕和麥克風驅動的人工智慧代理的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn