如何创建由屏幕和麦克风驱动的人工智能代理-js教程-PHP中文网

首页

web前端

js教程

如何创建由屏幕和麦克风驱动的人工智能代理

Linda Hamilton

Jan 22, 2025 am 08:35 AM

How to create an AI agent powered by your screen & mic

Screenpipe：用于 24/7 屏幕和麦克风录音、OCR、转录和 AI 集成的 CLI/应用程序

Screenpipe 是一个命令行界面 (CLI) 应用程序，可连续记录您的屏幕和麦克风活动、提取光学字符识别 (OCR) 数据、生成转录，并简化将此数据输入 AI 模型的过程。其灵活的管道系统允许您创建功能强大的插件，与捕获的屏幕和音频信息进行交互。此示例演示了构建一个利用 Ollama 分析屏幕活动的简单管道。

先决条件：

Screenpipe 已安装并正在运行。
小圆面包已安装 (npm install -g bun)。
Ollama 安装了模型（本例中使用 DeepSeek-r1:1.5b）。

1。管道创建：

使用 CLI 创建一个新的 Screenpipe 管道：

bunx @screenpipe/create-pipe@latest

按照提示命名您的管道（例如“my-activity-analyzer”）并选择一个目录。

2。项目设置：

在您喜欢的编辑器（例如，光标、VS Code）中打开项目：

cursor my-activity-analyzer

初始项目结构将包含多个文件。对于此示例，删除不必要的文件：

rm -rf src/app/api/intelligence src/components/obsidian-settings.tsx src/components/file-suggest-textarea.tsx

3。实施分析 Cron 作业：

使用以下代码创建src/app/api/analyze/route.ts：

import { NextResponse } from "next/server";
import { pipe } from "@screenpipe/js";
import { streamText } from "ai";
import { ollama } from "ollama-ai-provider";

export async function POST(request: Request) {
  try {
    const { messages, model } = await request.json();
    console.log("model:", model);

    const fiveMinutesAgo = new Date(Date.now() - 5 * 60 * 1000).toISOString();
    const results = await pipe.queryScreenpipe({
      startTime: fiveMinutesAgo,
      limit: 10,
      contentType: "all",
    });

    const provider = ollama(model);
    const result = streamText({
      model: provider,
      messages: [
        ...messages,
        {
          role: "user",
          content: `Analyze this activity data and summarize what I've been doing: ${JSON.stringify(results)}`,
        },
      ],
    });

    return result.toDataStreamResponse();
  } catch (error) {
    console.error("error:", error);
    return NextResponse.json({ error: "Failed to analyze activity" }, { status: 500 });
  }
}

4。 pipe.json 调度配置：

创建或修改 pipe.json 以包含 cron 作业：

{
  "crons": [
    {
      "path": "/api/analyze",
      "schedule": "*/5 * * * *" // Runs every 5 minutes
    }
  ]
}

5。更新主页 (src/app/page.tsx):

"use client";

import { useState } from "react";
import { Button } from "@/components/ui/button";
import { OllamaModelsList } from "@/components/ollama-models-list";
import { Label } from "@/components/ui/label";
import { useChat } from "ai/react";

export default function Home() {
  const [selectedModel, setSelectedModel] = useState("deepseek-r1:1.5b");
  const { messages, input, handleInputChange, handleSubmit } = useChat({
    body: { model: selectedModel },
    api: "/api/analyze",
  });

  return (
    <main className="p-4 max-w-2xl mx-auto space-y-4">
      <div className="space-y-2">
        <label htmlFor="model">Ollama Model</label>
        <OllamaModelsList defaultValue={selectedModel} onChange={setSelectedModel} />
      </div>

      <div>
        {messages.map((message) => (
          <div key={message.id}>
            <div>{message.role === "user" ? "User: " : "AI: "}</div>
            <div>{message.content}</div>
          </div>
        ))}
      </div>
    </main>
  );
}

6。本地测试：

在本地运行管道：

bun i  // or npm install
bun dev

访问http://localhost:3000应用程序。

7。屏管安装：

将管道安装到 Screenpipe 中：

UI：打开 Screenpipe 应用程序，导航到“管道”部分，单击“”，然后提供管道的本地路径。

CLI：

screenpipe install /path/to/my-activity-analyzer
screenpipe enable my-activity-analyzer

工作原理：

数据查询： pipe.queryScreenpipe()检索最近的屏幕和音频数据。
人工智能处理：Ollama 使用提示分析数据。
UI：简单的界面显示分析结果。
调度： Screenpipe 的 cron 作业每 5 分钟执行一次分析。

后续步骤：

添加配置选项。
与外部服务集成。
实现更复杂的 UI 组件。

参考文献：

Screenpipe 文档。
Screenpipe 管道示例。
Screenpipe SDK 参考。

以上是如何创建由屏幕和麦克风驱动的人工智能代理的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

Python vs. JavaScript：开发人员的比较分析May 09, 2025 am 12:22 AM

Python和JavaScript的主要区别在于类型系统和应用场景。1.Python使用动态类型，适合科学计算和数据分析。2.JavaScript采用弱类型，广泛用于前端和全栈开发。两者在异步编程和性能优化上各有优势，选择时应根据项目需求决定。

Python vs. JavaScript：选择合适的工具May 08, 2025 am 12:10 AM

选择Python还是JavaScript取决于项目类型：1)数据科学和自动化任务选择Python；2)前端和全栈开发选择JavaScript。Python因其在数据处理和自动化方面的强大库而备受青睐，而JavaScript则因其在网页交互和全栈开发中的优势而不可或缺。

Python和JavaScript：了解每个的优势May 06, 2025 am 12:15 AM

Python和JavaScript各有优势，选择取决于项目需求和个人偏好。1.Python易学，语法简洁，适用于数据科学和后端开发，但执行速度较慢。2.JavaScript在前端开发中无处不在，异步编程能力强，Node.js使其适用于全栈开发，但语法可能复杂且易出错。

JavaScript的核心：它是在C还是C上构建的？May 05, 2025 am 12:07 AM

javascriptisnotbuiltoncorc; saninterpretedlanguagethatrunsonenginesoftenwritteninc.1）javascriptwasdesignedAsalightweight，解释edganguageforwebbrowsers.2）Enginesevolvedfromsimpleterterterpretpreterterterpretertestojitcompilerers，典型地提示。

JavaScript应用程序：从前端到后端May 04, 2025 am 12:12 AM

JavaScript可用于前端和后端开发。前端通过DOM操作增强用户体验，后端通过Node.js处理服务器任务。1.前端示例：改变网页文本内容。2.后端示例：创建Node.js服务器。

Python vs. JavaScript：您应该学到哪种语言？May 03, 2025 am 12:10 AM

选择Python还是JavaScript应基于职业发展、学习曲线和生态系统：1)职业发展：Python适合数据科学和后端开发，JavaScript适合前端和全栈开发。2)学习曲线：Python语法简洁，适合初学者；JavaScript语法灵活。3)生态系统：Python有丰富的科学计算库，JavaScript有强大的前端框架。

JavaScript框架：为现代网络开发提供动力May 02, 2025 am 12:04 AM

JavaScript框架的强大之处在于简化开发、提升用户体验和应用性能。选择框架时应考虑：1.项目规模和复杂度，2.团队经验，3.生态系统和社区支持。

JavaScript，C和浏览器之间的关系May 01, 2025 am 12:06 AM

引言我知道你可能会觉得奇怪，JavaScript、C 和浏览器之间到底有什么关系？它们之间看似毫无关联，但实际上，它们在现代网络开发中扮演着非常重要的角色。今天我们就来深入探讨一下这三者之间的紧密联系。通过这篇文章，你将了解到JavaScript如何在浏览器中运行，C 在浏览器引擎中的作用，以及它们如何共同推动网页的渲染和交互。JavaScript与浏览器的关系我们都知道，JavaScript是前端开发的核心语言，它直接在浏览器中运行，让网页变得生动有趣。你是否曾经想过，为什么JavaScr

See all articles