搜索
首页web前端js教程创建文本到语音镀铬扩展

Create a Text-to-Speech Chrome Extension

核心要点

本文阐述了如何创建一个Chrome浏览器文本转语音(TTS)扩展程序,该程序利用HTML5语音合成API或第三方API将高亮显示的文本或剪贴板内容转换为语音。

Chrome扩展程序通常包含清单文件(元数据文件)、图像(例如扩展程序的图标)、HTML文件、JavaScript文件以及其他资源(如样式表)。

TTS扩展程序等待用户点击其图标或按下特定热键(Shift Y),然后将高亮显示的文本或剪贴板内容转换为语音。

扩展程序的代码包括后台脚本和内容脚本,访问活动标签和用户剪贴板的权限,以及检查高亮显示的文本或剪贴板内容、初始化扩展程序、添加热键和将文本转换为语音的方法。

如果HTML5语音合成API不可用,扩展程序将使用第三方API(如Voice RSS)将文本转换为语音。扩展程序还包含一个错误修复程序,用于解决Chrome在200-300个单词后停止语音合成的問題。

本文由Marc Towler同行评审。感谢所有SitePoint的同行评审员,使SitePoint的内容尽善尽美!

文本转语音(也称为语音合成或TTS)是一种人工产生人类语音的方式。这并非什么新鲜事物,据维基百科记载,人们尝试创造能够产生人类语音的机器至少已有一千年的历史。

如今,TTS在我们的生活中越来越普遍,每个人都可以从中受益。我们将通过创建一个将文本转换为语音的Chrome扩展程序来演示这一点。HTML5为我们带来了语音合成API,允许任何Web应用程序将任意文本字符串转换为语音,并免费播放给用户。

Chrome扩展程序通常包含以下内容:

  1. 清单文件(包含元数据的必需文件)
  2. 图像(例如扩展程序的图标)
  3. HTML文件(例如,当用户点击扩展程序的图标时显示的弹出窗口)
  4. JavaScript文件(例如稍后将解释的内容和/或后台脚本)
  5. 应用程序可能使用的任何其他资源(例如样式表)

关于页面转语音扩展程序

由于Chrome的普及和TTS的兴起,我们将创建一个将文本转换为语音的Chrome扩展程序。该扩展程序将等待用户点击其图标或按下特殊热键(Shift Y),然后尝试查找用户在其当前查看的页面上高亮显示的内容,或者尝试查找复制到其剪贴板的内容。如果找到任何内容,它将首先尝试使用HTML5语音合成API将其转换为语音,如果该API不可用,则调用第三方API。

Chrome扩展程序基础知识

每个Chrome扩展程序都需要一个名为manifest.json的文件。清单是一个JSON格式的文件,其中包含对应用程序至关重要的数据,从扩展程序的名称、描述、图标和作者等内容,到定义扩展程序需求的数据——扩展程序应该能够在哪些网站上运行(这些将是用户必须授予的权限)或在用户浏览特定网站时运行哪些文件。

{
  "manifest_version": 2,

  "name": "Page to Speech",
  "description": "This extension will produce English speech to whatever text you highlight on a webpage. Highlight text and click the extension's icon",
  "author": "Ivan Dimov",
  "version": "1.0",
  "icons": { 
    "16": "icon16.png",
    "48": "icon48.png",
    "128": "icon128.png"
  },

我们的清单首先记录了扩展程序的名称、描述、作者、版本和图标。您可以在icons对象中提供许多响应不同大小的图标。

 "background": {
    "scripts": ["background.min.js"]
  },
  "content_scripts": [
    {
      "matches": ["http://*/*", "https://*/*"],
      "js": [ "polyfill.min.js", "ext.min.js"],
      "run_at": "document_end"
    }],

然后,我们在background对象中定义了一个名为background.min.js的后台脚本(注意我们使用的是最小化文件)。后台脚本是长期运行的脚本,将在用户浏览器关闭或扩展程序禁用之前继续运行。

之后,我们有一个content_scripts数组,它指示Chrome由于通配符“http://*/*"和“https://*/*"而在每个网站请求时加载两个JavaScript文件。与后台脚本不同,内容脚本可以访问用户正在访问的实际网站的DOM。内容脚本既可以读取也可以修改嵌入其中的任何网页的DOM。因此,我们的polyfill.min.js和ext.min.js将能够读取和修改每个网页上的所有数据

  "browser_action": {
    "default_icon": "speech.png"
  },
   "permissions": [
     "activeTab",
     "clipboardRead"
    ]
}

等等!我们还有一个名为permissions的数组,我们请求只访问用户当前打开的网页(活动标签)。我们还请求另一个名为clipboardRead的权限,这将允许我们读取用户的剪贴板(以便我们可以将其内容转换为语音)。

编写页面转语音Chrome扩展程序

首先,我们创建我们唯一一个后台脚本,它挂钩一个事件监听器,该监听器将在用户点击扩展程序的图标时触发。发生这种情况时,我们将调用sendMessage函数,该函数使用chrome.tabs.sendMessage(tabId, message, callback)方法向我们的内容脚本发送消息(内容脚本可以读取DOM并找出用户高亮显示的内容和/或用户放在剪贴板上的内容)。我们使用chrome.tabs.query方法向当前打开的标签页发送消息——因为这是我们感兴趣的内容,也是我们能够访问的内容——该方法的参数包括一个回调函数,该函数将使用包含与查询匹配的标签页的参数调用。

chrome.browserAction.onClicked.addListener(function (tab) {
    //fired when the user clicks on the ext's icon
    sendMessage();
});
function sendMessage() {
  chrome.tabs.query({active: true, currentWindow: true}, function(tabs){
    chrome.tabs.sendMessage(tabs[0].id, {action: "pageToSpeech"}, function(response) {});
  });
}

现在,比较冗长的是我们的内容脚本。我们创建一个对象来保存与扩展程序相关的一些数据,然后定义我们的初始化方法。

initialize: function() {
    if (!pageToSpeech.hasText()) { return;}
    if (!pageToSpeech.trySpeechSynthesizer()) {
        pageToSpeech.trySpeechApi();
    }
},

该方法检查用户是否未高亮显示文本或剪贴板中没有任何内容,在这种情况下只返回。否则,它将尝试使用HTML5语音合成API生成语音。如果这也失败了,它最终将尝试使用第三方API。

检查文本的方法执行几项操作。它尝试使用内置的getSelection()方法获取包含高亮显示文本的对象,并使用toString()将其转换为文本字符串。然后,如果没有高亮显示文本,它将尝试在用户的剪贴板中查找文本。它通过向页面添加一个输入元素、聚焦它、使用execCommand('paste')触发粘贴事件,然后将粘贴到该输入中的文本保存在一个属性中来实现这一点。然后它清空输入。无论哪种情况,它都会返回它找到的内容。

{
  "manifest_version": 2,

  "name": "Page to Speech",
  "description": "This extension will produce English speech to whatever text you highlight on a webpage. Highlight text and click the extension's icon",
  "author": "Ivan Dimov",
  "version": "1.0",
  "icons": { 
    "16": "icon16.png",
    "48": "icon48.png",
    "128": "icon128.png"
  },

为了使用热键(硬编码为Shift Y)启用用户运行文本转语音转换,我们初始化一个数组并为onkeydown和onkeyup事件设置一个事件监听器。在监听器中,我们存储一个与按下键的keyCode对应的索引,该值是根据e.type事件类型与keydown的比较结果得出的,并且是一个布尔值。因此,每当一个键按下时,对应的键索引的值将设置为true,每当一个键释放时,索引的值将更改为false。因此,如果索引16和84都持有真值,我们就知道用户正在使用我们的热键,因此我们将初始化文本转语音转换。

 "background": {
    "scripts": ["background.min.js"]
  },
  "content_scripts": [
    {
      "matches": ["http://*/*", "https://*/*"],
      "js": [ "polyfill.min.js", "ext.min.js"],
      "run_at": "document_end"
    }],

为了将文本转换为语音,我们依赖于trySpeechSynthesizer()方法。如果HTML5语音合成存在于用户的浏览器中(window.speechSynthesis),我们就知道用户能够使用它,因此我们检查当前是否正在运行语音(我们通过pageToSpeech.data.speechInProgress布尔值知道它是否正在运行)。如果语音正在进行中,我们将停止当前语音(因为trySpeechSynthesizer将启动一个新的语音,我们不希望同时发出两种声音)。然后,我们将speechInProgress设置为true,每当语音完成时,再次将该属性设置为假值。

现在,我不想详细说明为什么我们使用speechUtteranceChunker,但它是一个与Chrome在发出200-300个单词后停止语音合成相关的错误修复程序。基本上,它将我们的文本字符串分割成许多较小的块(在我们的例子中是120个单词),并使用一个块接一个块地调用语音合成API。

  "browser_action": {
    "default_icon": "speech.png"
  },
   "permissions": [
     "activeTab",
     "clipboardRead"
    ]
}

最后,如果HTML5语音合成API不可用,我们将尝试一个API。我们有相同的属性,用于知道是否需要停止已经运行的音频。然后,我们直接创建一个新的Audio对象,并向其传递所需API端点的URL,因为我们选择的演示API直接流式传输音频。我们只需传递API密钥和要转换的文本。我们还检查音频是否触发错误。在这种情况下,我们只需向用户显示一个警报,说明此时我们无法提供帮助(我们测试代码的这个特定的API,Voice RSS,允许免费层级上300次请求)。

{
  "manifest_version": 2,

  "name": "Page to Speech",
  "description": "This extension will produce English speech to whatever text you highlight on a webpage. Highlight text and click the extension's icon",
  "author": "Ivan Dimov",
  "version": "1.0",
  "icons": { 
    "16": "icon16.png",
    "48": "icon48.png",
    "128": "icon128.png"
  },

最后,在任何局部作用域之外,我们调用addHotkeys方法,该方法将开始等待用户按下正确的热键,并且我们设置一个监听器,该监听器将等待从后台脚本接收消息。如果接收到正确的消息(speakHighlight)或按下热键,我们将初始化文本转语音转换对象。

 "background": {
    "scripts": ["background.min.js"]
  },
  "content_scripts": [
    {
      "matches": ["http://*/*", "https://*/*"],
      "js": [ "polyfill.min.js", "ext.min.js"],
      "run_at": "document_end"
    }],

结论

瞧,我们有一个不错的Chrome扩展程序,可以将文本转换为语音。此处的概念可用于创建用于不同目的的Chrome扩展程序。您是否构建了任何有趣的Chrome扩展程序,或者您想构建一个?请在评论中告诉我!

如果您喜欢这个想法并想进一步开发它,您可以在我们的GitHub存储库中找到完整的代码。如果您想测试它,可以在Chrome网上应用店中找到扩展程序的生产版本。

参考文献:https://www.php.cn/link/b8b0e04211dce1c104dfcdb685c9b9ad https://www.php.cn/link/e417baa9cdf34202f71b55a27da899e8

文本转语音Chrome扩展程序常见问题解答

如何安装文本转语音Chrome扩展程序?

安装文本转语音Chrome扩展程序是一个简单的过程。首先,打开您的Google Chrome浏览器,然后导航到Chrome网上应用店。在搜索栏中,输入您要安装的扩展程序的名称,例如“Read Aloud”或“Text-to-Speech (TTS)”。从搜索结果中点击扩展程序,然后点击“添加到Chrome”按钮。将出现一个弹出窗口要求确认,点击“添加扩展程序”。扩展程序将被安装,并且一个图标将出现在您的浏览器工具栏上。

我可以在我的文本转语音Chrome扩展程序中自定义语音吗?

是的,大多数文本转语音Chrome扩展程序允许您自定义语音。您通常可以选择各种语音,包括不同口音和语言的男声和女声。要自定义语音,请点击浏览器工具栏上的扩展程序图标,然后导航到设置或选项菜单。在这里,您应该找到更改语音、速度、音调和音量的选项。

文本转语音Chrome扩展程序是免费使用的吗?

许多文本转语音Chrome扩展程序是免费使用的,但有些可能会收取少量费用提供高级功能。这些高级功能可能包括其他语音、无广告使用或保存音频文件的功能。在安装之前,请务必检查Chrome网上应用店中扩展程序的详细信息。

我可以离线使用文本转语音Chrome扩展程序吗?

有些文本转语音Chrome扩展程序可以在离线状态下使用,但并非所有扩展程序都可以。这取决于扩展程序的设计方式。如果离线使用对您很重要,请在安装后检查Chrome网上应用店中扩展程序的描述或扩展程序的设置。

如何使用文本转语音Chrome扩展程序?

要使用文本转语音Chrome扩展程序,首先,导航到您想要大声朗读的网页。然后,点击浏览器工具栏上的扩展程序图标。有些扩展程序会立即开始大声朗读页面,而另一些扩展程序可能需要您选择要朗读的文本。您通常可以使用扩展程序弹出窗口中的控件来暂停、恢复或停止朗读。

我可以在任何网站上使用文本转语音Chrome扩展程序吗?

大多数文本转语音Chrome扩展程序应该可以在任何网站上运行,但可能存在例外情况。某些网站可能与某些扩展程序存在兼容性问题,或者扩展程序可能无法读取某些类型的内容,例如图像或视频。如果您遇到问题,请尝试使用不同的扩展程序或联系扩展程序的开发者以寻求支持。

我的数据在文本转语音Chrome扩展程序中安全吗?

大多数文本转语音Chrome扩展程序都应该尊重您的隐私,并且不会未经您的同意收集或共享您的数据。但是,在安装之前,最好检查扩展程序的隐私策略。如果您对该策略不满意,请考虑寻找其他扩展程序。

我可以更改文本转语音Chrome扩展程序中语音的速度吗?

是的,大多数文本转语音Chrome扩展程序允许您调整语音的速度。这通常可以在扩展程序的设置或选项菜单中完成。您通常可以选择一系列速度,从非常慢到非常快。

我可以在其他浏览器中使用文本转语音Chrome扩展程序吗?

文本转语音Chrome扩展程序旨在在Google Chrome浏览器中运行,可能无法在其他浏览器中运行。但是,许多扩展程序开发者也会为其他浏览器(如Firefox或Edge)创建其扩展程序的版本。请查看开发者的网站或这些浏览器的相关扩展程序商店,看看是否有可用的版本。

我可以在我的移动设备上使用文本转语音Chrome扩展程序吗?

某些文本转语音Chrome扩展程序可能适用于Android或iOS版Chrome,但并非所有扩展程序都适用。这取决于扩展程序的设计方式。如果移动使用对您很重要,请在安装后检查Chrome网上应用店中扩展程序的描述或扩展程序的设置。

以上是创建文本到语音镀铬扩展的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
从网站到应用程序:JavaScript的不同应用从网站到应用程序:JavaScript的不同应用Apr 22, 2025 am 12:02 AM

JavaScript在网站、移动应用、桌面应用和服务器端编程中均有广泛应用。1)在网站开发中,JavaScript与HTML、CSS一起操作DOM,实现动态效果,并支持如jQuery、React等框架。2)通过ReactNative和Ionic,JavaScript用于开发跨平台移动应用。3)Electron框架使JavaScript能构建桌面应用。4)Node.js让JavaScript在服务器端运行,支持高并发请求。

Python vs. JavaScript:比较用例和应用程序Python vs. JavaScript:比较用例和应用程序Apr 21, 2025 am 12:01 AM

Python更适合数据科学和自动化,JavaScript更适合前端和全栈开发。1.Python在数据科学和机器学习中表现出色,使用NumPy、Pandas等库进行数据处理和建模。2.Python在自动化和脚本编写方面简洁高效。3.JavaScript在前端开发中不可或缺,用于构建动态网页和单页面应用。4.JavaScript通过Node.js在后端开发中发挥作用,支持全栈开发。

C/C在JavaScript口译员和编译器中的作用C/C在JavaScript口译员和编译器中的作用Apr 20, 2025 am 12:01 AM

C和C 在JavaScript引擎中扮演了至关重要的角色,主要用于实现解释器和JIT编译器。 1)C 用于解析JavaScript源码并生成抽象语法树。 2)C 负责生成和执行字节码。 3)C 实现JIT编译器,在运行时优化和编译热点代码,显着提高JavaScript的执行效率。

JavaScript在行动中:现实世界中的示例和项目JavaScript在行动中:现实世界中的示例和项目Apr 19, 2025 am 12:13 AM

JavaScript在现实世界中的应用包括前端和后端开发。1)通过构建TODO列表应用展示前端应用,涉及DOM操作和事件处理。2)通过Node.js和Express构建RESTfulAPI展示后端应用。

JavaScript和Web:核心功能和用例JavaScript和Web:核心功能和用例Apr 18, 2025 am 12:19 AM

JavaScript在Web开发中的主要用途包括客户端交互、表单验证和异步通信。1)通过DOM操作实现动态内容更新和用户交互;2)在用户提交数据前进行客户端验证,提高用户体验;3)通过AJAX技术实现与服务器的无刷新通信。

了解JavaScript引擎:实施详细信息了解JavaScript引擎:实施详细信息Apr 17, 2025 am 12:05 AM

理解JavaScript引擎内部工作原理对开发者重要,因为它能帮助编写更高效的代码并理解性能瓶颈和优化策略。1)引擎的工作流程包括解析、编译和执行三个阶段;2)执行过程中,引擎会进行动态优化,如内联缓存和隐藏类;3)最佳实践包括避免全局变量、优化循环、使用const和let,以及避免过度使用闭包。

Python vs. JavaScript:学习曲线和易用性Python vs. JavaScript:学习曲线和易用性Apr 16, 2025 am 12:12 AM

Python更适合初学者,学习曲线平缓,语法简洁;JavaScript适合前端开发,学习曲线较陡,语法灵活。1.Python语法直观,适用于数据科学和后端开发。2.JavaScript灵活,广泛用于前端和服务器端编程。

Python vs. JavaScript:社区,图书馆和资源Python vs. JavaScript:社区,图书馆和资源Apr 15, 2025 am 12:16 AM

Python和JavaScript在社区、库和资源方面的对比各有优劣。1)Python社区友好,适合初学者,但前端开发资源不如JavaScript丰富。2)Python在数据科学和机器学习库方面强大,JavaScript则在前端开发库和框架上更胜一筹。3)两者的学习资源都丰富,但Python适合从官方文档开始,JavaScript则以MDNWebDocs为佳。选择应基于项目需求和个人兴趣。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中