這篇文章主要介紹了使用Node.js 對文本內容分詞和關鍵字抽取,需要的朋友可以參考下
在討論技術前先賣個萌,吃貨的世界你不懂~~
眾成翻譯的文章有tag,用戶可以基於tag 來快速篩選感興趣的文章,文章也可以依照tag 關聯來進行相關推薦。但現在眾成翻譯的 tag 是在推薦文章的時候設定的,都是英文的,而且人工設定難免不規範和不完全。雖然發佈文章後也可以人工編輯,但是我們也不能指望使用者或管理員能夠時時刻刻編輯出恰當的 tag,所以我們需要用工具來自動產生 tag。
在現在開源的分詞工具裡面,jieba是一個功能強大性能優越的分詞元件,更幸運地是,它有 node 版本。
nodejieba 的安裝和使用十分簡單:
npm install nodejieba var nodejieba = require("nodejieba"); var result = nodejieba.cut("帝国主义要把我们的地瓜分掉"); console.log(result); //[ '帝国主义', '要', '把', '我们', '的', '地', '瓜分', '掉' ] result = nodejieba.cut('土地,俺老孙的金箍棒在哪里?'); console.log(result); //[ '土地', ',', '俺', '老', '孙', '的', '金箍棒', '在', '哪里', '?' ] result = nodejieba.cut('大圣,您的金箍棒就棒在特别配您的头型!'); console.log(result); //[ '大圣',',','您','的','金箍棒','就','棒','在','特别','配','您','的','头型','!' ]
我們可以載入自己的字典,在字典裡給每個字分別設定權重和詞性:
編輯user.uft8
地瓜9999 n
金箍9999 n
棒就棒在9999
然後透過nodejieba.load 載入字典。
var nodejieba = require("nodejieba"); nodejieba.load({ userDict: './user.utf8', }); var result = nodejieba.cut("帝国主义要把我们的地瓜分掉"); console.log(result); //[ '帝国主义', '要', '把', '我们', '的', '地瓜', '分', '掉' ] result = nodejieba.cut('土地,俺老孙的金箍棒在哪里?'); console.log(result); //[ '土地', ',', '俺', '老', '孙', '的', '金箍棒', '在', '哪里', '?' ] result = nodejieba.cut('大圣,您的金箍棒就棒在特别配您的头型!'); console.log(result); //[ '大圣', ',', '您', '的', '金箍', '棒就棒在', '特别', '配', '您', '的', '头型', '!' ]
除了分詞以外,我們可以利用nodejieba 提取關鍵字:
const content = `
HTTP、HTTP/2與效能最佳化
#本文的目的是透過比較告訴大家,為什麼應該從HTTP遷移到HTTPS,以及為什麼應該加入HTTP/2的支援。在比較HTTP和HTTP/2之前,先來看看什麼是HTTP。
什麼是HTTP
HTTP是在萬維網路上通訊的一組規則。 HTTP屬於應用層協議,跑在TCP/IP層之上。當使用者透過瀏覽器請求網頁時,HTTP負責處理請求並在Web伺服器與客戶端之間建立連線。
有了HTTP/2,不使用雪碧圖、壓縮、拼接,也可以提升效能。然而,這不代表不應該使用這些技術。不過這已經清楚顯示了我們從HTTP/1.1移動到HTTP/2的必要性。
`;
const nodejieba = require("nodejieba"); const result = nodejieba.extract(content, 20); console.log(result);
輸出的結果類似下面這樣:
[ { word: 'HTTP', weight: 140.8704516850025 }, { word: '请求', weight: 14.23018001394 }, { word: '应该', weight: 14.052171126120001 }, { word: '万维网', weight: 12.2912397395 }, { word: 'TCP', weight: 11.739204307083542 }, { word: '1.1', weight: 11.739204307083542 }, { word: 'Web', weight: 11.739204307083542 }, { word: '雪碧图', weight: 11.739204307083542 }, { word: 'HTTPS', weight: 11.739204307083542 }, { word: 'IP', weight: 11.739204307083542 }, { word: '应用层', weight: 11.2616203224 }, { word: '客户端', weight: 11.1926274509 }, { word: '浏览器', weight: 10.8561552143 }, { word: '拼接', weight: 9.85762638414 }, { word: '比较', weight: 9.5435285574 }, { word: '网页', weight: 9.53122979951 }, { word: '服务器', weight: 9.41204128224 }, { word: '使用', weight: 9.03259988558 }, { word: '必要性', weight: 8.81927328699 }, { word: '添加', weight: 8.0484751722 } ]
我們加入一些新的關鍵字到字典裡:
效能
HTTP/2
輸出結果如下:
[ { word: 'HTTP', weight: 105.65283876375187 }, { word: 'HTTP/2', weight: 58.69602153541771 }, { word: '请求', weight: 14.23018001394 }, { word: '应该', weight: 14.052171126120001 }, { word: '性能', weight: 12.61259281884 }, { word: '万维网', weight: 12.2912397395 }, { word: 'IP', weight: 11.739204307083542 }, { word: 'HTTPS', weight: 11.739204307083542 }, { word: '1.1', weight: 11.739204307083542 }, { word: 'TCP', weight: 11.739204307083542 }, { word: 'Web', weight: 11.739204307083542 }, { word: '雪碧图', weight: 11.739204307083542 }, { word: '应用层', weight: 11.2616203224 }, { word: '客户端', weight: 11.1926274509 }, { word: '浏览器', weight: 10.8561552143 }, { word: '拼接', weight: 9.85762638414 }, { word: '比较', weight: 9.5435285574 }, { word: '网页', weight: 9.53122979951 }, { word: '服务器', weight: 9.41204128224 }, { word: '使用', weight: 9.03259988558 } ]
在這個基礎上,我們採用白名單的方式過濾出一些可以作為tag 的字:
const content = `
HTTP、HTTP/2與效能最佳化
本文的目的是透過比較告訴大家,為什麼應該從HTTP遷移到HTTPS,以及為什麼應該加入到HTTP/2的支援。在比較HTTP和HTTP/2之前,先來看看什麼是HTTP。
什麼是HTTP
HTTP是在萬維網路上通訊的一組規則。 HTTP屬於應用層協議,跑在TCP/IP層之上。當使用者透過瀏覽器請求網頁時,HTTP負責處理請求並在Web伺服器與客戶端之間建立連線。
有了HTTP/2,不使用雪碧圖、壓縮、拼接,也可以提升效能。然而,這不代表不應該使用這些技術。不過這已經清楚顯示了我們從HTTP/1.1移動到HTTP/2的必要性。
`;
const nodejieba = require("nodejieba"); nodejieba.load({ userDict: './user.utf8', }); const result = nodejieba.extract(content, 20); const tagList = ['HTTPS', 'HTTP', 'HTTP/2', 'Web', '浏览器', '性能']; console.log(result.filter(item => tagList.indexOf(item.word) >= 0));
最後得到:
[ { word: 'HTTP', weight: 105.65283876375187 }, { word: 'HTTP/2', weight: 58.69602153541771 }, { word: '性能', weight: 12.61259281884 }, { word: 'HTTPS', weight: 11.739204307083542 }, { word: 'Web', weight: 11.739204307083542 }, { word: '浏览器', weight: 10.8561552143 } ]
這就是我們想要的結果。
以上就是分詞庫 nodejieba 基本的使用方法,在將來我們可以利用它對眾成翻譯發布的譯文自動分析添加相應的 tag,以為各位譯者和讀者提供更好的用戶體驗。
以上是如何使用Node.js對文字內容分詞以及關鍵字抽取的詳解的詳細內容。更多資訊請關注PHP中文網其他相關文章!

JavaScript是現代網站的核心,因為它增強了網頁的交互性和動態性。 1)它允許在不刷新頁面的情況下改變內容,2)通過DOMAPI操作網頁,3)支持複雜的交互效果如動畫和拖放,4)優化性能和最佳實踐提高用戶體驗。

C 和JavaScript通過WebAssembly實現互操作性。 1)C 代碼編譯成WebAssembly模塊,引入到JavaScript環境中,增強計算能力。 2)在遊戲開發中,C 處理物理引擎和圖形渲染,JavaScript負責遊戲邏輯和用戶界面。

JavaScript在網站、移動應用、桌面應用和服務器端編程中均有廣泛應用。 1)在網站開發中,JavaScript與HTML、CSS一起操作DOM,實現動態效果,並支持如jQuery、React等框架。 2)通過ReactNative和Ionic,JavaScript用於開發跨平台移動應用。 3)Electron框架使JavaScript能構建桌面應用。 4)Node.js讓JavaScript在服務器端運行,支持高並發請求。

Python更適合數據科學和自動化,JavaScript更適合前端和全棧開發。 1.Python在數據科學和機器學習中表現出色,使用NumPy、Pandas等庫進行數據處理和建模。 2.Python在自動化和腳本編寫方面簡潔高效。 3.JavaScript在前端開發中不可或缺,用於構建動態網頁和單頁面應用。 4.JavaScript通過Node.js在後端開發中發揮作用,支持全棧開發。

C和C 在JavaScript引擎中扮演了至关重要的角色,主要用于实现解释器和JIT编译器。1)C 用于解析JavaScript源码并生成抽象语法树。2)C 负责生成和执行字节码。3)C 实现JIT编译器,在运行时优化和编译热点代码,显著提高JavaScript的执行效率。

JavaScript在現實世界中的應用包括前端和後端開發。 1)通過構建TODO列表應用展示前端應用,涉及DOM操作和事件處理。 2)通過Node.js和Express構建RESTfulAPI展示後端應用。

JavaScript在Web開發中的主要用途包括客戶端交互、表單驗證和異步通信。 1)通過DOM操作實現動態內容更新和用戶交互;2)在用戶提交數據前進行客戶端驗證,提高用戶體驗;3)通過AJAX技術實現與服務器的無刷新通信。

理解JavaScript引擎內部工作原理對開發者重要,因為它能幫助編寫更高效的代碼並理解性能瓶頸和優化策略。 1)引擎的工作流程包括解析、編譯和執行三個階段;2)執行過程中,引擎會進行動態優化,如內聯緩存和隱藏類;3)最佳實踐包括避免全局變量、優化循環、使用const和let,以及避免過度使用閉包。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

記事本++7.3.1
好用且免費的程式碼編輯器

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),