文字標註工作是將標籤或標記與文字中特定內容相對應的工作。其主要目的是為文本提供額外的信息,以便進行更深入的分析和處理,尤其是在人工智慧領域。
文字標註對於人工智慧應用中的監督機器學習任務至關重要。用於訓練AI模型,有助於更準確地理解自然語言文本訊息,並提高文本分類、情緒分析和語言翻譯等任務的表現。透過文本標註,我們可以教導AI模型識別文本中的實體、理解上下文,並在出現新的類似數據時做出準確的預測。
本文主要推薦一些較好的開源文字標註工具。
1.Label Studio
https://github.com/HumanSignal/label-studio
Label Studio是一個開源的資料標註工具,能夠處理多種資料類型並支援匯出為多種模型格式。它被廣泛應用於準備原始數據或改進現有的訓練數據,以提高機器學習模型的準確性。
2.Doccano
https://github.com/doccano/doccano
Doccano是一個開源文字標註工具,提供文字分類、序列標記和序列任務的功能。它支援文字標註團隊協作、多語言、行動應用程式、表情符號、深色主題和REST風格的API。可以使用Docker和Docker Compose安裝。
3.Universal Data Tool
https://github.com/UniversalDataTool/universal-data-tool
#Universal Data Tool是一個用於編輯和註釋各種類型的資料(包括圖像、文字、音訊和文件)的多功能應用程式。它支援廣泛的資料類型,並提供即時協作、易於使用的GUI、為文字標註人員創建培訓課程等功能。該工具可以在網路上使用,也可以作為桌面應用程式使用,並支援CSV或JSON格式的資料下載和上傳。
4.YEDDA
https://github.com/jiesutd/YEDDA
YEDDA是一個可以用於各種語言、符號和表情符號的文字標註工具。它支援使用快捷方式、命令模型,並將標註文字匯出為序列文字。支援智慧推薦和管理員分析等功能。
YEDDA相容於所有主流作業系統,包括Windows、Linux和MacOS。
5.Argilla
https://github.com/argilla-io/argilla
Argilla是個面向人工智慧工程師和領域專家的開源資料協作平台,提供高品質、高效率的資料輸出。
它有助於控制資料品質並提高AI輸出質量,並透過實現資料和模型的快速迭代來提高效率。 Argilla也提供了資料管理和模型訓練工具。
6.KernAI Refinery
https://github.com/code-kern-ai/refinery
Refinery是KernAI的一個開源平台,專為處理自然語言資料的資料科學家設計。它提供半自動化資料標註、資料子集品質評估和集中資料監控等功能,旨在提高人工標記效率。
該工具利用Hugging Face和spaCy等技術建立預建語言模型,並與其他標籤工具集成,以實現靈活的資料處理。
功能特徵:
- NLP任務的(半)自動化標籤工作流程
- 手動和程式化分類以及跨度標籤
- 支援與最先進的庫和框架整合
- 建立和管理查找表/知識庫
- 基於神經搜尋的相似記錄和離群值檢索
- 可切片標籤會話
- 每個專案多個標籤任務
- 豐富的自動化庫
- #廣泛的資料管理和監控
- 與Hugging Face集成,用於自動建立嵌入
- 基於JSON的資料模型用於資料上傳/下載
- 專案指標概述
- 透過Python SDK存取和擴充資料
- 在位屬性修改
- 託管版本中的團隊協作
- 面向多個使用者的基於角色的存取和最小化的標籤視圖
- 整合群組標籤工作流程
- 自動計算註釋者之間的協
7.Recogito.js
#https://github.com/recogito/recogito-js
ApplitoJS是一個用於文字註解的JavaScript函式庫,用於為網頁新增文字標註功能或建立自訂文字標註程式。可以透過npm或下載最新版本來安裝。
8.Label Sleuth
https://github.com/label-sleuth/label-sleuth
Label Sleuth是用於文字標註和分類的開源、無程式碼系統。它使醫生、律師、心理學家等領域的專家也能夠在沒有NLP專家配合的情況下建立自訂NLP模型。
通常NLP模型創建需要領域和機器學習專業知識。 Label Sleuth透過直覺的文本標註和AI模型構建,繞過了對NLP專業知識的要求。當使用者在標註資料時,機器學習模型會在後台進行訓練,進行預測並建議下一步標記什麼。
作為一個無程式碼系統,它不需要機器學習知識,並允許快速開發模型,從任務定義到完成模型只需幾個小時。
9.Markup
https://github.com/samueldobbie/markup
Markup是一種線上標註工具,可用於將非結構化文件轉換為NLP和ML任務的結構化格式,例如:實體識別。在您標註時進行同步學習,以預測和推薦更為複雜的標註,並且還提供對用於概念映射的通用和自訂本體的整合存取。
功能特徵:
- 預測性註釋:Markup的機器學習驅動的預測性標註功能,可在您工作時推薦更複雜的標註,使標註的過程更加高效。
- 集成本體存取標記:提供了對廣泛的通用本體(例如UMLS、SNOMED-CT、ICD-10)的整合訪問,以及上傳自訂本體的能力,用於概念映射。
- 預測性本體映射:Markup的預測性本體映射功能使用機器學習,根據您正在標註的文本,推薦到標準和自訂術語的適當映射。
- 友善的使用者介面:無論您是技術專家還是初學者,標記的使用者友善的介面使任何人都可以輕鬆地以最小的設定開始註釋文件。
10.Potato
https://github.com/davidjurgens/potato
Potato是一個基於Web的文字標註工具,支援快速設定和部署各種文字標註任務。可以作為Web伺服器運行,由單一設定檔驅動,不需要啟動編碼。但Potato很容易自訂,通常不需要額外的網頁設計,就可以調整文字標註人員的操作介面。
關鍵特徵:
- 易於設定和自訂
- 廣泛的內建模式和範本
- 支援多種資料類型
- #支援多任務設定
- 透過鍵盤快速鍵、動態高亮顯示和標籤工具提示等功能提高標註效率
- 更了解註釋者的功能,例如篩選前和篩選後的問題
- 品質控制功能,如注意力測試、資格測試和內建時間檢查
以上是十個推薦開源免費文字標註工具的詳細內容。更多資訊請關注PHP中文網其他相關文章!

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3漢化版
中文版,非常好用

WebStorm Mac版
好用的JavaScript開發工具