首頁 >web前端 >html教學 >web文本資料清洗流程及實例 (實例代碼)

web文本資料清洗流程及實例 (實例代碼)

云罗郡主
云罗郡主轉載
2018-10-17 14:41:443897瀏覽

本篇文章帶給大家的內容是關於web文本資料清洗流程及實例 (實例程式碼),有一定的參考價值,有需要的朋友可以參考一下,希望對你有幫助。

今天,超過80%的資料是非結構化的。文字資料預處理是資料分析前的必經之路。大多數可用的文字資料本質上是高度非結構化和嘈雜的,需要更好的見解或建立更好的演算法來處理資料。

我們知道,社群媒體資料是高度非結構化的,因其非正式的交流,存在包括拼字錯誤、文法不好、俚語的使用、諸如URL、停用詞、表達式等不必要內容。

一個典型的商業問題,假設你感興趣的是:這是iPhone在粉絲中更受歡迎的特質。下面你已經提取了與iPhone相關的消費者意見的一條推特:

下面對這條推特做文字預處理:

1、去掉HTML 字元:    

從Web取得的資料通常包含許多HTML實體,如lt;& gt;& &;它嵌入到原始資料中。因此,必須擺脫這些實體。一種方法是透過使用特定的正規表示式直接刪除它們。另一種方法是使用適當的套件和模組(例如Python的HTMLPARSER),它可以將這些實體轉換成標準的HTML標記。例如:& lt;轉換為“

         web文本資料清洗流程及實例 (實例代碼)

2、解碼資料:

這是將資訊從複雜符號轉換為簡單易懂字元的過程。文字資料可能會受到不同形式的解碼,如“拉丁語”、“UTF8”等。因此,為了更好地分析,有必要保持完整的資料以標準的編碼格式。 UTF-8編碼被廣泛接受並推薦使用。

       web文本資料清洗流程及實例 (實例代碼)

3、撇號找出:為了避免文本中的任何字詞義消歧,建議在文章中保持適當的結構,並遵守上下文無關文法的規則。當使用撇號時,消歧的機會增加。

For example “it’s is a contraction for it is or it has”.

所有撇號都應該轉換成標準字典。可以使用所有可能的關鍵字的查找表來消除歧義。

       web文本資料清洗流程及實例 (實例代碼)

4、停用詞的移除:當資料分析需要在字級上進行資料驅動時,應刪除通常出現的單字(停用詞)。透過創建的一個長長的停止詞列表,或者可以使用預先定義的語言特定的庫。

5、刪除標點符號:所有的標點符號應依照優先權來處理。例如:“,”,“,”,“?”“重要標點應該保留,而其他標點需要刪除。

6、刪除表達式:文字資料(通常是語音轉錄)可能包含人類的表達,如[笑],[哭],[觀眾暫停]。這些表達式通常與語音內容無關,因此需要刪除。在這種情況下,簡單正則表達式可能是有用的。

7 、分裂的附加詞:人在社交論壇中的生成文本數據,本質上是完全非正式的。大多數推文伴隨著多個附加詞,例如RayyDay. PrimeCythOrth.等,這些實體可以用簡單的規則和正規表示式分裂成它們的正常形式.

8、俚語查找:同樣,社交媒體包括大多數俚語詞彙。這些詞應該轉換成標準詞來製作自由文本。像LUV這樣的詞將被轉換成愛,Helo到Hello。撇號查找的類似方法可以用來將俚語轉換成標準詞。網上有大量的信息源,它提供了所有可能的俚語的列表,可以用它們作為查找字典來進行轉換。

9、規範字:有時字的格式不正確。例如:「I looooveee you」應為「I love you」。簡單的規則和正規表示式可以幫助解決這些情況。

10、刪除URL:應刪除文字資料中的URL和超鏈接,如評論、評論和推文。

以上就是對web文本資料清洗流程及實例(實例代碼)的全部介紹,如果您想了解更多有關HTML視頻教程,請關注PHP中文網。

 

以上是web文本資料清洗流程及實例 (實例代碼)的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:csdn.net。如有侵權,請聯絡admin@php.cn刪除