ASP.NET中HTML文字擷取方法 在ASP.NET中處理HTML資料時,常常需要移除HTML標籤以擷取純文字內容。本文介紹幾種常用的文本擷取技術,包括: 基於正規表示式的方案 此方案利用正規表示式高效去除HTML標籤。透過取代所有HTML標籤模式(例如,以開頭的標籤),實現文字擷取。 規範化與清理 移除標籤後,需要進一步處理以規範化字串。多個空格字元將替換為單一空格,並移除開頭和結尾的空格。如有需要,也可以將HTML字元實體轉換回實際字元。 局限性 此方法雖然可靠,但也有其限制。 HTML和XML允許在屬性值中使用>字元。如果存在此類值,則此方案可能會傳回損壞的標記。 最佳實務 雖然正規表示式方法可以快速有效地提取文本,但它並非完美方案。為了獲得更準確可靠的結果,建議使用適當的HTML解析器。 範例: string html = "- Hello"; string text = Regex.Replace(html, @"<[^>]+>", ""); //去除HTML标签 text = Regex.Replace(text, @"\s+", " "); //将多个空格替换为单个空格 text = text.Trim(); //去除开头和结尾的空格 這段程式碼將從HTML字串中擷取文字「Hello」。