我們把這兩個函數封裝到一個FileReaderWriter.java檔案中以便後續使用。
接著我們回到知乎爬蟲。
我們需要為知乎的Zhihu封裝類別加個函數,用來格式化寫入到本地時的排版。
程式碼如下:
public String writeString() { String result = ""; result += "问题:" + question + "\r\n"; result += "描述:" + questionDescription + "\r\n"; result += "链接:" + zhihuUrl + "\r\n"; for (int i = 0; i < answers.size(); i++) { result += "回答" + i + ":" + answers.get(i) + "\r\n"; } result += "\r\n\r\n"; return result; }
OK,這樣就差不多了,接下來吧mian方法中的System.out.println改成
程式碼如下:
// 写入本地 for (Zhihu zhihu : myZhihu) { FileReaderWriter.writeIntoFile(zhihu.writeString(), "D:/知乎_编辑推荐.txt", true); }
運行,便可以看到本來在控制台看到的內容已經被寫到本地的txt檔案裡:
大體一看沒什麼問題,仔細看看發現問題:存在太多的html標籤,主要是和
。
我們可以在輸出的時候對這些標記進行處理。
先把
換成io流裡面的rn,再把所有的html標籤都刪除,這樣看起來會清晰很多。
程式碼如下:
public String writeString() { // 拼接写入本地的字符串 String result = ""; result += "问题:" + question + "\r\n"; result += "描述:" + questionDescription + "\r\n"; result += "链接:" + zhihuUrl + "\r\n"; for (int i = 0; i < answers.size(); i++) { result += "回答" + i + ":" + answers.get(i) + "\r\n\r\n"; } result += "\r\n\r\n\r\n\r\n"; // 将其中的html标签进行筛选 result = result.replaceAll("<br>", "\r\n"); result = result.replaceAll("<.*?>", ""); return result; }
這裡的replaceAll函數可以用正規則,於是所有的標籤在最後就都被刪除了。
以上就是零基礎寫Java知乎爬蟲之將抓取的內容儲存到本地(2)的內容,更多相關內容請關注PHP中文網(www.php.cn)!

JVM通過字節碼解釋、平台無關的API和動態類加載實現Java的WORA特性:1.字節碼被解釋為機器碼,確保跨平台運行;2.標準API抽像操作系統差異;3.類在運行時動態加載,保證一致性。

Java的最新版本通過JVM優化、標準庫改進和第三方庫支持有效解決平台特定問題。 1)JVM優化,如Java11的ZGC提升了垃圾回收性能。 2)標準庫改進,如Java9的模塊系統減少平台相關問題。 3)第三方庫提供平台優化版本,如OpenCV。

JVM的字節碼驗證過程包括四個關鍵步驟:1)檢查類文件格式是否符合規範,2)驗證字節碼指令的有效性和正確性,3)進行數據流分析確保類型安全,4)平衡驗證的徹底性與性能。通過這些步驟,JVM確保只有安全、正確的字節碼被執行,從而保護程序的完整性和安全性。

Java'splatFormIndepentEncealLowsApplicationStorunonAnyOperatingsystemwithajvm.1)singleCodeBase:writeandeandcompileonceforallplatforms.2)easileupdates:updatebybytecodeforsimultanane deployment.3)testOnOneOnePlatForforurouniverSalpeforuluniverSalpehavior formafforulululyiversalivernave.444.44.444

Java的平台獨立性通過JVM、JIT編譯、標準化、泛型、lambda表達式和ProjectPanama等技術不斷增強。自1990年代以來,Java從基本的JVM演進到高性能的現代JVM,確保了代碼在不同平台的一致性和高效性。

Java如何緩解平台特定的問題? Java通過JVM和標準庫來實現平台無關性。 1)使用字節碼和JVM抽像操作系統差異;2)標準庫提供跨平台API,如Paths類處理文件路徑,Charset類處理字符編碼;3)實際項目中使用配置文件和多平台測試來優化和調試。

java'splatformentenceenhancesenhancesmicroservicesharchitecture byferingDeploymentFlexible,一致性,可伸縮性和便攜性。 1)DeploymentFlexibilityAllowsibilityAllowsOllowsOllowSorlowsOllowsOllowsOllowSeStorunonAnyPlatformwithajvM.2)penterencyCrossServAccAcrossServAcrossServiCessImplifififiesDeevelopmentandeDe

GraalVM通過三種方式增強了Java的平台獨立性:1.跨語言互操作,允許Java與其他語言無縫互操作;2.獨立的運行時環境,通過GraalVMNativeImage將Java程序編譯成本地可執行文件;3.性能優化,Graal編譯器生成高效的機器碼,提升Java程序的性能和一致性。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

記事本++7.3.1
好用且免費的程式碼編輯器

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Dreamweaver CS6
視覺化網頁開發工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。