首頁  >  文章  >  後端開發  >  javascript - 請教一個火車頭採集器可用的純正規則!

javascript - 請教一個火車頭採集器可用的純正規則!

WBOY
WBOY原創
2016-08-04 09:19:311765瀏覽

情況是這樣的最近在用火車頭採集的目標來源網站發覺對方的網站有些文章的標題前面有一些特殊符號!
這些特殊符號在標題中有的顯示例如:❤♨等等等~~

有的不會顯示如圖1 圖2!
javascript - 請教一個火車頭採集器可用的純正規則!

javascript - 請教一個火車頭採集器可用的純正規則!

那些標題上能顯示的還沒事兒~~如圖1圖2上不顯示的會出現問題就是免登陸發布文章以後沒有標題了! ! !

那個符號還不是一個兩個!使用替換功能替換只能替換掉目前標題的符號,換個標題就替換不掉了,前後也沒有任何參考也不能用截取的方法~

這個事兒很困擾我!總不能採集文章每個都看看吧!挺煩人的這個事兒! !所以來求助來了!

我試了很多方法都不行!前天意外接觸到純正則,發覺這個可以去掉!
但是剛接觸這個東西還不會寫啊!所以來求助來了!

我的想法是用純正則替換掉第一個雙節字符~~或替換掉第一個漢字前面的雙節字符! !

因為不知道火車頭支援什麼樣的純正則!目標我所知道的只有這類[u4e00-u9fa5a-zA-Z]

請會的大神不吝賜教!感激不盡!

回覆內容:

情況是這樣的最近在用火車頭採集的目標來源網站發覺對方的網站有些文章的標題前面有一些特殊符號!
這些特殊符號在標題中有的顯示例如:❤♨等等等~~

有的不會顯示如圖1 圖2!
javascript - 請教一個火車頭採集器可用的純正規則!

javascript - 請教一個火車頭採集器可用的純正規則!

那些標題上能顯示的還沒事兒~~如圖1圖2上不顯示的會出現問題就是免登陸發布文章以後沒有標題了! ! !

那個符號還不是一個兩個!使用替換功能替換只能替換掉目前標題的符號,換個標題就替換不掉了,前後也沒有任何參考也不能用截取的方法~

這個事兒很困擾我!總不能採集文章每個都看看吧!挺煩人的這個事兒! !所以來求助來了!

我試了很多方法都不行!前天意外接觸到純正則,發覺這個可以去掉!
但是剛接觸這個東西還不會寫啊!所以來求助來了!

我的想法是用純正則替換掉第一個雙節字符~~或替換掉第一個漢字前面的雙節字符! !

因為不知道火車頭支援什麼樣的純正則!目標我所知道的只有這類[u4e00-u9fa5a-zA-Z]

請會的大神不吝賜教!感激不盡!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn