ホームページ  >  記事  >  バックエンド開発  >  取得した大量のhtmlデータを処理する

取得した大量のhtmlデータを処理する

WBOY
WBOYオリジナル
2016-06-13 12:08:20817ブラウズ

取得した大量のHTMLデータ
を処理して、3万文字程度の大量のHTMLデータを取得します。ただし、最初の数単語は役に立たず、最後の数千文字だけが役に立つので、そこからデータを抽出したいと考えています。正規表現を直接使用して処理すると、多くのリソースが無駄になります。正規表現を文字列の末尾から開始し、特定の位置に到達したときに停止する方法はありますか。
simple_html_dom クラスを使って対処しようとしたのですが、行き詰まってしまいました...
アクセスするものが必ずしも長いか短いとは限らないため、直接インターセプトする良い方法ではありません固定文字数。

-----解決策のアイデア----------------------
正確ではないので必要なコンテンツをどこから始めれば、リソースを無駄にする問題はありません
-----ソリューションのアイデア------ - ---
Get html
file_get_contents
curl

HTML を定期的に解析して、目的のテキストを取得します。
------解決策----------------------
良い解決策はありません。フィルター データは定期的に照合するか、使用するクラスを使用する必要があります。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。