取得した大量のHTMLデータ
を処理して、3万文字程度の大量のHTMLデータを取得します。ただし、最初の数単語は役に立たず、最後の数千文字だけが役に立つので、そこからデータを抽出したいと考えています。正規表現を直接使用して処理すると、多くのリソースが無駄になります。正規表現を文字列の末尾から開始し、特定の位置に到達したときに停止する方法はありますか。
simple_html_dom クラスを使って対処しようとしたのですが、行き詰まってしまいました...
アクセスするものが必ずしも長いか短いとは限らないため、直接インターセプトする良い方法ではありません固定文字数。
-----解決策のアイデア----------------------
正確ではないので必要なコンテンツをどこから始めれば、リソースを無駄にする問題はありません
-----ソリューションのアイデア------ - ---
Get html
file_get_contents
curl
HTML を定期的に解析して、目的のテキストを取得します。
------解決策----------------------
良い解決策はありません。フィルター データは定期的に照合するか、使用するクラスを使用する必要があります。