ホームページ  >  記事  >  バックエンド開発  >  PHP simple_html_dom.php+通常記事コード集_PHPチュートリアル

PHP simple_html_dom.php+通常記事コード集_PHPチュートリアル

WBOY
WBOYオリジナル
2016-07-21 15:41:53809ブラウズ

コードをコピーします コードは次のとおりです:

//PHP Simple html Dom クラス ライブラリ ファイルをインクルードします
include_once('./simplehtmldom/simple_html_dom.php');

// HTML を収集する
関数 getwebcontent($url){
$ch =curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt( $ch, CURLOPT_CONNECTTIMEOUT , $timeout);
curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
return $contents; //タイトルと URL を取得
$string =
getwebcontent('http://www.babytree.com/learn/zhunbeihuaiyun/jijibeiyun/2');
//通常のマッチング
  • タイトルとアドレスを取得
    preg_match_all ( "/< li>(.*)/",
    $string, $out,

    foreach(); $out as $key => $value){
    $article['title'][] = $out[$key][2] = "http://www .babytree.com /learn/article/".$out[$key][1];
    }

    //url
    foreach($article['link'] as $key=>$)に基づいて記事のコンテンツを取得します値){
    $ html = file_get_html($value);
    $div = $html->find('div[id=pagenum_0]');
    $article[content][] = $div[0]-> ;innertext;
    }
    //タイトルを変換します---実際に使用するときはこの手順は必要ありません--元々 utf8 を使用する必要があるためです
    //実際にはトランスコードしないとファイルとして保存できません
    foreach($article[title] as $key= >$value){
    $article[title][$key] = iconv('utf-8', 'gbk', $value);//トランスコーディング
    }
    //ファイルに保存
    $num = count ($article['title']);
    for($i=0; $ifile_put_contents("{$article[title][ $i]}.txt", $article[ 'content'][$i]);
    }

    /*本当は12時までに送信したかったのですが。 。でも、見下ろせばもう3時半。 。 。 昨日のことだとしても、
    本来、記事の内容を取得するには正規表現を使うのが一番早い方法です
    正規表現は良いのですが、正規表現は本当に難しいです!そこで調べてみたところ、
    ネット上ではPHP Simple Domを使っている人も多いようですが、効率は少し落ちるものの、それでも効果は十分です
    クラスライブラリファイルのインクルードからtxtファイルの作成までにかかる時間は約1時間です。 7/8 秒で、さらに最適化するため、特に記事のコンテンツを取得するための通常のルールがあまりにも不快です
    少し調べてください*/
    ?>



    http://www.bkjia.com/PHPjc/321084.html

    www.bkjia.com

    tru​​e

    http://www.bkjia.com/PHPjc/321084.html
  • 技術記事

    次のようにコードをコピーします。 ?php //PHP Simple HTML Dom クラス ライブラリ ファイルを含める include_once('./simplehtmldom/simple_html_dom.php') //HTML 関数を収集 getwebcontent($url){ $ch =curl_...
    声明:
    この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。