コードをコピー コードは次のとおりです:
//PHP シンプル HTML Dom クラス ライブラリ ファイルをインクルード
include_once ('./simplehtmldom/simple_html_dom.php');
//HTML を収集
function getwebcontent($url){
$ch =curl_init(); = 10;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); ch, CURLOPT_FOLLOWLOCATION , 1);
$contents = trim(curl_exec($ch));
return
}
// タイトルと URL を取得します
$string =
getwebcontent('http://www.babytree.com/learn/zhunbeihuaiyun/jijibeiyun/2');
//通常のマッチング
preg_match_all ("/
$ string, $out , PREG_SET_ORDER);
foreach($out as $key => $value){
$article['title'][] = $out[$key][2] ;
$article['link'][] = "http://www.babytree.com/learn/article/".$out[$key][1];
}
// URL に従って記事の内容を取得します
foreach($article['link'] as $key=>$value){
$html = file_get_html($value);
$div = $ html->find ('div[id=pagenum_0]');
$article[content][] = $div[0]->innertext;
}
//タイトルのトランスコーディング-- -実際に使用 このステップは現時点では必要ありません - そもそも utf8 を使用する必要があるためです
//実際にはトランスコーディングせずにファイルとして保存することはできません
foreach($article[title] as $key=>$value){
$article[title][$key] = iconv('utf-8', 'gbk', $value);//トランスコーディング
}
//ファイルに保存
$num = count ($article['title']);
for($i=0; $ifile_put_contents("{$article[ title][$i]}.txt" , $article['content'][$i]);
}
/*本当は12時前に投稿したかったのですが。 。でも見てください、もう3時半です。 。 。 昨日のことだとしても
本来、記事の内容を取得するには正規表現を使うのが一番早くて良い方法です
しかし、正規表現は良いのですが、正規表現は本当に難しいです。そこで少し調べてみたところ、
インターネット上の多くの人が PHP Simple Dom を使用していることもわかりました。効率は少し遅くなりますが、それでも効果は良好です。
クラス ライブラリを含めるのに約 7/8 かかります。ファイルを txt ファイルに書き込むまでの秒数は、特に記事のコンテンツを取得するための通常のルールに使用できます。
少し調べてください*/
?>

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

ホットトピック









