文字化けしたコードを収集するためのソリューション


コード化けの問題は数多くあり、その解決方法は状況によって異なりますので、以下のコード化けの解決方法は参考程度にしてください。

1. QueryList の組み込み文字化け解決策を使用します。

Query メソッド:

QueryList::Query(収集対象ページ、収集ルール [、領域セレクター] [、出力エンコーディング] [、入力エンコーディング] [、ヘッダーを削除するかどうか])

1. 入出力エンコーディングの設定

$html =<<<STR
<div>
   <p>这是内容</p>
</div>
STR;
$rule = array(
   'content' => array('div>p:last','text')
);
$data = QueryList::Query($html,$rule,'','UTF-8','GB2312',true)->data;

2. 入力および出力のエンコーディングを設定し、最後のパラメーターを true に設定します。
入力パラメーターと出力パラメーターを設定してもコード化けを解決できない場合は、最後のパラメーターを true に設定します (ヘッダーを削除します)

$html =<<<STR
<div>
   <p>这是内容</p>
</div>
STR;
$rule = array(
   'content' => array('div>p:last','text')
);
$data = QueryList::Query($html,$rule,'','UTF-8','GB2312',true)->data;

2. QueryList フォーラム [文字化けコード] 関連トピックの解決策を確認します。

文字化けコード: http://querylist.cc/search/q -5Lmx56CB#all

3. ページを自分で手動でトランスコードし、そのページを QueryList

$html =<<<STR
<div>
    <p>这是内容</p>
</div>
STR;
$rule = array(
    'content' => array('div>p:last','text')
);
$data = QueryList::Query($html,$rule,'','UTF-8','GB2312',true)->data;
に渡します。