現在泥棒プログラムに取り組んでおり、iconv 関数を使用して、キャプチャした utf-8 でエンコードされたページを gb2312 に変換する必要があります。
iconv 関数を使用してキャプチャしたデータをトランスコードすると、理由もなくデータが少なくなることがわかりました。
このことでしばらく落ち込んでいましたが、ネットで情報を調べたところ、これは iconv 関数のバグであることがわかりました。 iconv は文字「—」を gb2312 phperz.com に変換するときにエラーになります
解決策は非常に簡単です。次のように、変換する必要があるエンコーディングの後に「//IGNORE」を追加します。これは iconv 関数の 2 番目のパラメーターです。
以下、引用内容です
iconv("UTF-8","GB2312//IGNORE",$data)
Ignore は、変換中にエラーを無視することを意味します。ignore パラメータを指定しないと、この文字に続くすべての文字列を保存できません。