Maison  >  Article  >  développement back-end  >  Présentez brièvement la méthode de production de documents XML à protocole ouvert de Baidu News

Présentez brièvement la méthode de production de documents XML à protocole ouvert de Baidu News

黄舟
黄舟original
2017-03-14 16:06:162224parcourir

Aperçu du protocole ouvert L’utilisation de ce protocole ouvert apportera plus de trafic vers votre site Web ! "Internet News Open Protocol" est une norme d'inclusion de sources d'actualités de moteur de recherche index formulée par Baidu News Recherche Les sites Web peuvent produire du contenu d'actualités publié au format XML qui suit ce protocole ouvert. Les pages Web au format (indépendant du format original du communiqué de presse) sont fournies pour l'indexation des moteurs de recherche, et les informations d'actualité publiées par le site Web sont automatiquement et en temps opportun Aperçu du protocole ouvert
L'utilisation de ce protocole ouvert apportera plus de trafic vers votre site Web !
Le « Internet News Open Protocol » est la norme d'inclusion des sources d'informations des moteurs de recherche formulée par Baidu News Search, le site Web peut produire le contenu d'actualité publié dans une page Web au format XML qui suit ce protocole ouvert (indépendant du formulaire de communiqué de presse d'origine) pour l'indexation des moteurs de recherche, et informer activement et en temps opportun le moteur de recherche Baidu des informations d'actualité publiées par le site Web. .
L'adoption du « Internet News Open Protocol » équivaut à l'abonnement des moteurs de recherche aux informations du site Web. Grâce à la plateforme de Baidu, le plus grand moteur de recherche chinois au monde, les internautes pourront y accéder dans un éventail plus large et plus large. plus fréquemment. Actualités sur votre site Web, apportant ainsi du trafic potentiel vers votre site Web.
Le protocole ouvert est très simple. Vous pouvez l'utiliser facilement avec notre aide. Contenu de l'accord ouvert
L'image ci-dessous montre une page Web au format XML produite conformément à l'« Accord ouvert sur les actualités Internet ». La page Web répertorie les informations pertinentes sur les actualités publiées par le site Web dans un format standard.
Exemple de page Web XML :
Présentez brièvement la méthode de production de documents XML à protocole ouvert de Baidu News
Description de la balise XML : Celles marquées d'un astérisque sont obligatoires, et celles marquées sans astérisque sont facultatives. .
*cda14e2a0e0fb84f90a700c41ccf0327 - marque le début et la fin de l'intégralité du contenu du fichier XML.
*6d88e32f12c595d0a92c0477538a6c33——adresse du site.
*f23cbc012a16cf9c5773f9cfa7d6c5ad——Email du responsable. Nous vous contacterons à cette adresse si nécessaire.
*a5fcace7c976e279954e0cbdb65fdd95——mise à jour période, en minutes. Les moteurs de recherche suivront ce cycle pour accéder à la page, afin que les actualités de la page apparaissent plus rapidement dans Baidu News.
*5083cbefc9e5095dae6431462e2af988——Marquez le début et la fin de chaque actualité. La marque contient des informations d'actualité uniques, à l'exclusion des sujets d'actualité.
*b2386ffb911b14667cb8f0f91ea547a7——Titre de l'actualité.
*2cdf5bf648cf2f33323966d7f58a7f3f - Adresse URL d'actualité, correspondant à un seul article d'actualité ; s'il existe plusieurs URL d'actualité dans la pagination , elle équivaut à plusieurs articles d'actualité.
8b55addfb40ddf4a384b1010d729e503——Contenu de l'actualité Introduction.
*28f128881ce1cdc57a572953e91f7d0f——Texte d'actualité complet (incluant uniquement le texte, à l'exclusion du langage HTML et des autres autres caractères). Le but de cet élément est de faire apparaître l'actualité de plus en plus précisément dans les résultats de recherche.
*dc0870658837139040642baa5555a380 - images associées dans le texte de l'actualité, en utilisant des adresses absolues. Si l'article d'actualité ne contient aucune image associée, il peut être vide ; s'il contient plusieurs images, veuillez réutiliser cette balise. Le but de cet élément est d'afficher des images pertinentes de cet article d'actualité dans les résultats de recherche.
d1fb19bd5635c426ed7fb276fe54c405 - Une image de titre produite pour des actualités susceptibles de faire la une, en utilisant des adresses absolues.
1c49609193281a21c4aac8fed3ad89c0 - Un ou plusieurs mots-clés reflétant le contenu du sujet de l'actualité, séparés par des espaces. Cet élément est uniquement à titre de référence et les résultats de la recherche ne dépendent pas entièrement du contenu de cette balise.
c58a1130350e5f417b7f5c3a9765ab7e——Classification des actualités, vous pouvez suivre le propre système de classification du site Web, il est préférable d'utiliser la classification de premier niveau.
ae57f42b56b3d12afcbbdeb0cad5cae3——Auteur de l'actualité, qui peut être une institution ou un individu.
e02da388656c3265154666b7c71a8ddc——Source d'information, c'est-à-dire les médias originaux ou d'autres institutions.
*986e6b71e5a3a4a0e77dc3e4175cc787——Heure de publication de l'actualité, cohérente avec l'heure de publication sur la page HTML d'actualité. Veuillez être précis à la minute près ; si l’heure de publication de votre site Web n’enregistre pas les heures et les minutes, indiquez simplement l’année, le mois et le jour.
Format d'heure recommandé : année, mois, jour, heure, minute, seconde 9 novembre 2005 10:37:00 | Vendredi 9 novembre 2005 10:37:00 GMT
Utilisation du protocole ouvert
Avant d'utiliser , vous devez connaître les points suivants : Que votre site Web soit devenu une source d'informations Baidu ou qu'il n'ait pas encore été inclus dans Baidu News Search, vous pouvez utiliser ce protocole ouvert. Le contenu que vous fournissez à l'aide de protocoles ouverts doit tous être conforme aux « Normes d'inclusion des sources d'information » suivantes. L'« Accord d'ouverture des informations sur Internet » n'est qu'une assistance et un complément utile à la méthode originale de collecte des sources d'information, plutôt qu'un remplacement complet.
Normes d'inclusion des sources d'information :
Baidu espère diversifier les sources d'information et encourager le contenu d'information original. S'il s'agit d'un site Web de médias formel et légal avec une grande quantité de contenu d'actualités précieux et peut être mis à jour en temps opportun, et que le serveur du site Web est stable et rapide, il est conforme aux principes de base de Baidu consistant à inclure des sources d'information. 🎜>. Le contenu collecté par Baidu News Search comprend divers reportages et commentaires des médias sur l'actualité, le divertissement, les sports, la finance, la science, l'éducation, la culture, la vie sociale, etc., des informations sur le marché et des critiques de produits numériques, de l'immobilier, les automobiles, etc., et les tendances et tendances dans divers secteurs, les mises à jour du travail des organisations, etc., sont des informations chinoises écrites ou éditées par des professionnels, à l'exclusion des informations personnelles, des forums, des blogs, des publicités, des blagues humoristiques, des histoires émotionnelles, de l'érotisme, des photos. , images fixes, fichiers de célébrités, recettes, téléchargements, Multimédia
et autres types d'informations Internet dans d'autres langues. Vous assumerez toutes les responsabilités légales pour tout le contenu que vous fournissez, garantirez l'authenticité et la légalité du contenu que vous fournissez et ne porterez pas atteinte aux droits d'un tiers.
Commençons !

Étape 1 : Créer un fichier XML
Assurez-vous de lire les normes d'inclusion des sources d'actualités de Baidu News Search avant de créer le fichier XML, et
portez une attention particulière
: 1. Les sites Web de sources d'information inclus dans Baidu News Search doivent se conformer et se conformer strictement aux « Règlements nationaux sur la gestion des services d'information sur Internet » et respecter les droits d'auteur du créateur et du site Web source pendant le processus de publication et de réimpression. . 2. Les types de sites Web qui ne peuvent pas être inclus dans Baidu News Search incluent : les forums, les blogs, les sites Web d'entreprises, etc.
3. Baidu News Search n'inclut pas les informations personnelles, les publicités, les appels d'offres, les tutoriels, les blagues humoristiques, les histoires émotionnelles, l'érotisme, les photos, les images fixes, les fichiers de célébrités, les recettes, les téléchargements, le multimédia et d'autres types d'informations Internet dans d'autres langues.
4. Baidu News Search espère inclure des informations chinoises de haute qualité, mais n'inclut pas l'anglais ni d'autres informations non chinoises.
5. Veuillez créer un fichier XML selon le contenu du protocole ouvert publié ci-dessus.

Autres consignes :
Les formats d'encodage pris en charge incluent GB2312, GB18030, UTF-8 et BIG5. Il est recommandé d'utiliser le format GB18030 ou UTF-8. Vous pouvez mettre toutes les actualités publiées par le site Web au cours d'une certaine période de temps dans un seul fichier XML, ou vous pouvez les mettre dans plusieurs fichiers XML par canal ou colonne. Veuillez conserver chaque fichier XML dans l'état de mise à jour automatique continue
selon le cycle de mise à jour
. Le cycle de mise à jour peut être ajusté à tout moment selon vos besoins. Chaque fichier XML peut stocker jusqu'à 100 derniers communiqués de presse, il n'est pas nécessaire de sauvegarder les actualités précédentes. Veuillez trier les nouvelles publiées par heure, c'est-à-dire que les dernières nouvelles sont en haut, sinon certaines nouvelles pourraient manquer. Le contenu des balises XML ne peut contenir aucun code autre que du texte. Les caractères spéciaux du tableau ci-dessous doivent être convertis en caractères d'échappement définis par XML. Sinon, une erreur se produira et le moteur de recherche ne pourra pas obtenir les actualités sur la page.

 

        

            

                字符

                转义后的字符

            

            

                HTML字符

                字符编码

            

            

                和(and)

                &

                &

                &

            

            

                单引号

                '

                '

                '

            

            

                双引号

                "

                "

                "

            

            

                大于号

                >

                >

                >

            

            

                小于号

                <

                &lt;

                &#60;

            

        

    

    转义字符中的"&"无需再转。

       建议您使用CDATA 部件。一个 CDATA 部件以"3005ee0b51d684587eb0f7123f28134a"标记结束。将包含代码或特殊字符的文本置于CDATA 部件内 ,就无需再对特殊字符进行转义。
第二步:验证XML文件
下面的地址提供了帮助您验证XML文件结构的多种工具:
http://www.php.cn/
http://www.php.cn/
通过验证的XML文件能够使您提供的信息更加标准,确保您发布的新闻信息不被搜索引擎遗漏。
第三步:提交XML网址
提交前请将XML
文件上传到您的网站服务器,将XML文件的URL地址及其它信息输入下面对应的方框内。搜索引擎将定向访问该URL地址,当URL地址发生变化时需要重新提交。
若您的网站符合新闻源收录标准,百度新闻搜索将对您提交的数据进行测试和观察一周。如果XML文件基本按照 《互联网新闻开放协议》的要求制作但存在问题,我们会根据XML页面上提供的邮件地址与您联系。
注意:
1、 我们将对您提交的XML文件进行审核,百度新闻搜索不保证一定能收录您提交的全部内容。
2、站点名、地址为必填项,同一站点一天之内最多提交5个不同的XML文件地址。
3、提交地址后请您注意查看弹出窗口中的信息,以确认是否提交成功。
第四步:查询XML文件状态
您可以在下面的方框中输入您提交的XML文件地址,查询该文件的处理进度和反馈信息。
注意:输入的地址必须完整,即与您提交时的地址完全一致。                                                

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn