首頁  >  文章  >  後端開發  >  簡單介紹百度新聞開放協議XML文件製作方法

簡單介紹百度新聞開放協議XML文件製作方法

黄舟
黄舟原創
2017-03-14 16:06:162218瀏覽

開放協定概述 使用此開放協議,將會為您的網站帶去更多流量! 《網路新聞開放協定》是百度新聞搜尋制定的搜索引擎新聞動態收錄標準,網站可將發佈的新聞內容製作成遵循此開放協定的XML 格式的網頁(獨立於原有的新聞發布形式)供搜尋引擎索引,將網站發佈的新聞資訊主動、及 開放協議概述
使用此開放協議,將會為您的網站帶去更多流量!
《互聯網新聞開放協議》是百度新聞搜尋制定的搜尋引擎新聞源收錄標準,網站可將發佈的新聞內容製作成遵循此開放協議的XML格式的網頁(獨立於原有的新聞發布形式)供搜尋引擎索引,將網站發布的新聞資訊主動、及時地告知百度搜尋引擎。
採用了《互聯網新聞開放協議》,就相當於網站的新聞被搜尋引擎訂閱,透過百度——全球最大的中文搜尋引擎這個平台,網友將有可能在更大範圍內更高頻率地訪問到您網站的新聞,進而為您的網站帶來潛在的流量。
開放協定非常簡單! 您可以在我們的幫助下輕鬆使用。 開放協議內容
下圖為遵照《網路新聞開放協議》製作的XML格式的網頁,網頁上依照標準格式列出了網站發佈的新聞的相關資訊。
XML網頁範例:
簡單介紹百度新聞開放協議XML文件製作方法
XML標籤說明: 其中帶有星號標記的為必選項,未帶星號標記為可選項。
*cda14e2a0e0fb84f90a700c41ccf0327-標記整個XML檔案內容的開始和結束。
*6d88e32f12c595d0a92c0477538a6c33——網站位址。
*f23cbc012a16cf9c5773f9cfa7d6c5ad——負責人員的Email。當有必要時,我們透過這個地址與您聯繫。
*a5fcace7c976e279954e0cbdb65fdd95——更新週期,以分鐘為單位。搜尋引擎將遵照此週期造訪該頁面,使頁面上的新聞更及時地出現在百度新聞中。
*5083cbefc9e5095dae6431462e2af988——標記每篇新聞資訊的開始和結束。標記內為單篇新聞訊息,不包括新聞專題。
*b2386ffb911b14667cb8f0f91ea547a7——新聞標題。
*2cdf5bf648cf2f33323966d7f58a7f3f——新聞url地址,與單篇新聞一一對應;若分頁的新聞存在多個URL,相當於多篇新聞。
8b55addfb40ddf4a384b1010d729e503——新聞內容簡介
*28f128881ce1cdc57a572953e91f7d0f-完整的新聞正文(只包含正文文字,不包含HTML語言等其它字元)。此項的目的是使該篇新聞更多、更準地出現在搜尋結果中。
*dc0870658837139040642baa5555a380——新聞正文內相關圖片,採用絕對地址。若該篇新聞無相關圖片,可為空;若含有多張圖片,請重複使用該標籤。此項的目的是讓該篇新聞的相關圖片展現在搜尋結果中。
d1fb19bd5635c426ed7fb276fe54c405——為有可能成為頭條的新聞製作的頭條圖,採用絕對地址。
1c49609193281a21c4aac8fed3ad89c0——反映新聞主題內容的一個或多個關鍵字,關鍵字之間以空格隔開。此項目僅作為參考,檢索結果不完全依賴此標籤中的內容。
c58a1130350e5f417b7f5c3a9765ab7e——新聞分類, 可以遵循網站本身的分類體系,最好是一級分類。
48fe722b397613e801e59f453d6c9330——新聞作者,可以為機構或個人 。
e02da388656c3265154666b7c71a8ddc——新聞來源,即原創媒體或其它機構 。
*986e6b71e5a3a4a0e77dc3e4175cc787-新聞發佈時間,與該篇新聞HTML頁面上的發佈時間一致。請精確到分鐘;若您網站的發佈時間未記錄小時分鐘,提供年月日即可。
建議時間格式:年月日小時分鐘秒
如:2005-11-09 10:37|2005/11/09 10:37:00|2005.11.09 10:37:00|
2005年11月09日10時37分00秒|Fri, 09 Nov 2005 10:37:00 GMT
開放協議使用
使用之前您需要了解以下幾點:    無論您的網站已經成為百度動態消息來源,或是尚未被百度新聞搜尋收錄,都可以使用此開放協議。    您使用開放協議提供的內容應全部符合以下《新聞動態收錄標準》。    《網路新聞開放協定》只是原始動態消息收錄方式的一種協助與有益補充,而非完全取代。
新聞源收錄標準:
百度希望新聞源多樣化,鼓勵原創新聞內容。如果是具有大量有價值的新聞內容並能及時更新的正規、合法媒體網站,且網站伺服器穩定、高速,就符合了百度收錄新聞源的基本原則
百度新聞搜尋收錄的內容包括時政、娛樂、體育、財經、科教文化、社會生活等各類新聞報道及媒體評論,數碼產品、房產、汽車等行情資訊及評測,各行業的動態及行情,組織機構的工作動態等,是由專業人士撰寫或編輯的中文信息,不包括發布的個人信息、論壇、博客、廣告、幽默笑話、情感故事、情色、寫真、劇照、明星檔案、食譜、下載、多媒體等其它類型、其它語言互聯網資訊。
您應對提供的全部內容承擔一切法律責任,保證您提供內容的真實性、合法性,並不得侵犯任何第三方的權益。
下面就開始吧!
第一步:建立XML檔案
請您在建立XML檔案前務必閱讀百度新聞搜尋的新聞源收錄標準,並特別注意
1、百度新聞搜尋收錄的新聞源網站必須符合及嚴格遵守國家《網路新聞資訊服務管理規定》,並在新聞發布和轉載過程中尊重創作人和源網站的著作權。
2、百度新聞搜尋不適合收錄的網站類型包括:論壇、部落格、公司網站等。
3、百度新聞搜尋不收錄個人資訊、廣告、招標、教學、幽默笑話、情感故事、情色、寫真、劇照、明星檔案、食譜、下載、多媒體等其它類型、其它語言網路資訊。
4、百度新聞搜尋希望收錄高品質的中文新聞,不收錄英文等其它非中文新聞。
5、請依照上述的開放協議內容製作XML檔。
其它說明:
#    支援的編碼格式有GB2312、GB18030、UTF-8、BIG5,建議使用GB18030或UTF-8格式。    您可以將網站某一時段發佈的全部新聞放在一個XML檔案中,也可以分頻道或欄位放在多個XML檔案中。    請保持每個XML檔案處於按更新週期持續自動更新狀態。更新周期可隨時依照您的需求調整。    每個XML檔案至多存放最新發布的100條新聞,無需保存先前的新聞。    請將發佈的新聞依照時間排序,即最新發佈的新聞在最上端,否則可能有新聞被遺漏。    XML標籤內容中,除文字文字以外不能包含其它任何程式碼,下表中的特殊字元必須轉換為XML定義的轉義字元。否則將發生錯誤導致搜尋引擎無法取得頁面上的新聞。  

 

        

            

                字符

                转义后的字符

            

            

                HTML字符

                字符编码

            

            

                和(and)

                &

                &

                &

            

            

                单引号

                '

                '

                '

            

            

                双引号

                "

                "

                "

            

            

                大于号

                >

                >

                >

            

            

                小于号

                <

                &lt;

                &#60;

            

        

    

    转义字符中的"&"无需再转。

       建议您使用CDATA 部件。一个 CDATA 部件以"3005ee0b51d684587eb0f7123f28134a"标记结束。将包含代码或特殊字符的文本置于CDATA 部件内 ,就无需再对特殊字符进行转义。
第二步:验证XML文件
下面的地址提供了帮助您验证XML文件结构的多种工具:
http://www.php.cn/
http://www.php.cn/
通过验证的XML文件能够使您提供的信息更加标准,确保您发布的新闻信息不被搜索引擎遗漏。
第三步:提交XML网址
提交前请将XML文件上传到您的网站服务器,将XML文件的URL地址及其它信息输入下面对应的方框内。搜索引擎将定向访问该URL地址,当URL地址发生变化时需要重新提交。
若您的网站符合新闻源收录标准,百度新闻搜索将对您提交的数据进行测试和观察一周。如果XML文件基本按照 《互联网新闻开放协议》的要求制作但存在问题,我们会根据XML页面上提供的邮件地址与您联系。
注意:
1、 我们将对您提交的XML文件进行审核,百度新闻搜索不保证一定能收录您提交的全部内容。
2、站点名、地址为必填项,同一站点一天之内最多提交5个不同的XML文件地址。
3、提交地址后请您注意查看弹出窗口中的信息,以确认是否提交成功。
第四步:查询XML文件状态
您可以在下面的方框中输入您提交的XML文件地址,查询该文件的处理进度和反馈信息。
注意:输入的地址必须完整,即与您提交时的地址完全一致。                                                

以上是簡單介紹百度新聞開放協議XML文件製作方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn