互联网论坛收录开放协议

开放协议概述

使用此开放协议,将会为您的网站带去更多流量!

        《互联网论坛收录开放协议》是百度网页搜索制定的论坛内容收录标准,论坛网站可将论坛内发布的帖子制作成遵循此开放协议的XML格式的网页供搜索引擎索引,将论坛发布的帖子主动、及时地告知百度搜索引擎。

        采用了《互联网论坛收录开放协议》,就相当于论坛中的帖子被搜索引擎订阅,通过百度--全球最大的中文搜索引擎这个平台,网民将有可能在更大范围内更高频率地访问到您网站论坛中的帖子,进而为您的网站带来潜在的流量。

开放协议非常简单! 您可以在我们的帮助下轻松使用。

开放协议内容

        下图为遵照《互联网论坛收录开放协议》制作的XML格式的网页,网页上按照标准格式列出了网站论坛发布的帖子的相关信息。
XML网页示例:

XML标签说明: 其中带星号标记的为必选项,未带星号标记为可选项。
*<document>——标记整个XML文件内容的开始和结束。后面的" xmlns:bbs =" http://www.baidu.com/search/bbs_sitemap.xsd"是该xml文件遵守百度《互联网论坛收录开放协议》的声明,如没有该段声明,xml文件不支持下面的<bbs:reply>等语法。
*<webSite>——站点地址。
*<webMaster>——负责人员的Email。当有必要时,我们通过这个地址与您联系。
*<updatePeri>——sitemap 更新周期,以小时为单位。搜索引擎将遵照此周期访问该页面,使页面上的内容更及时地被百度 spider 发现。
*<updatetime>——该 xml 文件最近一次的更新时间 。
*<version>——论坛所使用程序的版本。
*<item>——标记每个帖子信息的开始和结束,标记内为单个帖子信息。
*<link>——帖子的 url 地址,即帖子第一页的地址,请尽量去除url中不必要的参数。
<title>——帖子标题。
<pubDate>——帖子主贴的发布时间 。
<bbs:lastDate>——帖子最后一条回复的发布时间 。
<bbs:reply>——帖子总的回复数,不包括主贴。
<bbs:hit>——帖子总的查看次数。
<bbs:mainLen>——帖子主贴的长度,单位字节 。
<bbs:boardid>——帖子所在版面,提供版面的 id 。
<bbs:pick>——是否设为精华,精华标为 1 ,非精华标为 0 。

推荐时间格式:年月日小时分钟秒
如:2005-11-09 10:37  |  2005/11/09 10:37:00  |  2005.11.09 10:37:00  |
       2005年11月09日10时37分00秒  |  Fri, 09 Nov 2005 10:37:00 GMT


开放协议使用

使用之前您需要了解以下几点:

  • 无论您的网站已经被百度spider抓取,还是尚未被百度spider抓取,都可以使用此开放协议。
  • 您使用开放协议提供的内容应全部符合下面的《论坛内容收录标准》。
  • 《互联网论坛收录开放协议》只是对百度spider原有收录方式的一种协助和有益补充,而不是取代。

论坛内容收录标准:
        百度希望论坛内容丰富,帖子质量较高,版面氛围和谐。只要是具有大量有价值的内容并能及时更新的正规、合法的网站,且网站服务器稳定、高速,就符合了百度论坛内容收录的基本原则。
        百度spider收录使用任何程序架设的论坛,不过您应对提供的全部内容承担一切法律责任,保证您提供内容的真实性、合法性,并不得侵犯任何第三方的权益。
        XML文件的大小最大为10M,大于10M的文件百度spider将不能保证正确获取。
        对于通过遵守《互联网论坛收录开放协议》的xml文件发现的内容,百度spider将在进行质量判断后展现给用户,即被发现的内容并不一定最终会展现在百度网页搜索的结果中。

下面就开始吧!
第一步:创建XML文件
        请按照上面公布的开放协议内容制作XML文件。

    其它说明:
  • 支持的编码格式有GB18030、UTF-8、GB2312、BIG5等,推荐使用GB2312和UTF-8。注意:XML文件头部的encoding值必须与XML文件的实际编码类型一致。
  • 请保持每个XML文件处于按更新周期持续自动更新的状态。
  • XML标签内容中的一些特殊字符需要转换为XML定义的转义字符,否则将发生错误导致搜索引擎不能获取页面上的帖子,具体参见下表。
    字符 转义后的字符
    HTML字符 字符编码
    和(and) & &amp; &#38;
    单引号 ' &apos; &#39;
    双引号 " &quot; &#34;
    大于号 > &gt; &#62;
    小于号 < &lt; &#60;
    ??  转义字符中的"&"无需再转。

第二步:验证XML文件
        下面的地址提供了帮助您验证XML文件结构的多种工具:
        http://www.w3.org/XML/Schema#Tools
        http://www.xml.com/pub/a/2000/12/13/schematools.html
        通过验证的XML文件能够使您提供的信息更加标准,确保您发布的视频信息不被搜索引擎遗漏。

第三步:使用XML文件
         请将XML文件命名为sitemap_baidu.xml上传到您网站根目录下,并保证文件所在的url地址能够被百度spider正常访问。例如,网站为post.baidu.com,则将xml文件上传至post.baidu.com/sitemap_baidu.xml
        当百度spider发现了xml文件后,会根据上面提供的参数自动对xml文件进行更新,并抓取高质量的内容。
        注意: 百度spider不保证一定能收录您提交的全部内容。


常见问题解答
*《互联网论坛收录开放协议》以下简称《论坛开放协议》
我的网站适合使用《论坛开放协议》吗?
        如果您的网站架有论坛,并符合百度《论坛内容收录标准》 ,就可以使用《论坛开放协议》。
论坛的所有板块都可以被收录吗?
        只要该板块的帖子是正常的论坛帖子且未设置权限,并且您已按照《论坛开放协议》正确提供XML文件,而且通过了我们的测试和评估,就可以被收录。
使用《论坛开放协议》会影响我原来的网站及论坛内容的收录吗?
        完全没有影响。百度spider对于您的网站及论坛的正常收录不会改变。
使用《论坛开放协议》后期要大量人力进行维护吗?
        不需要。您只需要进行一次开发,实现自动输出和自动更新。
我的论坛已经提供RSS输出,可以直接使用RSS文件吗?
        为了保证您论坛的内容能够快速、准确地被百度spider收录,请您严格遵照《论坛开放协议》的各项要求创建XML文件,包括数据格式和数据内容,否则无法成功收录。
我的论坛每天发布大量帖子,需要把全部帖子都按照一定格式放在XML页面上吗?
        不需要。您只需要将最近一个更新周期内新增的和变化了的帖子逐个罗列在XML页面上,更新周期由您在<updatePeri>标签中设定。假设更新周期为12小时,则您每次只须提供最近12小时内发布及变更的帖子信息。
如何理解“自动更新”?
        百度spider的程序定周期定向地访问您提供的XML地址,这个周期由您在<updatePeri>标签中设定,百度spider会参考这个值定期地检查您所提供的xml文件是否改变,检查改变的方法是通过发送HEAD请求检查xml文件的Last-Modified或Content-Length是否改变,来决定是否进行抓取。所以请务必确认您的服务器能返回Last-Modified或Content-Length其中一项,并且其值会根据您的xml文件的改变而改变。
        因此,您应尽量固定的XML地址,而地址上的内容按照更新周期持续更新,若无法更新将失去被收录的意义。
        当您需要改变XML文件的路径或名称时,请将原页面做301重定向至新页面,或将原页面置为404。
一个站点可以提交多个不同的XML地址吗?
        不可以,否则可能会被识别为利用《论坛开放协议》作弊。
哪些要求容易被我忽略,而导致全部或部分论坛内容收录失败?
        1.<link>标签中必须提供完整的相关内容,请不要省略部分内容,也不要增加不相关的内容。
        2.标签中的所有内容如URL、标题等,若包含以下特殊符号如“&”“<”“>”等,需要根据XML规范进行转义;这些特殊符号仅针对半角符号而言,全角符号无需进行转义。
        3.字符编码必须严格符合XML声明中的规范,例如XML声明为<?xml version="1.0" encoding="GB2312" ?>,若不完全是标准GB2312规范的编码,会导致部分数据丢失。
xml文件生成之后,我如何知道网站是否被成功收录?
        百度spider将对您提供的数据进行测试和评估。
        若测试后没有任何问题,将会在一周内正式收录,这时您可以在百度网页搜索框内输入“site:网站域名”查看收录的来自您网站的信息。
我还有其它的问题怎么办?
        如果您还有其它疑问或建议,请联系我们




© 2012 Baidu