采集[指导]手把手教你制作百度站内搜索的sitemap数据文件

百度站内搜索  时间:2021-02-11  阅读:()

随着百度站内搜索的全面开放本人也打算尝尝鲜 因为号称可以提交数据给百度从而增加收录量。然而在提交数据的时候发现所用到的sitemap与以往的有所不同在网上找来找去也没有相应的软件来自动生成完全符合要求的sitemap索引文件。只有自己动手DIY了。研究了一下午终于成功了今天把制作的具体流程给大家分享一下希望对有需要的朋友能有所帮助

一.结合百度站内搜索的数据格式说明这里列出一个单个URL的样式给大家看一下<?xml version="1.0"encoding="utf-8"?>

<urlset>

<url>

<loc>http://www.dcbzm.com/da icha nbaozhunbei/114.html</loc>

<lastmod>2014-09-12</lastmod>

<changefreq>always</changefreq>

<pr iority>0.7</p rior ity>

<data>

<display>

<tit le>孕妇待产包准备攻略,方便又齐全</title>

<tag>分娩待产包</tag>

<pubTime>2014-09-12T17:55:46</pubTime>

<breadCru mb title="首页" url="http://www.dcbzm.com"/>

<breadCrumb title="待产包准备" url="http://www.dcbzm.com/category/daichanbaozhunbei"/>

</display>

</data>

</url>

<url>

. . .略. . .

</url>

</urlset>

我们要做的这个sitemap文件就是把自己网站里的所有内页都做成如上格式 写在一个个的<url>标签中具体每一项的意思就不多解释了都很简单 实在不行可以去百度站长平台了解一下说的很清楚。如果网站内页成千上网那么一项一项来手工写肯定是不现实的。

了解这个XML文件的格式剩下的就开始行动了这里借肋于火车头采集器来完成页面的采集工作。

二.开始用火车头采集器来进行采集

采集的原理是先把站内的所有网址都抓取出来然后根据自己网站模板的特点来把每个网址所要采的页面标题title关键字tag发布时间pubTime面包屑导航breadCru mb等信息抓取出来(changefreq,priority等比较常规的标签由于大部分情况下数值都一样不用抓取也无法从页面中抓取设为为相同数值即可)给下一步做准备。O K这里就以待产包专卖网http://www.dc bz m.co m这个网站为例说一下怎么用火车头采集器抓取这个网站用的是word press模板做的不同网站大同小异但原理都是一样的。因为这不是一篇火车头采集器的使用教程为避免篇幅过长只做简单说明重要的地方会做详细解释如果想了解更可以去查看软件的使用帮助。

1.采集所有的网址a.新建一个名为“待产包专卖网采集”的任务 添加起始网址 这里填写 html版网站地图的URL:http://www.dcbzm.com/sitemap.html。

这是我用wordpress插件生成的网站地图本站所有的UR L都在这个源文件里面所以就从网站地图做起始网址。

PS:如果没有网站地图的就要从网站导航的分类目录开始一级一级向内抓取火车头采集器支持无限多级页面的网址抓取所以只要规则写的对就可以从首页做为起始网址把所有页页的网址都给抓取出。b.观察http://www.dc bz m.co m/s ite map.ht ml源文件发现所有文章的超链接都在<u l>标签中所以添加多级网址采集规则如下设置

c.填写完以后 点击“测试网址采集”发现本站所有的URL都给采集到了

2.采集页面内容信息

网址有了就要编写采集内容规则了。因为页面文章的模板都是一样的所以只要拿一个页面来进行测试就行

我们需要的是页面标题关键字文章发布时间以及面包屑导航这些有用信息。a.标题title的采集

打开源文件搜索标题查看有什么规律。本例如下

也就是说分娩待产包清单http://www.dcbz m.co m这个网站所有文章的标题都是这样的规律于是标题的提取方法就有了如下所示

b.发布时间pubTime的采集

同样根据源文件中"发布日期2014-09-1217:55:46"所处的位置查看规律并作为下设置。唯一要注意的是pubTime格式必须为2013-02-02T12:00:00注意中间有个T。这里我用了替换功能。很重要哦

c.标签tag的采集

这个页面有三个标签

在源文件找到这段代码所处位置

发现规律做如下设置

d.为避免篇幅其它项目的的采集就不在举例了道理都是一样的。

”数据处理“选项里有很多设置可以替换字符串截取字符串过滤HTML等可以省去很多工作。采集完以后测试结果如下

3.保存设置选中任务点右键“开始任务”就会把之前些采集到所有网址所对应的采集内写入数据库。然后再对任务点右键“本地编辑任务采集数据”来查看如下图所示

三.用EXCEL整合采集的数据

这里用借助excel做最后的site map索引文件的整合其实有了上面的采集数据完全可以写个小程序来实现的。懒得弄了本于本站页面不多所以就用EXCEL来简单说明一下吧。

可以借助EXC E替换功能格式化数据等功能进一步完善最终索引文件的制作。

1.把采集到的数据都复制到EXC E L中并删除不用的字段保留必须数据如下所示

2.结合百度站内搜索数据格式说明严格按照各标签的出现顺序增加相应的列或替换数据。

以第一行http://www.dcbzm.com/daichanbaozhun bei/114.html数据为例说明EXCEL各列如何制作。A列全部写成<url>

B列全部写成<loc>

C列 采集到的网址http://www.dcbzm.com/da icha nbaozhunbei/114.html

D列全部写成</loc>

E列 全部写成<lastmod>

F列 采集到的最后修改时间2014/9/12

G列 全部写成</last mod>

H列 固定写为<cha ngefreq>a lways</changefreq> 中间的a lwarys可以根据需要设置为hourly、dai ly、w eekly等I列 <pr ior ity>0.6</pr iority> . . .略. . .

看到这里明白了吧就是通过这样的形式拼凑出所需要要的XML格试。最后效果如下

四.最后一步格式化XM L文件

把上面的 EXCEL 中的内容全部复制到文本编辑器中 内容的最前面写上<?xml version="1.0"encod ing="utf-8"?><urlset> 最后面写上</urlset>。

然后随便找一个在线XML格式化一下即可

OK大功告成

把内容拷贝出来保存为XML格式去百度站长平台提交吧

写在最后的话 由于各网站模板的不同我的采集规则肯定是不适用于你的也绝对没有百分之百可能拿来就用的采集规则。

这里只起一个抛砖引玉的作用希望朋友们举一反三多做测试写出符合自己网站的采集规则来完成自己网站百度站内搜索的制作。

昔日数据:香港云服务器(2G防御)、湖北云服务器(100G防御),首月5折,低至12元/月

昔日数据,国内商家,成立于2020年,主要销售湖北十堰和香港HKBN的云服务器,采用KVM虚拟化技术构架,不限制流量。当前夏季促销活动,全部首月5折促销,活动截止于8月11日。官方网站:https://www.xrapi.cn/5折优惠码:XR2021湖北十堰云服务器托管于湖北十堰市IDC数据中心,母鸡采用e5 2651v2,SSD MLC企业硬盘、 rdid5阵列为数据护航,100G高防,超出防...

CloudCone:KVM月付1.99美元起,洛杉矶机房,支持PayPal/支付宝

CloudCone的[2021 Flash Sale]活动仍在继续,针对独立服务器、VPS或者Hosted email,其中VPS主机基于KVM架构,最低每月1.99美元,支持7天退款到账户,可使用PayPal或者支付宝付款,先充值后下单的方式。这是一家成立于2017年的国外VPS主机商,提供独立服务器租用和VPS主机,其中VPS基于KVM架构,多个不同系列,也经常提供一些促销套餐,数据中心在洛杉...

piayun(pia云)240元/季起云服务器,香港限时季付活动,cn2线路,4核4G15M

pia云怎么样?pia云是一家2018的开办的国人商家,原名叫哔哔云,目前整合到了魔方云平台上,商家主要销售VPS服务,采用KVM虚拟架构 ,机房有美国洛杉矶、中国香港和深圳地区,洛杉矶为crea机房,三网回程CN2 GIA,带20G防御。目前,Pia云优惠促销,年付全场8折起,香港超极速CN2季付活动,4核4G15M云服务器仅240元/季起,香港CN2、美国三网CN2深圳BGP优质云服务器超高性...

百度站内搜索为你推荐
万维读者网万维书刊投稿有稿费么,有的话怎么算?简体翻译成繁体简体中文转换成繁体怎么转换?手机区号手机电话号码开头95共15位号码是什么手机号码?显卡温度多少正常显卡温度多少正常如何建立一个网站要建立一个网站怎么弄啊?网易公开课怎么下载怎么下载网易公开课里的视频 .......直播加速有没有软件使已经下载好了的视频播放加速,例如30分钟的视频15分钟或者20分钟播放完迅雷云点播账号求个迅雷VIP 是VIP就可以 只用来看云点播 改密码是孙子。 谢了 ! 362135668@qq.com虚拟专用网虚拟专用网适用于什么行业blogcn南京明城墙(太平门一带某些地区)的城砖上为什么会有一些小洞(每块砖两个洞洞……)?
租服务器价格 鲨鱼机 美国php主机 免费个人空间申请 新世界服务器 香港博客 腾讯服务器 德国代理 遨游论坛 冰盾ddos防火墙 xendesktop qq空间技术网 web服务器搭建软件 免费邮件服务器软件 西部数码空间购买 qq空间登录首页 宿迁服务器托管 好看的空间图片 微微免费网络电话 真正免费网络电话 更多