采集[论文]手把手教你制作百度站内搜索的sitemap数据文件

百度站内搜索  时间:2021-02-11  阅读:()

随着百度站内搜索的全面开放本人也打算尝尝鲜 因为号称可以提交数据给百度从而增加收录量。然而在提交数据的时候发现所用到的sitemap与以往的有所不同在网上找来找去也没有相应的软件来自动生成完全符合要求的sitemap索引文件。只有自己动手DIY了。研究了一下午终于成功了今天把制作的具体流程给大家分享一下希望对有需要的朋友能有所帮助

一.结合百度站内搜索的数据格式说明这里列出一个单个URL的样式给大家看一下<?xml version="1.0"encoding="utf-8"?>

<urlset>

<url>

<loc>http://www.dcbzm.com/da icha nbaozhunbei/114.html</loc>

<lastmod>2014-09-12</lastmod>

<changefreq>always</changefreq>

<pr iority>0.7</p rior ity>

<data>

<display>

<tit le>孕妇待产包准备攻略,方便又齐全</title>

<tag>分娩待产包</tag>

<pubTime>2014-09-12T17:55:46</pubTime>

<breadCru mb title="首页" url="http://www.dcbzm.com"/>

<breadCrumb title="待产包准备" url="http://www.dcbzm.com/category/daichanbaozhunbei"/>

</display>

</data>

</url>

<url>

. . .略. . .

</url>

</urlset>

我们要做的这个sitemap文件就是把自己网站里的所有内页都做成如上格式 写在一个个的<url>标签中具体每一项的意思就不多解释了都很简单 实在不行可以去百度站长平台了解一下说的很清楚。如果网站内页成千上网那么一项一项来手工写肯定是不现实的。

了解这个XML文件的格式剩下的就开始行动了这里借肋于火车头采集器来完成页面的采集工作。

二.开始用火车头采集器来进行采集

采集的原理是先把站内的所有网址都抓取出来然后根据自己网站模板的特点来把每个网址所要采的页面标题title关键字tag发布时间pubTime面包屑导航breadCru mb等信息抓取出来(changefreq,priority等比较常规的标签由于大部分情况下数值都一样不用抓取也无法从页面中抓取设为为相同数值即可)给下一步做准备。O K这里就以待产包专卖网http://www.dc bz m.co m这个网站为例说一下怎么用火车头采集器抓取这个网站用的是word press模板做的不同网站大同小异但原理都是一样的。因为这不是一篇火车头采集器的使用教程为避免篇幅过长只做简单说明重要的地方会做详细解释如果想了解更可以去查看软件的使用帮助。

1.采集所有的网址a.新建一个名为“待产包专卖网采集”的任务 添加起始网址 这里填写 html版网站地图的URL:http://www.dcbzm.com/sitemap.html。

这是我用wordpress插件生成的网站地图本站所有的UR L都在这个源文件里面所以就从网站地图做起始网址。

PS:如果没有网站地图的就要从网站导航的分类目录开始一级一级向内抓取火车头采集器支持无限多级页面的网址抓取所以只要规则写的对就可以从首页做为起始网址把所有页页的网址都给抓取出。b.观察http://www.dc bz m.co m/s ite map.ht ml源文件发现所有文章的超链接都在<u l>标签中所以添加多级网址采集规则如下设置

c.填写完以后 点击“测试网址采集”发现本站所有的URL都给采集到了

2.采集页面内容信息

网址有了就要编写采集内容规则了。因为页面文章的模板都是一样的所以只要拿一个页面来进行测试就行

我们需要的是页面标题关键字文章发布时间以及面包屑导航这些有用信息。a.标题title的采集

打开源文件搜索标题查看有什么规律。本例如下

也就是说分娩待产包清单http://www.dcbz m.co m这个网站所有文章的标题都是这样的规律于是标题的提取方法就有了如下所示

b.发布时间pubTime的采集

同样根据源文件中"发布日期2014-09-1217:55:46"所处的位置查看规律并作为下设置。唯一要注意的是pubTime格式必须为2013-02-02T12:00:00注意中间有个T。这里我用了替换功能。很重要哦

c.标签tag的采集

这个页面有三个标签

在源文件找到这段代码所处位置

发现规律做如下设置

d.为避免篇幅其它项目的的采集就不在举例了道理都是一样的。

”数据处理“选项里有很多设置可以替换字符串截取字符串过滤HTML等可以省去很多工作。采集完以后测试结果如下

3.保存设置选中任务点右键“开始任务”就会把之前些采集到所有网址所对应的采集内写入数据库。然后再对任务点右键“本地编辑任务采集数据”来查看如下图所示

三.用EXCEL整合采集的数据

这里用借助excel做最后的site map索引文件的整合其实有了上面的采集数据完全可以写个小程序来实现的。懒得弄了本于本站页面不多所以就用EXCEL来简单说明一下吧。

可以借助EXC E替换功能格式化数据等功能进一步完善最终索引文件的制作。

1.把采集到的数据都复制到EXC E L中并删除不用的字段保留必须数据如下所示

2.结合百度站内搜索数据格式说明严格按照各标签的出现顺序增加相应的列或替换数据。

以第一行http://www.dcbzm.com/daichanbaozhun bei/114.html数据为例说明EXCEL各列如何制作。A列全部写成<url>

B列全部写成<loc>

C列 采集到的网址http://www.dcbzm.com/da icha nbaozhunbei/114.html

D列全部写成</loc>

E列 全部写成<lastmod>

F列 采集到的最后修改时间2014/9/12

G列 全部写成</last mod>

H列 固定写为<cha ngefreq>a lways</changefreq> 中间的a lwarys可以根据需要设置为hourly、dai ly、w eekly等I列 <pr ior ity>0.6</pr iority> . . .略. . .

看到这里明白了吧就是通过这样的形式拼凑出所需要要的XML格试。最后效果如下

四.最后一步格式化XM L文件

把上面的 EXCEL 中的内容全部复制到文本编辑器中 内容的最前面写上<?xml version="1.0"encod ing="utf-8"?><urlset> 最后面写上</urlset>。

然后随便找一个在线XML格式化一下即可

OK大功告成

把内容拷贝出来保存为XML格式去百度站长平台提交吧

写在最后的话 由于各网站模板的不同我的采集规则肯定是不适用于你的也绝对没有百分之百可能拿来就用的采集规则。

这里只起一个抛砖引玉的作用希望朋友们举一反三多做测试写出符合自己网站的采集规则来完成自己网站百度站内搜索的制作。

VirMach:$27.3/月-E3-1240v1/16GB/1TB/10TB/洛杉矶等多机房

上次部落分享过VirMach提供的End of Life Plans系列的VPS主机,最近他们又发布了DEDICATED MIGRATION SPECIALS产品,并提供6.5-7.5折优惠码,优惠后最低每月27.3美元起。同样的这些机器现在订购,将在2021年9月30日至2022年4月30日之间迁移,目前这些等待迁移机器可以在洛杉矶、达拉斯、亚特兰大、纽约、芝加哥等5个地区机房开设,未来迁移的时...

2021年7月最新洛杉矶CN2/香港CN2 vps套餐及搬瓦工优惠码 循环终身优惠6.58%

搬瓦工怎么样?2021年7月最新vps套餐推荐及搬瓦工优惠码整理,搬瓦工优惠码可以在购买的时候获取一些优惠,一般来说力度都在 6% 左右。本文整理一下 2021 年 7 月最新的搬瓦工优惠码,目前折扣力度最大是 6.58%,并且是循环折扣,续费有效,可以一直享受优惠价格续费的。搬瓦工优惠码基本上可能每年才会更新一次,大家可以收藏本文,会保持搬瓦工最新优惠码更新的。点击进入:搬瓦工最新官方网站搬瓦工...

腾讯云爆款秒杀:1C2G5M服务器38元/年,CDN流量包6元起

农历春节将至,腾讯云开启了热门爆款云产品首单特惠秒杀活动,上海/北京/广州1核2G云服务器首年仅38元起,上架了新的首单优惠活动,每天三场秒杀,长期有效,其中轻量应用服务器2G内存5M带宽仅需年费38元起,其他产品比如CDN流量包、短信包、MySQL、直播流量包、标准存储等等产品也参与活动,腾讯云官网已注册且完成实名认证的国内站用户均可参与。活动页面:https://cloud.tencent.c...

百度站内搜索为你推荐
qq讨论组QQ群和讨论组的区别在哪里伪静态怎么做伪静态?照片转手绘美图秀秀可以照片转手绘吗?是手机版的手机区号有的手机号中间的号码是地区区号,那是什么卡不兼容Google play 服务提示不兼容怎么办?iphone越狱后怎么恢复苹果手机越狱之后能恢复原来吗?奇虎论坛360有论坛中心?qq空间打扮如何打扮QQ空间?idc前线穿越火线河北的服务器好卡 有人知道怎么回事嘛 知道的速回bt封杀BT下载可以封杀迅雷吗?什么原理?能破吗?
申请域名 域名备案号查询 漂亮qq空间 阿里云邮箱登陆首页 mediafire下载工具 名片模板psd mobaxterm 私有云存储 网通服务器ip 本网站在美国维护 可外链相册 太原网通测速平台 微软服务器操作系统 双线机房 独享主机 美国盐湖城 主机返佣 学生服务器 域名转入 攻击服务器 更多