新版采集示例
我们以新浪网环球新闻做个示例用新的内容采集工具来采集新闻
页面地址http://roll.news.sina.c om.cn/news/gj xw/hqqw/index_1.shtml
所要采集的新闻页面最好是列表页
例页面上有显示上一页 123.。 。 。 。 。下一页
比如第一页它的地址是 http://roll.news.sina.c om.cn/news/gj xw/hqqw/index_1.shtml
单击第二页地址就是 http://roll.news.sina.com.cn/news/gj xw/hqqw/index_2.shtml
有一种规律性的延伸。
后台设置如下
首先进入后台单击“文章采集”单击左侧的“规则设置NEWS”。
第四维度——免费学习建站首选品牌
1、将采集的页面地址复制到【采集路径】中
2、将采集的页面地址复制到【路径参数】将1替换为{0}
3、采集页数自已填写数字 例如 1
4、 页面编码可鼠标右击查看页面源文件
查看到这个页面编码为gb2312那么就在页面编码里输入“gb2312” 当然也有是utf-8的比如
所以根据采集的页面编码来输入。点击“下一步”
5、在这里我们可以看见这些采集的规则设置
“列表标签”就是整个新闻列表的标签查看页面源文件找到新闻条目如图
第四维度——免费学习建站首选品牌
那么我们就可以定义“列表“标签”为“//ul [@class="list_009"]”为什么是这样规则呢
因为设“置的格式是这样的” //+标签的起始代码+[@+标签的属性]”看到下面你就会明白了。那么 详细页标题标签 就是 //h 1 [@id="artib odyTitle"]
那么“详细页内容标签”即是 //div[@i d="artib ody"] 注 当标签里同时有clas s和id时优先选择id属性
第四维度——免费学习建站首选品牌
设置好的即如下图
然后单击“下一步”
第四维度——免费学习建站首选品牌
7.看到如上图所示标有成功字样 即表示设置成功再点击“完成”按纽即可。
如果出现下图标题失败或者内容失败则表示不成功重新设置标签规则直到出现成功字样为止如图
8、点击“采集”
第四维度——免费学习建站首选品牌
9.再点击“确定”
10、新闻采集成功之后采集的内容都会在临时内容里显示。点击文章采集—临时内容new
11.将已采集好的新闻勾选起来点击转移
12.选择转移的新闻类别 点击转移
第四维度——免费学习建站首选品牌
13.提示操作成功之后确定去新闻管理查看刚刚转移的内容 内容管理—新闻模块—新闻管理。将转移的新闻勾选更新
这样采集的新闻就会显示在网站上了。
第四维度——免费学习建站首选品牌
Budgetvm(原EZ机房),2005年成立的美国老品牌机房,主打美国4个机房(洛杉矶、芝加哥、达拉斯、迈阿密)和日本东京机房的独立服务器和VPS业务,而且不限制流量,默认提供免费的1800G DDoS防御服务,支持IPv6和IPMI,多种免费中文操作系统可供选择,独立服务器主打大硬盘,多硬盘,大内存,用户可以在后台自行安装系统等管理操作!内存可定制升级到1536G,多块硬盘随时加,14TBSA...
gcorelabs怎么样?gcorelabs是创建于2011年的俄罗斯一家IDC服务商,Gcorelabs提供优质的托管服务和VPS主机服务,Gcorelabs有一支强大的技术队伍,对主机的性能和稳定性要求非常高。Gcorelabs在 2017年收购了SkyparkCDN并提供全球CDN服务,目标是进入全球前五的网络服务商。G-Core Labs总部位于卢森堡,在莫斯科,明斯克和彼尔姆设有办事处。...
ShockHosting商家在前面文章中有介绍过几次。ShockHosting商家成立于2013年的美国主机商,目前主要提供虚拟主机、VPS主机、独立服务器和域名注册等综合IDC业务,现有美国洛杉矶、新泽西、芝加哥、达拉斯、荷兰阿姆斯特丹、英国和澳大利亚悉尼七大数据中心。这次有新增日本东京机房。而且同时有推出5折优惠促销,而且即刻使用支付宝下单的话还可获赠10美金的账户信用额度,折扣相比之前的常规...