采集dedecms织梦采集功能的使用方法(二)我是程序员

dedecms采集  时间:2021-03-19  阅读:()

dedecms织梦采集功能的使用方法二 我是程序员

Dedecms采集功能的使用方法—不含分页的普通文章

2.1新增采集节点第二步设置内容字段获取规则单击“保存信息并进入下一步设置”后便可进入“新增采集节点第二步设置内容字段获取规则”页面如图 22所示 图22-设置内容字段获取规则在预览网址处系统将会自动指定一篇将被采集文章内容页面的网址一般为所采集列表页面的第一篇文章网址 作为示范页面。如果文章内容页面含有分页则需设置“内容分页导航所在的区域匹配规则”。对于“固定采集项目”中的“内容摘要、关键字和缩略图“三个部分系统会用正则进行自动匹配这里仅需配置过滤内容即可。下面主要介绍如何获取“文章标题、文章作者、文章来源、发布时间和文章内容”的采集规则过滤规则仅简单涉及。

2.1.1获取文章标题的采集规则首先打开“预览网址“的页面并单击右键选择”查看源

代码“找到文章标题”在Dreamweaver中为插入的Flash添加透明“如图23所示

图23-在源代码中的文章标题

这里的文章标题处在”<h1></h1> ”之间 由于在此页面中多次出现这组标签 因此这里应该填写“<divclass=”arcbody”><h1>[内容]</h1> ”作为文章标题的匹配规则。如果在文章标题中含有相关链接等可使用过滤规则加以处理这里无需设置。填写后如图24所示

图24-文章标题的采集规则

2.1.2获取文章作者的采集规则

如上图23所示在“作者 ”二字后面有一组标签“<font color=”red”></font>”以此猜测作者名将会写在这组标签之间。同样为了保持唯一性这里应填写”作

者<font color=“red”>[内容]</font> “作为文章作者的采集规则。谨慎起见请根据文章列表中其他文章内容页面查证此采集规则是否正确。这里不需要使用过滤规则。填写后如图25所示

图25-文章作者的采集规则

2.1.3获取文章来源的采集规则

图26-文章来源的采集规则

2.1.4获取文章发布时间的采集规则

再次回到图23找到“发表于 ”及其后的“<font color=”red”>2009-09-2914:21</font>”与之前获取采集规则方法相同此处应把“发表于<font color=”red”>[内容]</font>”作为发布时间的采集规则。同样这里也不需要使用过滤规则。填写后如图27所示

图27-文章发布时间的采集规则

2.1.5获取文章内容的采集规则这个部分是编写采集规则的重点 也是难点。 需要特别注意。 具体操作步骤

(a)回到正在打开的文章内容页面的源代码 找到文章内容的开始部分“Dreamweaver升级到8.0.2后”如图28所示

图28-文章内容的开始部分注意在源代码中有两处都出现了这句话。其中第一句

在“<div class=”intro”> ”之后第二句在“<div class=”content”><p>”之后。通过对比文章内容页面及其源代码不难发现第一处实为摘要第二处才为文章内容的开始部分。因此应选取“<div class=”content”> ”为匹配规则的开始部分。

(b)找到文章内容的结束部分“同样是添加值为“transp arent”的“wmode”参数。 ”如图29所示

图29-文章内容的结束部分

注意 由于结束部分的最后标签为”</p>”而此标签在文章内容中多次出现。因此不能作为采集规则的结束标签。考虑到应与文章内容的开始部分相对应经对比和分析后得出此处应选取“</div>”作为文章内容的结束部分如图30所示 图30-文章内容匹配规则的结束部分

c综合a和b可知此处文章内容的匹配规则应为

“<div class=”content”>[内容]</div>”填写后 如图31所示

图31-文章内容的匹配规则

这里占时不使用过滤规则关于过滤规则的介绍和使用将会放在单独的章节中。

到这里 “新增采集节点第二步设置内容字段获取规则” 就设置完成了。填写后如图32所示

图32-设置后的新增采集节点第二步设置内容字段获取规

检查无误后单击“保存配置并预览”。如果之前设置正确单击后将会进入“新增采集节点测试内容字段设置”页面并看到相应的文章内容。如图 33所示

图33-新增采集节点测试内容字段设置

确定正确无误后如果单击“仅保存” 系统将会提示“成

功保存配置“并返回”采集节点管理“界面如果单击“保存并开始采集“将会进入”采集指定节点“界面。否则 请单击“返回上一步进行修改” 。关于第二节的介绍就到这里。下面进入第三节。 。 。

Related posts:站群快速安装采集侠的方法 dedeems织梦5.7后台模块管理当中的模块列表显示空白的解决办法

DedeCms教程:LuManager服务器管理软件安装DEDECMS软件DedeCms教程Linux+Apache+PHP+MySQL服务器环境CentO S篇

ftlcloud(超云)9元/月,1G内存/1核/20g硬盘/10M带宽不限/10G防御,美国云服务器

ftlcloud怎么样?ftlcloud(超云)目前正在搞暑假促销,美国圣何塞数据中心的云服务器低至9元/月,系统盘与数据盘分离,支持Windows和Linux,免费防御CC攻击,自带10Gbps的DDoS防御。FTL-超云服务器的主要特色:稳定、安全、弹性、高性能的云端计算服务,快速部署,并且可根据业务需要扩展计算能力,按需付费,节约成本,提高资源的有效利用率。点击进入:ftlcloud官方网站...

这几个Vultr VPS主机商家的优点造就商家的用户驱动力

目前云服务器市场竞争是相当的大的,比如我们在年中活动中看到各大服务商都找准这个噱头的活动发布各种活动,有的甚至就是平时的活动价格,只是换一个说法而已。可见这个行业确实竞争很大,当然我们也可以看到很多主机商几个月就消失,也有看到很多个人商家捣鼓几个品牌然后忽悠一圈跑路的。当然,个人建议在选择服务商的时候尽量选择老牌商家,这样性能更为稳定一些。近期可能会准备重新整理Vultr商家的一些信息和教程。以前...

香港ceranetworks(69元/月) 2核2G 50G硬盘 20M 50M 100M 不限流量

香港ceranetworks提速啦是成立于2012年的十分老牌的一个商家这次给大家评测的是 香港ceranetworks 8核16G 100M 这款产品 提速啦老板真的是豪气每次都给高配我测试 不像别的商家每次就给1核1G,废话不多说开始跑脚本。香港ceranetworks 2核2G 50G硬盘20M 69元/月30M 99元/月50M 219元/月100M 519元/月香港ceranetwork...

dedecms采集为你推荐
centos6.5怎么用u盘安装centos6.5360退出北京时间在国外如何把手机时间调回到中国北京时间?本公司www易名网诚询,易名网注册的域名怎么转到喜欢的网页上啊?小型汽车网上自主编号申请请问各位大虾,如何在网上选车牌号?厦门三五互联科技股份有限公司厦门三五互联科技股份有限公司怎么样?建站之星突唯阿和建站之星等有什么区别?显示隐藏文件隐藏的文件夹怎么显示出来顽固木马专杀工具金山顽固病毒木马专杀 xia zai hou zen me hai shi da bu kai ?localsettingsLocal Settings这个文件夹是干什么的?
100m网站空间 买域名 查询域名 手机域名注册 景安vps 主机测评网 外国服务器 12u机柜尺寸 京东云擎 mysql主机 panel1 韩国网名大全 vip购优汇 空间论坛 国外免费全能空间 刀片服务器的优势 免费申请个人网站 酷番云 服务器监测 中国电信宽带测速器 更多