采集DedeCMS自动采集功能教程

dedecms自动采集  时间:2021-03-19  阅读:()

De de CMSV5.6版自动采集功能规则使用基本知识讲解教程(1)

2011-05-05 17:09:01来源:作者: 【大中小】 浏览:5026次评论:0条★★我要投稿★★将此页添加到网摘

减肥药排行榜http://www.jxmxlp.co

DedeCMS采集功能使用基本知识讲解采集是指有着确定方向、明确目的的采撷和记录写作材料的一种活动。它主要指调查采访和查阅和搜集资料。采集最主要的作用在于为写作、分析、报表获取直接的和间接的材料。今天我们讲的采集主要是指网站采集网站采集的概念主要是程序按照指定的规则定向获取其他网站数据的一种方式另一种简单的说法就是将CTRL+C CTRL+V程序化系统化 自动化智能化

DedeCMS早期就已经加入了这个采集的功能 以前我们添加网站内容一般都是通过复制、粘贴、编辑然后再发布这样对于少量的文章还是可以但如果对于一个新站什么内容都没有那就需要复制粘提大量的文章这是一个重复、枯燥的过程 内容采集就是解决这个问题将这个重复的操作简化成规则通过规则进行批量操作。

当然采集还可以通过一些专门的采集器来进行采集国内比较出名的采集器有火车头。

今天我们这里以DedeCMS程序自带的采集功能来讲解如何使用采集并介绍如

何对采集的内容进行一些批量的管理。

首先我们进入系统后台打开[采集]-[采集节点管理]在学习使用这个采集工能之前先介绍一些基本的技术知识。

首先我们需要知道H TML基本内容我们知道浏览器中显示的各种各样的页面其实都是由最基本的HTML组成的我们可以在我们DedeCMS系统后台发布一篇内容然后对内容进行一些格式上面的设置。

也就是说我们的页面都是H TML代码经过浏览器解析后显示出来的这些基本的HTML代码是给机器看的而解析出来显示的内容是给我们的用户看的机器其实是一个死东西他阅读网页不像用户一样直接看到某一个部分的内容

机器能够看到的是某一部分代码。

De de CMSV5.6版自动采集功能规则使用基本知识讲解教程(二)2011-05-05 17:09:01来源:作者: 【大中小】 浏览:5027次评论:0条★★我要投稿★★将此页添加到网摘

我们的电脑是看不出来的他不过判断显示出来的东西他只会去解析代码我们右键查看这个文件的源文件。

机器是阅读这些代码内容的他只能看懂这部分的内容在下面这个地方

也就是说我们如果需要采集这些内容需要告诉机器你应该从哪段代码开始然后到什么地方结束 中间的这个部分就是我们需要的内容然后将这些内容自动添加到数据库中来省去自己添加内容的枯燥。

De de CMSV5.6版自动采集功能规则使用基本知识讲解教程(三)

2011-05-05 17:09:01来源:作者: 【大中小】 浏览:5028次评论:0条★★我要投稿★★

将此页添加到网摘

减肥药排行榜http://www.jxmxlp.co

这里我们就讲到了采集中的一个概念规则规则简单的说也就是我们告诉计算机需做什么 比如采集内容我们告诉计算机从什么地方的代码开始到什么地方的代码结束这些内容就是一个规则在DedeCMS程序中我们需要涉及到2个地方的

规则 1.列表规则 2.内容规则。

列表规则告诉计算机你去采集哪几篇文章这些文章列表从什么HTML代码开始到什么HTML代码结束

内容规则告诉计算机去采集哪个部分的内容文档的内容是从什么HTML代码开始到什么HTML代码结束

我们说学会使用采集功能其中最主要的也就是学会制定采集的规则有了这些规则之后采集其实是非常简单的一件事情。

采集的一般步骤主要有以下几步

1. 制定列表采集规则这里设置主要告诉服务器你采集哪些内容一般都是被采

集网站的列表页

2. 制定内容采集规则这里告诉服务器你采集页面的内容在页面的哪个部分一

般都是被采集网站的内容页

3. 选择栏目、条件导出采集内容

4. 批量对采集过来的内容进行维护 可以没有

5. 生成采集后的HTML页面代码

我们也能够很清晰的看出采集最关键也是前2个步骤这两个步骤是决定采集内容是否成功的一个重要环节有一个地方采集出错都将不会成功采集到网站的内容。第一部分结束

下面我们结合实例讲解如何使用DedeCMS的采集程序来采集页面信息。

我们来看打开的采集节点管理页面

我们把一个整体的采集规则及内容成为一个节点我们通过对节点的管理可以轻松

方便的对我们采集的规则及采集的内容进行管理 当然采集规则也是可以导出的我们只需要选中相应的采集节点但后单击[导出配置] 就可以将我们事先指定好的采集规则导出来 同大家一同分享。

当然获得了节点规则也可以通过系统的[导入采集规则]将采集规则导入到系统中去这样方便了对采集节点的管理 同时我们也可以查看这个节点当前采集的内容信息如采集的日期、创建节点的日期、获取的网址数等等这些都是采集节点的重要组成部分。

这个是文档内容所以我们在创建节点的时候先选择“普通文章” 在V5. 3中只有普通文章和图集2个支持采集的 以前可以自己定义但后来发现用的人很少并且使用起来很多人问题重重所以在新版本中取消了自己制定采集节点的这些功能。选择完节点类型后我们开始创建节点第一个部分是节点的基本信息创建 “节点名称” 这个比较简单就是方便你分辨节点的名称这里我们定义为“站长学院_采集”  “目标页面编码” 这个需要你看下你被采集的网页是用的什么编码一

般如果使用的IE浏览器只需要右键就可以查看到

火狐浏览器就需要在[查看]-[字符编码]的菜单中找到相信的字符编码类型

RackNerd:特价美国服务器促销,高配低价,美国多机房可选择,双E526**+AMD3700+NVMe

racknerd怎么样?racknerd今天发布了几款美国特价独立服务器的促销,本次商家主推高配置的服务器,各个配置给的都比较高,有Intel和AMD两种,硬盘也有NVMe和SSD等多咱组合可以选择,机房目前有夏洛特、洛杉矶、犹他州可以选择,性价比很高,有需要独服的朋友可以看看。点击进入:racknerd官方网站RackNerd暑假独服促销:CPU:双E5-2680v3 (24核心,48线程)内存...

华纳云-618大促3折起,18元/月买CN2 GIA 2M 香港云,物理机高防同享,10M带宽独享三网直连,无限流量!

官方网站:点击访问华纳云活动官网活动方案:一、香港云服务器此次推出八种配置的香港云服务器,满足不同行业不同业务规模的客户需求,同时每种配置的云服务都有不同的带宽选择,灵活性更高,可用性更强,性价比更优质。配置带宽月付6折季付5.5折半年付5折年付4.5折2年付4折3年付3折购买1H1G2M/99180324576648直达购买5M/17331556710081134直达购买2H2G2M892444...

TTcloud:日本独立服务器促销活动,价格$70/月起,季付送10Mbps带宽

ttcloud怎么样?ttcloud是一家海外服务器厂商,运营服务器已经有10年时间,公司注册地址在香港地区,业务范围包括服务器托管,机柜托管,独立服务器等在内的多种服务。我们后台工单支持英文和中文服务。TTcloud最近推出了新上架的日本独立服务器促销活动,价格 $70/月起,季付送10Mbps带宽。也可以跟进客户的需求进行各种DIY定制。点击进入:ttcloud官方网站地址TTcloud拥有自...

dedecms自动采集为你推荐
请务必阅读正文之后的免责条款部分sns网站有哪些最近两年哪些SNS网站比较火文档下载请问手机版wps如何把云文档下载到手机上的本地文档?宜人贷官网我在宜人财富贷款2万元,下款的时候时候系统说银行卡号错误,然 我在宜人财富贷款2万我在宜人财富贷款申请400电话电话是什么电话啊?怎么申请400电话400呢?具体收费价格是什么?站点管理站点名称是什么意思dedecms采集织梦后台怎么采集图片本帖隐藏的内容怎么设置要查看本帖隐藏内容请回复店铺统计怎样查淘宝店铺的销售总额正在跳转电影空间如何把空间自带的三级域名跳转到主域名上?
绍兴服务器租用 最新代理服务器ip 最便宜虚拟主机 enzu 42u标准机柜尺寸 华为云主机 2017年万圣节 中国特价网 云鼎网络 英文站群 骨干网络 速度云 安徽双线服务器 cdn服务 国外代理服务器 博客域名 512内存 restart windowsserverr2 饭桶 更多