利用改进的Aprio ri算法挖掘用户浏览网页模式
【摘 要】万维网不断发展用户浏览网页等信息越来越多而Web挖掘可以从这些信息中发现有用的信息 比如用户浏览网页的模式。Apriori算法是一种快速挖掘算法是大多数关联规则算法的基础。本文在分析此算法的基础上提出改进算法从而挖掘用户浏览网页模式。
【关键词】Web挖掘 Aprio ri算法改进算法防治技术用户浏览网页模式
引言
随着计算机网络、电子商务的发展很多商业性网站中对于用户的关注越来越多因为了解用户的需求才能增高网站的收益因此了解用户浏览模式是一项重要的工作。如何从这些海量的访问信息中发现潜在的有用的信息确定用户浏览网页的顺序、频繁访问哪些网页从而为用户推荐网页、推荐商品成为了一个新的研究课题。Web数据挖掘应运而生Web数据挖掘就是从与WWW相关的资源和用户浏览行为中抽取感兴趣的、有用的模式和隐含的信息。Web上各种形式的文档和用户访问信息就构成了Web数据挖掘的对象。
挖掘用户访问模式常用算法有Web数据挖掘特有的用户访问路径模式挖掘算法(路径分析技术)和数据挖掘传统算法,如关联规则挖掘算法、序列模式挖掘算法等。而本文主要介绍如何利用Apriori算法来挖掘用户的浏览模式。
Apriori算法概述
Aprio ri算法是由R.Agraw a l等人提出的一种快速挖掘算法是大多数关联规则算法的基础它是一种最有影响的挖掘布尔关联规则频繁项集的算法。Apriori算法采用逐层搜索的迭代方法来找出所有的频繁项目集在第k次迭代过程中找出所有的频繁k-项集Lk。该算法使用如下的Apriori性质一个项目集是频繁项目集则此项目集的所有子集构成的项目集也一定是频繁项目集一个项目集是非频繁项目集则此项目集的所有超集(即包含此项目集的项目集)一定是非频繁项目集。
Apriori算法的基本思想如下 C1=I I为事务所包含的项目扫描数据库得到频繁1-项集L1将L1中的项目集两两合并产生C2扫描数据库得到
L2此后在第k遍扫描中则是首先利用Lk-1来生成Ck若Ck=Φ则算法结束否则扫描数据库得到Lk。在第k遍扫描中第一步连接步通过Lk-1与自己连接来产生Ck即侯选k-项集的集合第二步剪枝步 Ck是Lk的超集扫描数据库确定Ck中每个候选的计数计数值大于等于最小支持度计数的所有候选项是频繁的从而属于Lk删除不满足条件的其候选项。
综上所述经典的Apriori算法描述如算法1.1所示。
算法1.1挖掘关联规则的Apriori算法
输入事务数据库D最小支持度阈值min_s up
输出 D中的频繁项集L
L 1=find_fre nque nt_1-ite mse t(D);for(k=1;Lk-1≠?尴;k++)
{
Ck=apriori_gen(Lk-1,min_sup);for each transaction t∈D
港云网络官方网站商家简介港云网络成立于2016年,拥有IDC/ISP/云计算资质,是正规的IDC公司,我们采用优质硬件和网络,为客户提供高速、稳定的云计算服务。公司拥有一流的技术团队,提供7*24小时1对1售后服务,让您无后顾之忧。我们目前提供高防空间、云服务器、物理服务器,高防IP等众多产品,为您提供轻松上云、安全防护。点击进入港云网络官方网站港云网络中秋福利1元领【每人限量1台】,售完下架,活...
4324云是成立于2012年的老牌商家,主要经营国内服务器资源,是目前国内实力很强的商家,从价格上就可以看出来商家实力,这次商家给大家带来了全网最便宜的物理服务器。只能说用叹为观止形容。官网地址 点击进入由于是活动套餐 本款产品需要联系QQ客服 购买 QQ 800083597 QQ 2772347271CPU内存硬盘带宽IP防御价格e5 2630 12核16GBSSD 500GB30M1个IP...
看到群里网友们在讨论由于不清楚的原因,有同学的网站无法访问。他的网站是没有用HTTPS的,直接访问他的HTTP是无法访问的,通过PING测试可以看到解析地址已经比较乱,应该是所谓的DNS污染。其中有网友提到采用HTTPS加密证书试试。因为HTTP和HTTPS走的不是一个端口,之前有网友这样测试过是可以缓解这样的问题。这样通过将网站绑定设置HTTPS之后,是可以打开的,看来网站的80端口出现问题,而...