数据网站流量查看

网站流量查看时间:2021-05-22 阅读:()

第1章引言11.
1什么激发了数据挖掘,为什么它是重要的11.
2什么是数据挖掘31.
3在何种数据上进行数据挖掘61.
3.
1关系数据库71.
3.
2数据仓库81.
3.
3事务数据库101.
3.
4高级数据库系统和高级数据库应用111.
4数据挖掘功能—可以挖掘什么类型的模式141.
4.
1概念/类描述:特征化和区分141.
4.
2关联分析151.
4.
3分类和预测161.
4.
4聚类分析161.
4.
5孤立点分析171.
4.
6演变分析171.
5所有模式都是有趣的吗181.
6数据挖掘系统的分类191.
7数据挖掘的主要问题201.
8小结22习题22文献注释23www.
china-pub.
comebook下载第1章引言本书是一个导论,介绍什么是数据挖掘,什么是数据库中知识发现.
书中的材料从数据库角度提供,特别强调发现隐藏在大型数据集中有趣数据模式的基本数据挖掘概念和技术.
所讨论的实现方法主要是面向可伸缩的、有效的数据挖掘工具的开发.
在本章中,我们将学习数据挖掘如何成为数据库技术自然演化的一部分,为什么数据挖掘是重要的,以及如何定义数据挖掘.
我们将学习数据挖掘系统的一般结构,并考察挖掘的数据种类,可以发现的模式类型,以及什么样的模式提供有用的知识.
除学习数据挖掘系统的分类之外,还将看到建立未来的数据挖掘工具所面临的挑战性问题.
1.
1什么激发了数据挖掘,为什么它是重要的需要是发明之母.
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识.
获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等.
数据挖掘是信息技术自然演化的结果.
演化过程的见证是数据库业界开发以下功能(见图1-1):数据收集和数据库创建,数据管理(包括数据存储和检索,数据库事务处理),以及数据分析与理解(涉及数据仓库和数据挖掘).
例如,数据收集和数据库创建机制的早期开发已成为稍后数据存储和检索、查询和事务处理有效机制开发的必备基础.
随着提供查询和事务处理的大量数据库系统广泛付诸实践,数据分析和理解自然成为下一个目标.
自20世纪60年代以来,数据库和信息技术已经系统地从原始的文件处理演化到复杂的、功能强大的数据库系统.
自70年代以来,数据库系统的研究和开发已经从层次和网状数据库系统发展到开发关系数据库系统(数据存放在关系表结构中;见1.
3.
1节)、数据建模工具、索引和数据组织技术.
此外,用户通过查询语言、用户界面、优化的查询处理和事务管理,可以方便、灵活地访问数据.
联机事务处理(OLTP)将查询看作只读事务,对于关系技术的发展和广泛地将关系技术作为大量数据的有效存储、检索和管理的主要工具作出了重要贡献.
自80年代中期以来,数据库技术的特点是广泛接受关系技术,研究和开发新的、功能强大的数据库系统.
这些使用了先进的数据模型,如扩充关系模型、面向对象模型、对象-关系模型和演绎模型.
包括空间的、时间的、多媒体的、主动的和科学的数据库、知识库、办公信息库在内的面向应用的数据库系统百花齐放.
涉及分布性、多样性和数据共享问题被广泛研究.
异种数据库和基于Internet的全球信息系统,如WWW也已出现,并成为信息产业的生力军.
在过去的30年中,计算机硬件稳定的、令人吃惊的进步导致了功能强大的计算机、数据收集设备和存储介质的大量供应.
这些技术大大推动了数据库和信息产业的发展,使得大量数据库和信息存储用于事务管理、信息检索和数据分析.
现在,数据可以存放在不同类型的数据库中.
最近出现的一种数据库结构是数据仓库(见1.
3.
2节).
这是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策.
数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP).
OLAP是一种分析技术,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力.
尽管OLAP工具支持多维分析和决策,对于深层次的分析,如数据分类、聚类和数据随时间变化的特征,仍然需要其他分析工具.
图1-1数据库技术的演化2第第数据挖掘:概念与技术下载数据收集和数据库创建(20世纪60年代和更早)-原始文件处理数据库管理系统(70年代)-层次和网状数据库系统-关系数据库系统-数据建模工具:实体-联系模型等-索引和数据组织技术:B+树,散列等-查询语言:SQL等-用户界面:表单、报告等-查询处理和查询优化-事务管理:恢复和并发控制等-联机事务处理(OLTP)高级数据库系统(80年代中期—现在)-高级数据模型:扩充关系、面向对象、对象-关系、演绎-面向应用:空间的、时间的、多媒体的、主动的、科学的、知识库基于Web的数据库系统(90年代—现在)-基于XML的数据库系统-Web挖掘数据仓库和数据挖掘(80年代后期—现在)-数据仓库和OLAP技术-数据挖掘和知识发现新一代综合信息系统(2000—.
.
.
)数据的丰富带来了对强有力的数据分析工具的需求,大量的数据被描述为"数据丰富,但信息贫乏".
快速增长的海量数据收集、存放在大型和大量数据库中,没有强有力的工具,理解它们已经远远超出了人的能力(见图1-2).
结果,收集在大型数据库中的数据变成了"数据坟墓"—难得再访问的数据档案.
这样,重要的决定常常不是基于数据库中信息丰富的数据,而是基于决策者的直觉,因为决策者缺乏从海量数据中提取有价值知识的工具.
此外,考虑当前的专家系统技术,通常,这种系统依赖用户或领域专家人工地将知识输入知识库.
不幸的是,这一过程常常有偏差和错误,并且耗时、费用高.
数据挖掘工具进行数据分析,可以发现重要的数据模式,对商务决策、知识库、科学和医学研究作出了巨大贡献.
数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识"金块".
图1-2我们数据丰富,但信息贫乏1.
2什么是数据挖掘简单地说,数据挖掘是从大量数据中提取或"挖掘"知识.
该术语实际上有点用词不当.
注意,从矿石或砂子挖掘黄金称作黄金挖掘,而不是砂石挖掘.
这样,数据挖掘应当更正确地命名为"从数据中挖掘知识",不幸的是这有点长.
"知识挖掘"是一个短术语,可能不能反映从大量数据中挖掘.
毕竟,挖掘是一个很生动的术语,它抓住了从大量的、未加工的材料中发现少量金块这一过程的特点(见图1-3).
这样,这种用词不当携带了"数据"和"挖掘",成了流行的选择.
还有一些术语,具有和数据挖掘类似但稍有不同的含义,如数据库中知识挖掘、知识提取、数据/模式分析、数据考古和数据捕捞.
第1章引言第第3下载我怎么分析这些数据图1-3数据挖掘:在你的数据中搜索知识(有趣的模式)许多人把数据挖掘视为另一个常用的术语数据库中的知识发现或KDD的同义词.
而另一些人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤.
知识发现过程如图1-4所示,由以下步骤组成:1)数据清理(消除噪声或不一致数据)2)数据集成(多种数据源可以组合在一起)3)数据选择(从数据库中检索与分析任务相关的数据)4)数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)5)数据挖掘(基本步骤,使用智能方法提取数据模式)6)模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式;1.
5节)7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)数据挖掘步骤可以与用户或知识库交互.
有趣的模式提供给用户,或作为新的知识存放在知识库中.
注意,根据这种观点,数据挖掘只是整个过程中的一步,尽管是最重要的一步,因为它发现隐藏的模式.
我们同意数据挖掘是知识发现过程的一个步骤.
然而,在产业界、媒体和数据库研究界,"数据挖掘"比较长的术语"数据库中知识发现"更流行.
因此,在本书中,选用术语数据挖掘.
我们采用数据挖掘的广义观点:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程.
基于这种观点,典型的数据挖掘系统具有以下主要成分(见图1-5):数据库、数据仓库或其他信息库:这是一个或一组数据库、数据仓库、电子表格或其他类型的信息库.
可以在数据上进行数据清理和集成.
4第第数据挖掘:概念与技术下载知识信息产业界的一个流行趋势是将数据清理和数据集成作为预处理步骤执行,结果数据存放在数据仓库中.
有时,数据变换和数据统一在数据选择过程之前进行,特别是在数据仓库情况下.
图1-4数据挖掘视为知识发现过程的一个步骤数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据.
知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度.
这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层.
用户确信方面的知识也可以包含在内.
可以使用这种知识,根据非期望性评估模式的兴趣度.
领域知识的其他例子有兴趣度限制或阈值和元数据(例如,描述来自多个异种数据源的数据).
数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析.
模式评估模块:通常,此成分使用兴趣度度量(见1.
5节),并与数据挖掘模块交互,以便将搜索聚焦在有趣的模式上.
它可能使用兴趣度阈值过滤发现的模式.
模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现.
对于有效的数据挖掘,建议尽可能深地将模式评估推进到挖掘过程之中,以便将搜索限制在有兴趣的模式上.
图形用户界面:本模块在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖第1章引言第第5下载知识模式评估与表示数据挖掘选择与变换数据仓库清理与集成数据库展开文件掘.
此外,此成分还允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化.
图1-5典型的数据挖掘系统结构从数据仓库观点,数据挖掘可以看作联机分析处理(OLAP)的高级阶段.
然而,通过结合更高级的数据理解技术,数据挖掘比数据仓库的汇总型分析处理走得更远.
尽管市场上已有许多"数据挖掘系统",但是并非所有的都能进行真正的数据挖掘.
不能处理大量数据的数据分析系统,最多称作机器学习系统、统计数据分析工具或实验系统原型.
一个系统只能够进行数据或信息检索,包括在大型数据库找出聚集值或回答演绎查询,应当归类为数据库系统,或信息检索系统,或演绎数据库系统.
数据挖掘涉及多学科技术的集成,包括数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图象与信号处理和空间数据分析.
在本书讨论数据挖掘时,我们采用数据库观点.
即,着重强调大型数据库中有效的和可伸缩的数据挖掘技术.
一个算法是可伸缩的,如果给定内存和磁盘空间等可利用的系统资源,其运行时间应当随数据库大小线性增加.
通过数据挖掘,可以从数据库提取有趣的知识、规律或高层信息,并可以从不同角度观察或浏览.
发现的知识可以用于决策、过程控制、信息管理、查询处理,等等.
因此,数据挖掘被信息产业界认为是数据库系统最重要的前沿之一,是信息产业最有前途的交叉学科.
1.
3在何种数据上进行数据挖掘在本节中,我们考察可以进行挖掘的各种数据存储.
原则上讲,数据挖掘可以在任何类型的6第第数据挖掘:概念与技术下载图形用户界面模式评估知识库数据库数据清理数据集成过滤数据仓库数据挖掘引擎数据库或数据仓库服务器信息存储上进行.
这包括关系数据库、数据仓库、事务数据库、高级数据库系统、展开文件和WWW.
高级数据库系统包括面向对象和对象-关系数据库;面向特殊应用的数据库,如空间数据库、时间序列数据库、文本数据库和多媒体数据库.
挖掘的挑战和技术可能因存储系统而异.
尽管本书假定读者具有信息系统的基本知识,我们还是对以上提到的主要数据存储系统做简要介绍.
本节,我们还介绍虚构的AllElectronics商店,它在本书各处用来解释概念.
1.
3.
1关系数据库数据库系统,也称数据库管理系统(DBMS),由一组内部相关的数据(称作数据库),和一组管理和存取数据的软件程序组成.
软件程序涉及如下机制:数据库结构定义,数据存储,并发、共享或分布的数据访问,在面对系统瘫痪或未授权的访问时确保数据的一致性和安全性.
关系数据库是表的集合,每个表都赋予一个唯一的名字.
每个表包含一组属性(列或字段),并通常存放大量元组(记录或行).
关系中的每个元组代表一个被唯一的关键字标识的对象,并被一组属性值描述.
语义数据模型,如实体-联系(ER)数据模型,将数据库作为一组实体和它们之间的联系进行建模.
通常为关系数据库构造ER模型.
考虑下面的例子.
例1.
1AllElectronics公司由下列关系表描述:customer,item,employee和branch.
这些表的片段在图1-6中给出.
图1-6AllElectronics关系数据库的关系片段第1章引言第第7下载关系customer有一组属性,包括顾客的唯一标识号(cust_ID)、顾客的姓名、地址、年龄、职业、年收入、信用信息、分类等.
类似地,每一个关系employee,branch和item都包含一组属性,描述它们的性质.
表也用于表示多个关系表之间的联系.
对于我们的例子,包括purchases(顾客购买商品,创建一个由雇员处理的销售事务),items_sold(列出给定事务中售出的物品)和work_at(雇员在的一个分店工作).
关系数据可以通过数据库查询访问.
数据库查询使用如SQL这样的关系查询语言,或借助于图形用户界面书写.
在后一种情形下,用户可以使用菜单指定包含在查询中的属性和属性上的限制.
一个给定的查询被转换成一系列关系操作,如连接、选择和投影,并被优化,以便有效地处理.
查询可以检索数据的一个指定的子集.
假定你的工作是分析AllElectronics的数据.
通过使用关系查询,你可以提这样的问题:"显示上个季度销售的商品的列表".
关系查询语言也可以包含聚集函数,如sum,avg(平均),count,max(最大)和min(最小).
这些使得你可以问"给我显示上个月的总销售数,按分店分组",或"多少销售事务出现在12月份",或"哪一位销售人员的销售数最高".
当数据挖掘用于关系数据库时,你可以进一步搜索趋势或数据模式.
例如,数据挖掘系统可以分析顾客数据,根据顾客的收入、年龄和以前的信用信息预测新顾客的信用风险.
数据挖掘系统也可以检测偏差,如与以前的年份相比,哪种商品的销售出人预料.
这种偏差可以进一步考察(例如,包装是否有变化,或价格是否大幅度提高).
关系数据库是数据挖掘最流行的、最丰富的数据源,因此它是我们数据挖掘研究的主要数据形式.
1.
3.
2数据仓库假定AllElectronics是一个成功的跨国公司,分部遍及世界.
每个分部有自己的一组数据库.
AllElectronics的总裁要你提供公司第三季度每种商品、每个分部的销售分析.
这是一个困难的任务,特别是当相关数据散布在多个数据库,而这些数据库又存放在许多站点时.
如果AllElectronics有一个数据仓库,该任务将是容易的.
数据仓库是从多个数据源收集的信息存储,存放在一个一致的模式下,并通常驻留在单个站点.
数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造.
这个过程在第2、3章详细讨论.
图1-7给出了AllElectronics的数据仓库的基本结构.
为便于作出决策,数据仓库中的数据围绕诸如顾客、商品、供应商和活动等主题组织.
数据存储,从历史的角度(如过去的5~10年)提供信息,并且是汇总的.
例如,数据仓库不是存放每个销售事务的细节,而是存放每个商店,或汇总到较高层次的每个销售地区每类商品的销售事务汇总.
通常,数据仓库用多维数据库结构建模.
其中,每一维对应于模式中的一个或一组属性,每个单元存放某个聚集度量值,如count或sales_amount.
数据仓库的实际物理结构可以是关系数据存储或多维数据立方体(datacube).
它提供数据的多维视图,并允许预计算和快速访问汇总的数据.
8第第数据挖掘:概念与技术下载图1-7AllElectronics典型的数据仓库结构例1.
2AllElectronics的汇总销售数据立方体在图1-8a中.
该数据立方体有三维:address(城市值Chicago,NewYork,Toronto,Vancouver),time(季度值Q1,Q2,Q3,Q4)和item(商品类型值homeentertainment,computer,phone,security).
存放在立方体的每个单元中的聚集值是sales_amount(单位:$1000).
例如,安全系统第一季度在Vancouver的总销售为$400000,存放在单元〈Vancouver,Q1,Security〉中.
其他立方体可以用于存放每一维上的聚集和,对应于使用不同的SQL分组得到的聚集值(例如,每个城市和季度的、每个季度和商品的或每一维的总销售量).
你可能会问:"我还听说过数据集市.
数据仓库和数据集市的区别是什么"数据仓库收集了整个组织的主题信息,因此,它是企业范围的.
另一方面,数据集市(datamart)是数据仓库的一个部门子集.
它聚焦在选定的主题上,是部门范围的.
通过提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理(OLAP).
OLAP操作使用数据的领域背景知识,允许在不同的抽象层提供数据.
这些操作适合不同的用户.
OLAP操作的例子包括下钻(drill-down)和上卷(roll-up),它们允许用户在不同的汇总级别观察数据,如图1-8b所示.
例如,可以对按季度汇总的销售数据下钻,观察按月汇总的数据.
类似地,可以对按城市汇总的销售数据上卷,观察按国家汇总的数据.
尽管数据仓库工具对于支持数据分析是有帮助的,但是仍需要更多的数据挖掘工具,以便进行更深入的自动分析.
数据仓库技术在第2章详细讨论.
第1章引言第第9下载Chicago数据源NewYork数据源Toronto数据源Vancouver数据源清理变换集成装入数据仓库查询和分析工具客户客户图1-8一个通常用于数据仓库的多维数据立方体a)展示AllElectronics的汇总数据b)展示数据立方体a)中的下钻与上卷结果为便于观察,只给出部分单元值1.
3.
3事务数据库一般地说,事务数据库由一个文件组成,其中每个记录代表一个事务.
通常,一个事务包含一个唯一的事务标识号(trans_ID),和一个组成事务的项的列表(如,在商店购买的商品).
事务数据库可能有一些与之相关联的附加表,包含关于销售的其他信息,如事务的日期、顾客的ID号、销售者的ID号、销售分店,等等.
10第第数据挖掘:概念与技术下载item(类型)a)b)item(类型)item(类型)按Q1的time数据下钻按address上卷例1.
3事务可以存放在表中,每个事务一个记录.
AllElectronics的事务数据库的片段在图1-9中给出.
从关系数据库的观点,图1-9的销售表是一个嵌套的关系,因为属性listofitem_IDs包含item的集合.
由于大部分关系数据库系统不支持嵌套关系结构,事务数据库通常存放在一个类似于图1-9中的表格式的展开文件中,或展开到类似于图1-6的items_sold表的标准关系中.
图1-9AllElectronics销售事务数据库的片段作为AllElectronics数据库的分析者,你想问"显示SandySmith购买的所有商品"或"有多少事务包含商品号I3".
回答这种查询可能需要扫描整个事务数据库.
假定你想更深地挖掘数据,问"哪些商品适合一起销售"这种"购物篮数据分析"使你能够将商品捆绑成组,作为一种扩大销售的策略.
例如,给定打印机与计算机经常一起销售的知识,你可以向购买选定计算机的顾客提供对一种很贵的打印机打折销售,希望销售更多较贵的打印机.
常规的数据检索系统不能回答上面这种查询.
然而,通过识别频繁地一起销售的商品,事务数据的数据挖掘系统可以做到.
1.
3.
4高级数据库系统和高级数据库应用关系数据库系统广泛地用于商务应用.
随着数据库技术的发展,各种高级数据库系统已经出现并在开发中,以适应新的数据库应用需要.
新的数据库应用包括处理空间数据(如地图)、工程设计数据(如建筑设计、系统部件、集成电路)、超文本和多媒体数据(包括文本、影象、图象和声音数据)、时间相关的数据(如历史数据或股票交易数据)和WWW(通过Internet可以使巨大的、广泛分布的信息存储).
这些应用需要有效的数据结构和可伸缩的方法,处理复杂的对象结构、变长记录、半结构化或无结构的数据以及文本和多媒体数据,并具有复杂结构和动态变化的数据库模式.
为响应这些需求,开发了高级数据库系统和面向特殊应用的数据库系统.
这些包括面向对象和对象-关系数据库系统、空间数据库系统、时间和时间序列数据库系统、文本和多媒体数据库系统、异种和遗产数据库系统、基于WWW的全球信息系统.
虽然这样的数据库或信息存储需要复杂的机制,以便有效地存储、检索和更新大量复杂的数据,它们也为数据挖掘提供了肥沃的土壤,提出了挑战性的研究和实现问题.
本节,我们将介绍上面列举的每种高级数据库系统.
1.
面向对象的数据库面向对象的数据库基于面向对象的程序设计范例.
用一般术语,每个实体被看作一个对象.
对于AllElectronics例子,对象可以是每个雇员、顾客和商品.
涉及一个对象的数据和代码封装在一个单元中.
每个对象关联:一个变量集,它描述数据.
这对应于实体-联系和关系模型的属性.
一个消息集,对象可以使用它们与其他对象或与数据库系统的其他部分通信.
第1章引言第第11下载一个方法集,其中每个方法存放实现一个消息的代码.
一旦收到消息,方法就返回一个响应值.
例如,消息get_photo(employee)的方法将检索并返回给定雇员对象的照片.
共享公共特性集的对象可以归入一个对象类.
每个对象都是其对象类的实例.
对象类可以组成类/子类层次结构,使得每个类代表该类对象共有的特性.
例如,类employee可以包含变量name,address和birthdate.
假定类sales_person是employee的子类.
一个sales_person对象将继承属于其超类employee的所有变量.
此外,它还具有作为一个销售员特有的所有变量(如commission).
这种类继承特性有利于信息共享.
2.
对象-关系数据库对象-关系数据库基于对象-关系数据模型构造.
该模型通过提供处理复杂对象的丰富数据类型和对象定位,扩充关系模型.
此外,它还包含关系查询语言的特殊构造,以便管理增加的数据类型.
通过增加处理复杂数据类型、类层次结构和如上所述的对象继承的能力,对象-关系模型扩充了基本关系模型.
对象-关系数据库在业界和应用中正日趋流行.
在面向对象和对象-关系系统中的数据挖掘具有某些类似性.
与关系数据挖掘相比,需要开发新的技术,处理复杂对象结构、复杂数据类型、类和子类层次结构、特性继承以及方法和过程.
3.
空间数据库空间数据库包含涉及空间的信息.
这种数据库包括地理(地图)数据库、VLSI芯片设计数据库、医疗和卫星图象数据库.
空间数据可能以光栅格式(rasterformat)提供,由n维位图或象素图构成.
例如,一个两维卫星图象可以用光栅数据表示,每个象素存放一个给定区域的降雨量.
地图也可以用向量格式提供,其中,路、桥、建筑物和湖泊可以用诸如点、线、多边形和这些形状形成的分化和网络等基本地理结构表示.
地理数据库有大量应用,包括从森林和生态规划,到提供关于电话和电缆、管道和下水道系统位置在内的公共信息服务.
此外,地理数据库还用于车辆导航和调度系统.
例如,一个用于出租车的系统可以存储一个城市的地图,提供关于单行道、交通拥挤时从区域A到区域B的建议路径、饭店和医院的位置、以及每个司机的当前位置等信息.
你可能会问:"空间数据库上可以进行何种数据挖掘"数据挖掘可以发现描述座落在特定类型地点(如公园)的房屋特征.
其他模式可能描述不同海拔高度山区的气候,或根据城市离主要公路的距离描述都市贫困率的变化趋势.
此外,可以构造"空间数据立方体",将数据组织到多维结构和层次中,OLAP操作(如下钻和上卷)可以在其上进行.
4.
时间数据库和时间序列数据库时间数据库和时间序列数据库都存放与时间有关的数据.
时间数据库(temporaldatabase)通常存放包含时间相关属性的数据.
这些属性可能涉及若干时间戳,每个都具有不同的语义.
时间序列数据库(time-seriesdatabase)存放随时间变化的值序列,如收集的股票交易数据.
数据挖掘技术可以用来发现数据库中对象演变特征或对象变化趋势.
这些信息对于决策和规划是有用的.
例如,银行数据的挖掘可能有助于根据顾客的流量安排银行出纳员.
可以挖掘股票交易数据,发现可能帮助你制订投资策略的趋势(例如,何时是购买AllElectronics的股票的最佳时机).
通常,这种分析需要定义时间的多粒度.
例如,时间可以按财政年、学年或日历12第第数据挖掘:概念与技术下载年分解.
年可以进一步分解成季度或月.
5.
文本数据库和多媒体数据库文本数据库是包含对象文字描述的数据库.
通常,这种词描述不是简单的关键词,而是长句子或短文,如产品介绍、错误或故障报告、警告信息、汇总报告、笔记或其他文档.
文本数据库可能是高度非结构化的(如WWW上的网页).
有些文本数据库可能是半结构化的(如e-mail消息和一些HTML/XML网页),而其他的可能是良结构化的(如图书馆数据库).
通常,具有很好结构的文本数据库可以使用关系数据库系统实现.
"文本数据库上的数据挖掘可以发现什么"说到底,可以发现对象类的一般描述,以及关键词或内容的关联和文本对象的聚类行为.
为做到这一点,需要将标准的数据挖掘技术与信息检索技术和文本数据特有的层次构造(如字典和辞典),以及面向学科的(如化学、医学、法律或经济)术语分类系统集成在一起.
多媒体数据库存放图象、音频和视频数据.
它们用于基于图象内容的检索、声音传递、视频点播、WWW和识别口语命令的基于语音的用户界面等方面.
多媒体数据库必须支持大对象,因为像视频这样的数据对象可能需要兆字节级的存储.
还需要特殊的存储和搜索技术.
因为视频和音频数据需要以稳定的、预先确定的速率实时检索,防止图象或声音间断和系统缓冲区溢出,因此这种数据称为连续媒体数据(continuous-mediadata).
对于多媒体数据库挖掘,需要将存储和搜索技术与标准的数据挖掘方法集成在一起.
有前途的方法包括构造多媒体数据立方体、多媒体数据的多特征提取和基于相似性的模式匹配.
6.
异种数据库和遗产数据库异种数据库由一组互连的、自治的成员数据库组成.
这些成员相互通信,以便交换信息和回答查询.
一个成员数据库中的对象可能与其他成员数据库中的对象很不相同,使得很难将它们的语义吸收进一个整体的异种数据库中.
许多企业需要遗产数据库,作为信息技术长时间开发(包括使用不同的硬件和操作系统)的结果.
遗产数据库是一组异种数据库,它将不同的数据系统组合在一起.
这些数据系统如关系或面向对象数据库、层次数据库、网络数据库、电子表格、多媒体数据库或文件系统.
遗产数据库中的异种数据库可以通过内部计算机网或互联计算机网连接.
这种数据库的信息交换是困难的,因为需要考虑多种多样的语义,制定从一种表示到另一种表示的精确转换规则.
例如,考虑不同学校之间学生学业情况数据交换问题.
每个学校可能有自己的计算机系统和课程与评分体系.
一所大学可能采用学季系统(每学期三个月——译注),开三门数据库课程,并按由A+到F评定成绩;而另一所可能采用学期系统,开两门数据库课程,并按由1到10评定成绩.
很难制定这两所大学的课程-成绩转换精确的规则,使得信息交换很困难.
通过将给定的数据转换到较高的、更一般的概念层(对于学生成绩,如不及格、良好或优秀),数据挖掘技术可以对此问题提供有趣的解,使得数据交换可以更容易地进行.
7.
WWWWWW和与之关联的分布式信息服务(如美国在线,Yahoo!
,AltaVista,Prodigy)提供了丰富的、世界范围的联机信息服务;这里,数据对象被链接在一起,便于交互访问.
用户通过链接,从一个对象到另一个,寻找有趣的信息.
这种系统对数据挖掘提供了大量机会和挑战.
例如,理第1章引言第第13下载解用户的访问模式不仅能够帮助改进系统设计(通过提供高度相关的对象间的有效访问),而且还可以引导更好的市场决策(例如,通过在频繁访问的文档上布置广告,或提供更好的顾客/用户分类和行为分析).
在这种分布式信息环境下,捕获用户访问模式称作挖掘路径遍历模式.
尽管网页看上去好看并且信息丰富,但它们实际上是非结构化的并且缺乏预定义的模式、类型和格式.
这样,对于系统地进行信息检索和数据挖掘,计算机很难理解各种网页的语义并把它们以有组织的形式结构化.
提供基于关键字的搜索服务,而不理解特定网页的上下文,只能给用户提供有限的帮助.
例如,基于单个关键字的Web搜索可能返回数以百计的指针,指向包含该关键字的网页,而其中大部分与用户期望的查找无关.
数据挖掘可以提供比Web搜索服务更多的帮助吗数据挖掘能够帮助我们学习网上信息的一般分布、网页特征和不同网页之间的关联吗能够帮助我们找到特定主题的权威网页吗它能对因特网上的网页进行好的分类吗这些问题对高级的数据挖掘提出了新的挑战.
1.
4数据挖掘功能—可以挖掘什么类型的模式我们已经观察了可以进行数据挖掘的各种数据存储和数据库系统.
现在,让我们考察可以挖掘的数据模式.
数据挖掘功能用于指定数据挖掘任务中要找的模式类型.
数据挖掘任务一般可以分两类:描述和预测.
描述性挖掘任务刻划数据库中数据的一般特性.
预测性挖掘任务在当前数据上进行推断,以进行预测.
在某些情况下,用户不知道他们的数据中什么类型的模式是有趣的,因此可能想并行地搜索多种不同的模式.
这样,重要的是,数据挖掘系统要能够挖掘多种类型的模式,以适应不同的用户需求或不同的应用.
此外,数据挖掘系统应当能够发现各种粒度(即不同的抽象层)的模式.
数据挖掘系统应当允许用户给出提示,指导或聚焦有趣模式的搜索.
由于有些模式并非对数据库中的所有数据都成立,通常每个被发现的模式带上一个确定性或"可信性"度量.
数据挖掘功能以及它们可以发现的模式类型介绍如下.
1.
4.
1概念/类描述:特征化和区分数据可以与类或概念相关联.
例如,在AllElectronics商店,销售的商品类包括计算机和打印机,顾客概念包括bigSpenders和budgetSpenders.
用汇总的、简洁的、精确的方式描述每个类和概念可能是有用的.
这种类或概念的描述称为类/概念描述(class/conceptdescription).
这种描述可以通过下述方法得到:1)数据特征化,一般地汇总所研究类(通常称为目标类(targetclass))的数据;2)数据区分,将目标类与一个或多个比较类(通常称为对比类(contrastingclass))进行比较;3)数据特征化和比较.
数据特征化(datacharacterization)是目标类数据的一般特征或特性的汇总.
通常,用户指定类的数据通过数据库查询收集.
例如,为研究上一年销售增加10%的软件产品的特征,可以通过执行一个SQL查询收集关于这些产品的数据.
有许多有效的方法,将数据特征化和汇总.
例如,基于数据立方体的OLAP上卷操作(1.
3.
2节)可以用来执行用户控制的、沿着指定维的数据汇总.
该过程将在第2章介绍数据仓库时进一14第第数据挖掘:概念与技术下载步详细讨论.
一种面向属性的归纳技术可以用来进行数据的概化和特征化,而不必一步步地与用户交互.
这一技术将在第5章讨论.
数据特征的输出可以用多种形式提供.
包括饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表.
结果描述也可以用概化关系(generalizedrelation)或规则形式(称作特征规则)提供.
这些不同的输出形式和它们的转换在第5章讨论.
例1.
4数据挖掘系统应当能够产生一年之内在AllElectronics花费$1000以上的顾客特征汇总的描述.
结果可能是顾客的一般轮廓,如年龄在40-50、有工作、有很好的信用等级.
系统将允许用户在任意维下钻,如在occupation下钻,以便根据他们的职业来观察这些顾客.
数据区分(datadiscrimination)是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较.
目标类和对比类由用户指定,而对应的数据通过数据库查询检索.
例如,你可能希望将上一年销售增加10%的软件产品与同一时期销售至少下降30%的那些产品进行比较.
用于数据区分的方法与用于数据特征化的类似.
"区分描述如何输出"输出的形式类似于特征描述,但区分描述应当包括比较度量,帮助区分目标类和对比类.
用规则表示的区分描述称为区分规则(discriminantrule).
用户应当能够对特征和区分描述的输出进行操作.
例1.
5数据挖掘系统应当能够比较两组AllElectronics顾客,如定期(每月多于2次)购买计算机产品的顾客和偶尔(即每年少于3次)购买这种产品的顾客.
结果描述可能是一般的比较轮廓,如经常购买这种产品的顾客80%在20-40岁之间,受过大学教育;而不经常购买这种产品的顾客60%或者太老,或者太年青,没有大学学位.
沿着维下钻,如沿occupation维,或添加新的维,如income_level,可以帮助发现两类之间的更多区分特性.
概念描述,包括特征化和区分,是第5章的主题.
1.
4.
2关联分析"什么是关联分析"关联分析(associationanalysis)发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件.
关联分析广泛用于购物篮或事务数据分析.
更形式地,关联规则(associationrule)是形如XY,即"A1∧…∧AmB1∧…∧Bn"的规则,其中,Ai(i∈{1,…,m}),Bj(j∈{1,…,n})是属性-值对.
关联规则XY解释为"满足X中条件的数据库元组多半也满足Y中条件".
例1.
6给定AllElectronics关系数据库,一个数据挖掘系统可能发现如下形式的关联规则age(X,"20…29")^income(X,"20K…29K")buys(X,"CD_player")[support=2%,confidence=60%]其中X是变量,代表顾客.
该规则是说,所研究的AllElectronics顾客2%(支持度)在20-29岁,年收入20K-29K,并且在AllElectronics购买CD机.
这个年龄和收入组的顾客购买CD机的可能性有60%(置信度或可信性).
注意,这是一个以上属性或谓词(即age,income和buys)之间的关联.
采用多维数据库使用的术语,每个属性称为一维,上面的规则可以称作多维关联规则(multidimensionalassociationrule).
假定作为AllElectronics的市场部经理,你想知道在一个事务中,哪些商品经常被一块购买.
第1章引言第第15下载这种规则的一个例子是contains(T,"computer")contains(T,"software")[support=1%,confidence=50%]该规则是说,如果事务T包含"computer",则它也包含"software"的可能性有50%,并且所有事务的1%包含二者.
这个规则涉及单个重复的属性或谓词(即contains).
包含单个谓词的关联规则称作单维关联规则(single-dimensionalassociationrule).
去掉谓词符号,上面的规则可以简单地写成computersoftware[1%,50%].
近年来,已经提出了许多有效的关联规则挖掘算法.
关联规则挖掘在第6章详细讨论.
1.
4.
3分类和预测分类(classification)是这样的过程,它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类.
导出模型是基于对训练数据集(即其类标记已知的数据对象)的分析.
"如何提供导出模型"导出模式可以用多种形式表示,如分类(IF-THEN)规则、判定树、数学公式或神经网络.
判定树是一个类似于流程图的树结构,每个节点代表一个属性值上的测试,每个分支代表测试的一个输出,树叶代表类或类分布.
判定树容易转换成分类规则.
当用于分类时,神经网络是一组类似于神经元的处理单元,单元之间加权连接.
分类可以用来预测数据对象的类标记.
然而,在某些应用中,人们可能希望预测某些空缺的或不知道的数据值,而不是类标记.
当被预测的值是数值数据时,通常称之为预测(prediction).
尽管预测可以涉及数据值预测和类标记预测,通常预测限于值预测,并因此不同于分类.
预测也包含基于可用数据的分布趋势识别.
相关分析(relevanceanalysis)可能需要在分类和预测之前进行,它试图识别对于分类和预测无用的属性.
这些属性应当排除.
例1.
7假定作为AllElectronics的销售经理,你想根据销售活动的三种反应,对商店的商品集合分类:好的反应,中等反应和没有反应.
你想根据商品的描述特性,如price,brand,place_made,type和category,对这三类的每一种导出模型.
结果分类应最大限度地区别每一个类,提供有组织的数据集图象.
假定结果分类用判定树的形式表示.
例如,判定树可能把price看作最能区分三个类的因素.
该树可能揭示,在price之后,帮助进一步区分每类对象的其他特性包括brand和place_made.
这样的判定树可以帮助你理解给定销售活动的影响,并帮助你设计未来更有效的销售活动.
第7章将详细讨论分类和预测.
1.
4.
4聚类分析"何为聚类分析"与分类和预测不同,聚类(clustering)分析数据对象,而不考虑已知的类标记.
一般情况下,训练数据中不提供类标记,因为不知道从何开始.
聚类,可以用于产生这种标记.
对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组.
即对象的簇(聚类)这样形成,使得在一个簇中的对象具有很高的相似性,而与其他簇中的对象很不16第第数据挖掘:概念与技术下载相似.
所形成的每个簇可以看作一个对象类,由它可以导出规则.
聚类也便于分类编制(taxonomyformation),将观察到的内容组织成类分层结构,把类似的事件组织在一起.
例1.
8聚类分析可以在AllElectronics的顾客数据上进行,以便识别顾客的同类子群.
这些簇可以表示每个购物目标群.
图1-10显示了一个城市内顾客的2-D图.
数据点的三个簇是显而易见的.
图1-10关于一个城市内顾客位置的2-D图,显示了3个聚类,每个聚类的"中心"用"+"标记聚类分析构成第8章的主题.
1.
4.
5孤立点分析数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致.
这些数据对象是孤立点(outlier).
大部分数据挖掘方法将孤立点视为噪声或异常而丢弃.
然而,在一些应用中(如欺骗检测),罕见的事件可能比正常出现的那些更有趣.
孤立点数据分析称作孤立点挖掘(outliermining).
孤立点可以使用统计试验检测.
它假定一个数据分布或概率模型,并使用距离度量,到其他聚类的距离很大的对象被视为孤立点.
基于偏差的方法通过考察一群对象主要特征上的差别识别孤立点,而不是使用统计或距离度量.
例1.
9孤立点分析可以发现信用卡欺骗.
通过检测一个给定帐号与正常的付费相比,以付款数额特别大来发现信用卡欺骗性使用.
孤立点值还可以通过购物地点和类型,或购物频率来检测.
孤立点分析也在第8章讨论.
1.
4.
6演变分析数据演变分析(evolutionanalysis)描述行为随时间变化的对象的规律或趋势,并对其建模.
尽管这可能包括时间相关数据的特征化、区分、关联、分类或聚类,这类分析的不同特点包括第1章引言第第17下载时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析.
例1.
10假定你有纽约股票交易所过去几年的主要股票市场(时间序列)数据,并希望投资于高科技工业公司的股票.
股票交易数据的挖掘研究可以识别整个股票市场和特定公司的股票演变规律.
这种规律可以帮助预测股票市场价格的未来走向,帮助你对股票投资作出决策.
数据演变分析将在第9章进一步讨论.
1.
5所有模式都是有趣的吗数据挖掘系统具有产生数以千计、甚至数以万计的模式或规则的潜在能力.
你可能会问:"所有模式都是有趣的吗"答案是否定的.
实际上,对于给定的用户,在可能产生的模式中,只有一小部分是他感兴趣的.
这对数据挖掘系统提出了一系列的问题.
你可能会想:"什么样的模式是有趣的数据挖掘系统能够产生所有有趣的模式吗数据挖掘系统能够仅产生有趣的模式吗"对于第一个问题,一个模式是有趣的(interesting),如果(1)它易于被人理解;(2)在某种程度上,对于新的或测试数据是有效的;(3)是潜在有用的;(4)是新颖的.
如果一个模式符合用户确信的某种假设,它也是有趣的.
有趣的模式表示知识.
存在一些模式兴趣度的客观度量.
这些度量基于所发现模式的结构和关于它们的统计.
对于形如XY的关联规则,一种客观度量是规则的支持度(support).
规则的支持度表示满足规则的样本百分比.
支持度是概率P(X∪Y),其中,X∪Y表示同时包含X和Y的事务,即项集X和Y的并.
关联规则的另一种客观度量是置信度(confidence).
置信度是条件概率P(Y|X)即包含X的事务也包含Y的概率.
更形式地,支持度和置信度定义为support(XY)=P(X∪Y)confidence(XY)=P(Y|X)一般地,每个兴趣度度量都与一个阈值相关联,该阈值可以由用户控制.
例如,不满足置信度阈值50%的规则可以认为是无趣的.
低于阈值的规则可能反映噪声、异常或少数情况,可能不太有价值.
尽管客观度量可以帮助识别有趣的模式,但是仅有这些还不够,还要结合反映特定用户需要和兴趣的主观度量.
例如,对于市场经理,描述频繁在AllElectronics购物的顾客特性的模式应当是有趣的;但对于同一数据库,分析雇员业绩模式的分析者,它可能不是有趣的.
此外,有些根据客观标准是有趣的模式可能反映一般知识,因而实际上并不令人感兴趣.
主观兴趣度度量基于用户对数据的确信.
这种度量发现有趣的模式,如果它们是出乎意料的(对照用户的确信),或者提供用户可以采取行动的策略信息.
在后一种情况下,这样的模式称为可行动的(actionable).
意料中的模式也可能是有趣的,如果它们证实了用户希望验证的假设,或与用户的预感相似.
第二个问题—"数据挖掘系统能够产生所有有趣的模式吗"—涉及数据挖掘算法的完全性.
期望数据挖掘系统产生所有可能的模式是不现实的和低效的.
实际上,应当根据用户提供的限制和兴趣度对搜索聚焦.
对于某些数据挖掘任务,这通常能够确保算法的完全性.
关联规则挖掘就是一个例子,那里,使用限制和兴趣度度量可以确保挖掘的完全性.
所涉及的方法18第第数据挖掘:概念与技术下载细节将在第6章详细考察.
最后,第三个问题—"数据挖掘系统能够仅产生有趣的模式吗"—是数据挖掘的优化问题.
对于数据挖掘系统,仅产生有趣的模式是非常期望的.
这对于用户和数据挖掘系统是非常有效的,因为这样就不需要搜索所产生的模式,以便识别真正有趣的模式.
在这方面已经有了进展.
然而,在数据挖掘中,这种优化仍然是个挑战.
为了有效地发现对于给定用户有价值的模式,模式兴趣度度量是必需的.
这种度量可以在数据挖掘这一步之后使用,根据它们的兴趣度评估所发现的模式,过滤掉不感兴趣的那些.
更重要的是这种度量可以用来指导和限制发现过程,剪去模式空间中不满足预先设定的兴趣度限制的子集,改善搜索性能.
对于每类可挖掘的模式,评估模式兴趣度和使用它们改善数据挖掘的有效性的方法将在全书加以讨论.
1.
6数据挖掘系统的分类数据挖掘是一个交叉学科领域,受多个学科影响(见图1-11),包括数据库系统、统计学、机器学习、可视化和信息科学.
此外,依赖于所用的数据挖掘方法,以及可以使用的其他学科的技术,如神经网络、模糊和/或粗糙集理论、知识表示、归纳逻辑程序设计或高性能计算.
依赖于所挖掘的数据类型或给定的数据挖掘应用,数据挖掘系统也可能集成空间数据分析、信息检索、模式识别、图象分析、信号处理、计算机图形学、Web技术、经济、商业、生物信息学或心理学领域的技术.
图1-11数据挖掘受多学科的影响由于数据挖掘源于多个学科,因此数据挖掘研究就产生了大量的、各种不同类型数据挖掘系统.
这样,就需要对数据挖掘系统给出一个清楚的分类.
这种分类可以帮助用户区分数据挖掘系统,确定最适合其需要的数据挖掘系统.
根据不同的标准,数据挖掘系统可以分类如下:根据挖掘的数据库类型分类:数据挖掘系统可以根据挖掘的数据库类型分类.
数据库系统本身可以根据不同的标准(如数据模型,或数据或所涉及的应用类型)分类,每一类可能需要自己的数据挖掘技术.
这样,数据挖掘系统就可以相应分类.
例如,如果根据数据模型分类,我们可以有关系的、事务的、面向对象的、对象-关系的或数据仓库的数据挖掘系统.
如果根据所处理的数据的特定类型分类,我们有空间的、时间序列的、文本的或多媒体的数据挖掘系统,或WWW数据挖掘系统.
第1章引言第第19下载数据库技术信息科学数据挖掘可视化其他学科机器学习统计学根据挖掘的知识类型分类:数据挖掘系统可以根据所挖掘的知识类型分类.
即根据数据挖掘的功能,如特征化、区分、关联、分类聚类、孤立点分析和演变分析、偏差分析、类似性分析等分类.
一个全面的数据挖掘系统应当提供多种和/或集成的数据挖掘功能.
此外,数据挖掘系统可以根据所挖掘的知识的粒度或抽象层进行区分,包括概化知识(在高抽象层),原始层知识(在原始数据层),或多层知识(考虑若干抽象层).
一个高级数据挖掘系统应当支持多抽象层的知识发现.
数据挖掘系统还可以分类为挖掘数据规则性(通常出现的模式)和数据不规则性(如异常或孤立点).
一般地,概念描述、关联分析、分类、预测和聚类挖掘数据规律,将孤立点作为噪声排除.
这些方法也能帮助检测孤立点.
根据所用的技术分类:数据挖掘系统也可以根据所用的数据挖掘技术分类.
这些技术可以根据用户交互程度(例如自动系统、交互探查系统、查询驱动系统),或所用的数据分析方法(例如面向数据库或数据仓库的技术、机器学习、统计学、可视化、模式识别、神经网络等)描述.
复杂的数据挖掘系统通常采用多种数据挖掘技术,或采用有效的、集成的技术,结合一些方法的优点.
根据应用分类:数据挖掘系统可以根据其应用分类.
例如,可能有些数据挖掘系统特别适合金融、电信、DNA、股票市场、e-mail,等等.
不同的应用通常需要集成对于该应用特别有效的方法.
因此,普通的、全能的数据挖掘系统可能并不适合特定领域的挖掘任务.
本书的第5~8章根据所挖掘的知识类型组织.
在第9章,我们讨论在各种高级数据库系统上复杂数据类型的挖掘.
第10章讨论一些数据挖掘的应用.
1.
7数据挖掘的主要问题本书提出数据挖掘的主要问题,考虑挖掘方法、用户交互、性能和各种数据类型.
这些问题介绍如下:挖掘方法和用户交互问题:这反映所挖掘的知识类型、在多粒度上挖掘知识的能力、领域知识的使用、特定的挖掘和知识显示.
在数据库中挖掘不同类型的知识:由于不同的用户可能对不同类型的知识感兴趣,数据挖掘系统应当覆盖范围很广的数据分析和知识发现任务,包括数据特征化、区分、关联、分类、聚类、趋势和偏差分析以及类似性分析.
这些任务可能以不同的方式使用相同的数据库,并需要开发大量数据挖掘技术.
多个抽象层的交互知识挖掘:由于很难准确地知道能够在数据库中发现什么,数据挖掘过程应当是交互的.
对于包含大量数据的数据库,应当使用适当的抽样技术,进行交互式数据探查.
交互式挖掘允许用户聚焦搜索模式,根据返回的结果提出和精炼数据挖掘请求.
特殊地,类似于OLAP在数据立方体上做的那样,应当通过交互地在数据空间和知识空间下钻、上卷和转轴来挖掘知识.
用这种方法,用户可以与数据挖掘系统交互,以不同的粒度和从不同的角度观察数据和发现模式.
结合背景知识:可以使用背景知识或关于所研究领域的信息来指导发现过程,并使得发现的模式以简洁的形式在不同的抽象层表示.
关于数据库的领域知识,如完整性约束和演绎20第第数据挖掘:概念与技术下载规则,可以帮助聚焦和加快数据挖掘过程,或评估发现的模式的兴趣度.
数据挖掘查询语言和特定的数据挖掘:关系查询语言(如SQL)允许用户提出特定的数据检索查询.
类似地,需要开发高级数据挖掘查询语言,使得用户通过说明分析任务的相关数据集、领域知识、所挖掘的数据类型、被发现的模式必须满足的条件和约束,描述特定的数据挖掘任务.
这种语言应当与数据库或数据仓库查询语言集成,并且对于有效的、灵活的数据挖掘是优化的.
数据挖掘结果的表示和显示:发现的知识应当用高级语言、可视化表示或其他表示形式表示,使得知识易于理解,能够直接被人们使用.
如果数据挖掘系统是交互的,这一点尤为重要.
这要求系统采用有表达能力的知识表示技术,如树、表、规则、图、图表、交叉表、矩阵或曲线.
处理噪声和不完全数据:存放在数据库中数据可能反映噪声、异常情况或不完全的数据对象.
这些对象可能搞乱分析过程,导致数据与所构造的知识模型过分适应.
其结果是,所发现的模式的精确性可能很差.
需要处理数据噪声的数据清理方法和数据分析方法,以及发现和分析异常情况的孤立点挖掘方法.
模式评估—兴趣度问题:数据挖掘系统可能发现数以千计的模式.
对于给定的用户,许多模式不是有趣的,它们表示公共知识或缺乏新颖性.
关于开发模式兴趣度的评估技术,特别是关于给定用户类,基于用户的信赖或期望,评估模式价值的主观度量,仍然存在一些挑战.
使用兴趣度度量,指导发现过程和压缩搜索空间,是又一个活跃的研究领域.
性能问题:这包括数据挖掘算法的有效性、可伸缩性和并行处理.
数据挖掘算法的有效性和可伸缩性:为了有效地从数据库的大量数据中提取信息,数据挖掘算法必须是有效的和可伸缩的.
换一句话说,对于大型数据库,数据挖掘算法的运行时间必须是可预计的和可接受的.
从数据库角度,有效性和可伸缩性是数据挖掘系统实现的关键问题.
上面讨论的挖掘方法和用户交互的大多数问题,也必须考虑有效性和可伸缩性.
并行、分布式和增量挖掘算法:许多数据库的大容量、数据的广泛分布和一些数据挖掘算法的计算复杂性是促使开发并行和分布式数据挖掘算法的因素.
这些算法将数据划分成各部分,这些部分可以并行处理,然后合并每部分的结果.
此外,有些数据挖掘过程的高花费导致了对增量数据挖掘算法的需要.
增量算法与数据库更新结合在一起,而不必重新挖掘全部数据.
这种算法渐增地进行知识更新,修正和加强先前业已发现的知识.
关于数据库类型的多样性问题:关系的和复杂的数据类型的处理:由于关系数据库和数据仓库已经广泛使用,对它们开发有效的数据挖掘系统是重要的.
然而,其他数据库可能包含复杂的数据对象、超文本和多媒体数据、空间数据、时间数据或事务数据.
由于数据类型的多样性和数据挖掘的目标不同,指望一个系统挖掘所有类型的数据是不现实的.
为挖掘特定类型的数据,应当构造特定的数据挖掘系统.
这样,对于不同类型的数据,我们可能有不同的数据挖掘系统.
由异种数据库和全球信息系统挖掘信息:局域网和广域网(如Internet)连接了许多数据源,形成了庞大的、分布式的和异种的数据库.
从具有不同数据语义的结构化的、半结构化的和非结构化的不同数据源发现知识,对数据挖掘提出了巨大挑战.
数据挖掘可以帮助发现第1章引言第第21下载多个异种数据库中的数据规律,这些规律多半难以被简单的查询系统发现,并可以改进异种数据库的信息交换和互操作性.
Web挖掘发现关于Web内容、Web使用和Web动态情况的有趣知识,已经成为数据挖掘的一个非常具有挑战性的领域.
以上问题是数据挖掘技术未来发展的主要需求和挑战.
在近来的数据挖掘研究和开发中,一些挑战业已受到一定程度的关注,并考虑到了各种需求,而另一些仍处于研究阶段.
然而,这些问题将继续刺激进一步的研究和改进.
涉及数据挖掘应用、保密性和社会影响的问题将在本书的最后一章第10章讨论.
1.
8小结数据库技术已经从原始的数据处理,发展到开发具有查询和事务处理能力的数据库管理系统.
进一步的发展导致越来越需要有效的数据分析和数据理解工具.
这种需求是各种应用收集的数据爆炸性增长的必然结果,这些应用包括商务和管理、行政管理、科学和工程以及环境控制.
数据挖掘是从大量数据中发现有趣模式,这些数据可以存放在数据库、数据仓库或其他信息存储中.
这是一个年青的跨学科领域,源于诸如数据库系统、数据仓库、统计学、机器学习、数据可视化、信息检索和高性能计算.
其他有贡献的领域包括神经网络、模式识别、空间数据分析、图象数据库、信号处理和许多应用领域,包括商务、经济学和生物信息学.
知识发现过程包括数据清理、数据集成、数据变换、数据挖掘、模式评估和知识表示.
数据模式可以从不同类型的数据库挖掘,如关系数据库,数据仓库,以及事务的、对象-关系的和面向对象的数据库.
有趣的数据模式也可以从其他类型的信息存储中提取,包括空间的、时间相关的、文本的、多媒体的和遗产数据库,以及WWW.
数据仓库是一种数据的长期存储,这些数据来自多数据源,是经过组织的,以便支持管理决策.
这些数据在一种一致的模式下存放,并且通常是汇总的.
数据仓库提供一些数据分析能力,称作OLAP(联机分析处理).
数据挖掘功能包括发现概念/类描述、关联、分类、预测、聚类、趋势分析、偏差分析和类似性分析.
特征化和区分是数据汇总的形式.
模式提供知识,如果它易于被人理解,在某种程度上对于测试数据是有效的,并且是潜在有用的、新颖的或者它验证了用户关注的某种预感.
模式兴趣度度量,无论是客观的还是主观的,都可以用来指导发现过程.
数据挖掘系统可以根据所挖掘的数据库类型、所挖掘的知识类型或所使用的技术加以分类.
大型数据库中有效的数据挖掘对于研究者和开发者提出了大量需求和巨大的挑战.
问题涉及数据挖掘技术、用户交互、性能和可伸缩性以及大量不同数据类型的处理.
其他问题包括数据挖掘的应用开发和它们的社会影响.
习题1.
1什么是数据挖掘在你的回答中,强调以下问题:22第第数据挖掘:概念与技术下载(a)它是又一个骗局吗(b)它是一种从数据库、统计学和机器学习发展的技术的简单转换吗(c)解释数据库技术发展如何导致数据挖掘.
(d)当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤.
1.
2给出一个例子,其中数据挖掘对于一种商务的成功是至关重要的.
这种商务需要什么数据挖掘功能它们能够由数据查询处理或简单的统计分析来实现吗1.
3假定你是Big-University的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库.
该数据库包括如下信息:每个学生的姓名、地址和状态(例如,本科生或研究生)、所修课程,以及他们累积的GPA(学分平均).
描述你要选取的结构.
该结构的每个成分的作用是什么1.
4数据仓库和数据库有何不同它们有哪些相似之处1.
5简述以下高级数据库系统和应用:面向对象数据库、空间数据库、文本数据库、多媒体数据库和WWW.
1.
6定义下列数据挖掘功能:特征化、区分、关联、分类、预测、聚类和演变分析.
使用你熟悉的现实生活中的数据库,给出每种数据挖掘功能的例子.
1.
7区分和分类的差别是什么特征化和聚类的差别是什么分类和预测呢对于每一对任务,它们有何相似之处1.
8根据你的观察,描述一种可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出.
它需要一种不同于本章列举的数据挖掘技术吗1.
9描述关于数据挖掘方法和用户交互问题的三个数据挖掘的挑战.
1.
10描述关于性能问题的两个数据挖掘的挑战.
文献注释Piatetsky-Shapiro和Frawley编辑的书KnowledgeDiscoveryinDatabases[PSF91]是数据库中知识发现早期研究论文的汇集.
Fayyad,Piatetsky-Shapiro,Smyth和Uthurusamy编辑的书AdvancesinKnowledgeDiscoveryandDataMining[FPS+96]是一本知识发现和数据挖掘近期研究成果的很好的汇集.
其他数据挖掘书籍包括Weiss和Indurkhya的PredictiveDataMining[WI98],Michalski,Brakto和Kubat的MachineLearningandDataMining:MethodsandApplications[MBK98],Westphal和Blaxton的DataMiningSolutions:MethodsandToolsforSolvingReal-WorldProblems[WB98],Berry和Linoff的TheArtandScienceofCustomerRelationshipManagement[BL99],Berson,Smith和Thearling的BuildingDataMiningApplicationsforCRM[BST99],和Groth的DataMining:BuildingCompetitiveAdvantage[Gro99].
还有一些书包含知识发现特定方面应用的论文,如Ziarko编辑的RoughSets,FuzzySetsandKnowledgeDiscovery[Zia94],以及一些数据挖掘指南手册,如ACM出版社出版的TutorialNotesofthe1999InternationalConferenceonKnowledgeDiscoveryandDataMining(KDD'99).
KDDNuggets是一个包含知识发现和数据挖掘有关信息的定期的、免费的电子通信.
投稿可以连同描述主题行(和URL)用电子邮件发往editor@kdnuggets.
com.
关于订阅的信息可以在http://www.
kdnuggets.
com/news/subscribe.
html找到.
自1991年以来,KDDNuggets已被Piatetsky-第1章引言第第23下载Shapiro调整.
位于http://www.
kdnuggets.
com/的Internet站点KnowledgeDiscoveryMine包含大量关于KDD的信息.
数据挖掘界于1995年召开了它的第一届知识发现与数据挖掘国际学术会议[FU96].
该会议是由1989至1994年举行的四次数据库中知识发现国际研讨会[PS89,PS91a,FU93,FU94]发展起来的.
数据挖掘研究界于1998年建立起一个新的学术组织ACM-SIGKDD,即ACM下的数据库中的知识发现专业组(SpecialInterestedGrouponKnowledgeDiscoveryinDatabases).
1999年ACM-SIGKDD组织了第五届知识发现与数据挖掘国际学术会议(KDD'99).
专题杂志DataMiningandKnowledgeDiscovery自1997年起由Kluwers出版社出版.
ACM-SIGKDD还出版一种季刊电子通信SIGKDDExplorations,SIGKDD成员可以使用.
还有一些其他国际或地区性数据挖掘会议,如"知识发现与数据挖掘太平洋亚洲会议"(PAKDD),"数据库中知识发现原理与实践欧洲会议"(PKDD),和"数据仓库与知识发现国际会议"(DaWaK).
数据挖掘研究还发表在书籍、会议以及有关数据库、统计学、机器学习和数据可视化的杂志上.
源于这些的文献列举如下.
数据库系统的流行教科书包括Ullamn的PrinciplesofDatabaseandKnowledge-BaseSystems,Vol.
1[Ull88],Elmasri和Navathe的FundamentalsofDatabaseSystems,2nded.
[EN94],Silberschatz,Korth和Sudarshan的DatabaseSystemConcepts3rded.
[SKS97],Ullman和Widom的AFirstCourseinDatabaseSystems[UW97],和Ramakrishnan和Gehrke的DatabaseManagementSystems,2nded.
[RG00].
数据库系统的文章汇集见Stonebraker和Hellerstein编辑的ReadingsinDatabaseSystems[SH98].
关于数据库系统的成就与研究挑战的回顾和讨论在Stonebraker,Agrawal,Dayal等著的[SAD+93]以及Silberschatz,Stonebraker和Ullman著的[SSU96]中找到.
在过去的几年中,许多关于数据仓库技术、系统和应用的书籍已经出版.
如Kimball的TheDataWarehouseToolkit[Kim96],Inmon的BuildingtheDataWarehouse[Inm96],Thomsen的OLAPSolutions:BuildingMultidimensionalInformationSystems[Tho97].
Chaudhuri和Dayal[CD97]给出了数据仓库技术的全面回顾.
涉及数据挖掘和数据仓库的研究结果已在许多数据库国际学术会议论文集发表,包括"ACM-SIGMOD数据管理国际会议"(SIGMOD),"超大型数据库国际会议"(VLDB),"ACM-SIGMOD-SIGART数据库原理研讨会"(PODS),"数据工程国际会议"(ICDE),"扩展数据库技术国际会议"(EDBT),"数据库理论国际会议"(ICDT),"信息与知识管理国际会议"(CIKM),"数据库与专家系统应用国际会议"(DEXA),和"数据库系统高级应用国际会议"(DASFAA).
数据挖掘研究也发表在主要数据库杂志上,包括《IEEE知识与数据工程汇刊》(TKDE),《ACM数据库系统汇刊》(TODS),《ACM杂志》(JACM),《信息系统》,《VLDB杂志》,《数据与知识工程》,和《智能信息系统国际杂志》(JIIS).
有许多教材涵盖了统计分析的不同主题,如Devore的ProbabilityandStatisticsforEngineeringandSciences,4thed.
[Dev95],Neter,Kutner,Nachtsheim和Wasserman的AppliedLinearStatisticalModels,4thed.
[NKNW96],Dobson的AnIntroductiontoGeneralizedLinearModels[Dob90],Shumway的AppliedStatisticalTimeSeriesAnalysis[Shu88],以及Johnson和Wichern的AppliedMultivariateStatisticalAnalysis,3rded.
[JW92]24第第数据挖掘:概念与技术下载统计学研究发表在一些主要的统计会议会刊上,包括"联合统计会议","皇家统计学会国际会议","界面研讨会:计算科学与统计".
其他刊物源包括《皇家统计学会杂志》,《统计年鉴》,《美国统计学会杂志》,Technometrics和Biometrika.
机器学习方面的教材和书籍包括Michalski等编辑的MachineLearning,AnArtificalIntelligenceApproach,Vols.
1-4[MCM83,MCM86,KM90,MT94],Quinlan的C4.
5:ProgramsforMachineLearning[Qui93],Langley的ElementsofMachineLearning[Lan96],和Mitchell的MachineLearning[Mit97].
Weiss和Kulikowski的书ComputerSystemThatLearn:ClassificationandPredictionMethodsfromStatistics,NeuralNets,MachineLearning,andExpertSystems[WK91]比较了若干不同领域的分类和比较方法.
一本编辑的机器学习论文汇集见Shavlik和Dietterich的ReadingsinMachineLearning[SD90].
机器学习研究发表在一些大型机器学习和人工智能会议论文集上,包括"机器学习国际会议"(ML),"ACM计算学习理论会议"(COLT),"人工智能国际联合会议"(IJCAI),和"美国人工智能学会会议"(AAAI).
其他出版源包括主要的机器学习、人工智能和知识系统杂志,其中有些上面已经提到.
其余的包括MachineLearning(ML),ArtificialIntelligenceJournal(AI)和CognitiveScience.
从统计模式识别角度的分类回顾可以在Duda和Hart著的[DH73]中找到.
数据可视化技术的先驱者的工作在Tufte的TheVisualDisplayofQuantitativeInformation[T83]和EnvisioningInformation[Tuf90],以及Bertin的GraphicsandGraphicInformationProcessing[Ber81]中介绍.
Keim的VisualTechniquesforExploringDatabases[Kei97]给出了数据挖掘可视化的指南.
可视化主要的会议和研讨会包括"ACM计算机系统中人的因素"(CHI),"可视化",以及"信息可视化国际研讨会".
可视化研究也发表在《可视化和计算机图形学汇刊》,《计算和图形统计杂志》,以及《IEEE计算机图形学及其应用》.
第1章引言第第25下载

展开全文

数据网站流量查看相关文档

发行人网站流量查看

支持网站流量查看

流量[定稿]牟长青如何查看一个网站真实流量

流量牟长青如何查看一个网站真实流量[策划]

用户怎么查看网站流量

网站为什么要定期查看网站流量统计？

fugedios11 支出127 支持ipad VTLHios ipad如何上网ipad怎么设置网络？ipad上网ipad上网速度很慢怎么回事？用itunes备份iphone怎么从itunes备份恢复联通版iphone4s苹果4s是联通版，或移动版，或全网通如何知道？google图片搜索谁能教我怎么在手机用google的图片搜索啊！！！chromeframe谷歌浏览器(Chrome) 与(Chromium) 有什么区别？哪个更快？ ip查域名 yardvps 免费主机 eq2 创梦河南移动邮件系统最好的qq空间空间技术网申请网站西安服务器托管免费的asp空间睿云服务器托管价格脚本大全美国主机 windowsserverr2 nic 低价挂马检测工具 ddos是什么更多

数据网站流量查看

香港服务器租用多少钱一个月?影响香港服务器租用价格因素

DediPath（$1.40），OpenVZ架构 1GB内存

Sharktech10Gbps带宽，不限制流量，自带5个IPv4，100G防御