非结构化数据管理“数据仓库之父”谈如何处理非结构化数据

非结构化数据管理  时间:2021-05-30  阅读:()

如何处理非结构化数据

我认为这其中最大的一部分是来自于社交媒体的移动平台产生的数据和海量的电子邮件。

据InformationWeek报道,英特尔估计到2015年,全球至少有25亿人会频繁使用互联网,产生的数据量必将越来越多,我们需要更多的资源用于存储和处理这些数据信息。

这一观点引发了数据分析师纷纷开始研究非结构化数据的潜力;例如,谷歌的阿维纳什考希克就公开声称“非结构化数据的高潮将至。

”   在此,我希望与您分享一些您可以用来处理非结构化数据的方法:   在云计算在分发数据,只储存更多的非结构化数据,希望您能利用先进的大数据分析与预测分析平台看到有用的数据模式。

  开发更强大的分析引擎以便分析数据,其中大部分将在云中实时进行。

  将暗数据/暗社交和紫外数据转化为可用的结构化数据信息,您能从中获得见解,正如我曾经提及的分裂分析角度。

  将尽可能多的数据合并为大型数据文件,奥巴马团队在2012年的选举在所做的准备工作就是一个很好合并的例子,合并几个不同的数据库,可以使得数据分析和预测见解更容易。

  清洁数据:这是假设非结构化数据是脏的,或者说是对目前的分析状态没有有用的。

您可以清除重复的信息,确保实体命名的一致性,清空稀疏的数据集。

考虑检查Saleforce 的关键社交数据,这关系到客户数据记录到社交媒体帐户和网上在线内容的帐户。

“数据仓库之父”谈如何处理非结构化数据

毫无疑问,这是一个信息爆炸的时代。

你的服务器上充满了各种各样的数据。

问题就提出来了,你如何处理那些非结构化数据?在本文中,让“数据仓库之父” W.H.Inmon谈谈他自己的独到见解。

  虽说非结构化数据很难处理,但是它已经存在很久了,肯定比计算机的历史还要久远。

不信的话,想想圣经,埃及象形文字,和卡马河佛经这些骨灰级的东西,它们都是非结构化数据,它们的历史可想而知了。

这些非结构化数据绝对比那些硅片的出现的要早。

搜索引擎虽然出现了一段时间,但也绝没有印刷时代历史悠久。

即便现在的搜索引擎已经很完善了,但想随心所欲的处理包含非结构化数据信息的时代还没有到来,至少目前是这样的。

这是什么原因造成的呢?   1、无用输入,无用输出 :     只有实现非结构化数据到数据仓库的抽取,搜索引擎才会释放出非结构化数据的真正价值。

实现非结构化数据的整合存在着困难,想想那些很早就提出来的信息技术难题:无用信息输入,无用信息输出(GIGO),就会知道即使功能再强大的搜索引擎,用来处理那些实质上未经提炼和整和的数据会得到什么结果?搜索引擎的结果会告诉我们答案,返回给用户的也将会是一些没有提炼,无用的信息。

     因此,在搜索之前,那些非结构化的文本数据需要被提炼整合。

如果这个工作完成的话,就不会有无用信息的输入,那么将不会产生无用的输出信息。

  2、数据和公司数据的差异 :   通过搜索来提炼数据收效甚微。

通过提炼和整合数据是白费力气。

试图在整合数据好比愚公移山,大海捞针。

     但是公司数据就是另外一回事了,有以下两个原因。

第一,当提到公司数据,它的总量和类型是有限的,而上的数据正好相反,无穷无尽。

第二,不像数据,公司数据几乎和公司的事务相关。

我可以很肯定的说,上的数据上只有小部分的数据和公司的事务相关。

     因此,整合公司文本数据,或者为了研究或者分析的目的而去整合,是非常可行的。

  3、什么样的公司数据需要整合:   因此什么样的公司数据需要被整合呢?很明显,有这么些类型的公司数据应该被整合,包括:   1.客户数据——那些与客户信息相关的数据   2.安全性数据——如意外事件,审查,修理,特约条款等等这些重要的事件   3.合同数据——与公司合同相关的数据   4.发现数据(Discovery data)——诉讼过程中的数据   5.顺应性数据(Compliance data)——针对公司敏感事件和事务的描述     由此看出,公司数据限制很少,或者从理论上说,是没有限制的。

  4、数据整合的优势:     整合公司文本数据的重大优点之一,就是一旦整合,它们就可以输入到数据仓库中,并且能重用。

也就是说,公司文本数据只需要整合一次。

整合之后,只要你愿意,你可以多次研究和分析这些数据,可谓一劳永逸。

  值得一提的是,在这公司文本数据整合后,就可以放入到数据仓库中。

一旦进入了数据仓库,这些数据就能与结构数据结合到一起。

  5、客户信息分析 :     举个例子,如针对公司的客户信息管理系统,就要分析客户信息。

通常会从客户那里收到e-mail。

但是,一旦那些e-mail阅读之后,通常就被放在一边了。

这些读过的邮件将会存放到一个文件夹里,从此这些邮件就在那里搁置着,与另外上千的e-mail堆放在一起。

  问题是,当公司需要这些信息的时候,这些信息却很难找到。

当一些e-mail涉及到潜在的未来信息,就显得更加重要了。

  客户琼斯夫人案例分析     为了证明以上观点,让我们看看一个案例,这个案例的主角是一位叫琼斯夫人的客户。

假设她上个月写了一个e-mail来严厉批评公司的销售人员,因为她的一个订单被延误了。

而正好这个月,公司的另外销售人员准备打电话给琼斯夫人,请求下更多的订单。

这是时候,对于那个销售人员来说,上个月的来自琼斯夫人的e-mail重不重要呢?   答案当然是非常重要的。

如果我们想给琼斯夫人推销更多的新产品,这个时候关于客户最近的任何信息都是非常重要的,无论正面了解的信息,还是从琼斯夫人那里反馈的信息。

因此,摆在我们公司面前的问题就是如何找到那些与客户相关的e-mail?如何过滤掉那些不相关的e-mail?     这里说的例子,只是其中的一个,许多的例子都需要用到非结构文本数据,如果为公司文本数据设计一个专门的整合过程,将这些公司文本数据能存储到一个数据仓库里,查找、过滤信息就好办多了。

     注:数据无非包括结构化数据和非结构化数据。

结构化数据可以很轻松的被导入到数据仓库中,因为不管是3NF还是星型模型,它们在结构上都属于结构化数据。

而非结构化数据包括音频、图像、e-mail、电子表格、txt文本、文档、报告等。

  作者简介   比尔?恩门(Bill Inmon),被称为数据仓库之父,最早的数据仓库概念提出者,在数据库技术管理与数据库设计方面,拥有逾35年的经验。

他是“企业信息工厂”的合作创始人与“政府信息工厂”的创始人。

licloud:$39/月,香港物理服务器,30M带宽,e3-1230v3/16G内存/1T硬盘

licloud官方消息:当前对香港机房的接近100台物理机(香港服务器)进行打折处理,30Mbps带宽,低至不到40美元/月,速度快,性价比高,跑绝大多数项目都是绰绰有余了。该款香港服务器自带启动、关闭、一键重装功能,正常工作日内30~60分钟交货(不包括非工作日)。 官方网站:https://licloud.io 特价香港物理服务器 CPU:e3-1230v2(4核心、8线程、3.3GH...

华纳云不限流量¥324/年,香港双向CN2(GIA)云服务器/1核1G/50G存储/2Mbps

华纳云(HNCloud Limited)是一家专业的全球数据中心基础服务提供商,总部在香港,隶属于香港联合通讯国际有限公司,拥有香港政府颁发的商业登记证明,保证用户的安全性和合规性。 华纳云是APNIC 和 ARIN 会员单位。主要提供香港和美国机房的VPS云服务器和独立服务器。商家支持支付宝、网银、Paypal付款。华纳云主要面向国内用户群,所以线路质量还是不错的,客户使用体验总体反响还是比较好...

天上云月付572元,起香港三网CN2直连,独立服务器88折优惠,香港沙田机房

天上云怎么样?天上云隶属于成都天上云网络科技有限公司,是一家提供云服务器及物理服务器的国人商家,目前商家针对香港物理机在做优惠促销,香港沙田机房采用三网直连,其中电信走CN2,带宽为50Mbps,不限制流量,商家提供IPMI,可以自行管理,随意安装系统,目前E3-1225/16G的套餐低至572元每月,有做大规模业务的朋友可以看看。点击进入:天上云官方网站天上云香港物理机服务器套餐:香港沙田数据中...

非结构化数据管理为你推荐
小米云服务器登录你好 我想咨询下 要登录小米云服务除了手机信息验证还有其他方法吗?国外域名注册商我有一个域名在一个国外的注册商moniker,现在我想转移到我们本地的域名注册商35管理,请问如何操作?阿里云服务器账号密码阿里云服务,administrator密码错误怎么解决传奇云服务器传奇只开一个网关游戏会卡吗?云服务器2核2g系统盘50g数据盘10g带宽20m,云服务器免费申请怎样申请免费的服务器?华为云服务找回手机我的华为手机刚刚丢了,处于关机状态下可以定位找回吗vds是什么场效应管的工作原理是什么?那好上海哪里好找工作?阿里云服务器怎么样阿里云服务器怎么样?用来做网站效果好吗?四叶草安全四叶草汽车用品儿童汽车安全座椅怎么样,质量好不好吗?
域名服务 vps是什么 唯品秀 rak机房 域名转向 电信托管 如何建立邮箱 1元域名 免费的asp空间 免费的域名 免费asp空间申请 免费稳定空间 服务器硬件配置 防盗链 时间同步服务器 以下 达拉斯 dns是什么意思 装修瓦工培训 装修瓦工招聘 更多