非结构化数据管理“数据仓库之父”谈如何处理非结构化数据

非结构化数据管理  时间:2021-05-30  阅读:()

如何处理非结构化数据

我认为这其中最大的一部分是来自于社交媒体的移动平台产生的数据和海量的电子邮件。

据InformationWeek报道,英特尔估计到2015年,全球至少有25亿人会频繁使用互联网,产生的数据量必将越来越多,我们需要更多的资源用于存储和处理这些数据信息。

这一观点引发了数据分析师纷纷开始研究非结构化数据的潜力;例如,谷歌的阿维纳什考希克就公开声称“非结构化数据的高潮将至。

”   在此,我希望与您分享一些您可以用来处理非结构化数据的方法:   在云计算在分发数据,只储存更多的非结构化数据,希望您能利用先进的大数据分析与预测分析平台看到有用的数据模式。

  开发更强大的分析引擎以便分析数据,其中大部分将在云中实时进行。

  将暗数据/暗社交和紫外数据转化为可用的结构化数据信息,您能从中获得见解,正如我曾经提及的分裂分析角度。

  将尽可能多的数据合并为大型数据文件,奥巴马团队在2012年的选举在所做的准备工作就是一个很好合并的例子,合并几个不同的数据库,可以使得数据分析和预测见解更容易。

  清洁数据:这是假设非结构化数据是脏的,或者说是对目前的分析状态没有有用的。

您可以清除重复的信息,确保实体命名的一致性,清空稀疏的数据集。

考虑检查Saleforce 的关键社交数据,这关系到客户数据记录到社交媒体帐户和网上在线内容的帐户。

“数据仓库之父”谈如何处理非结构化数据

毫无疑问,这是一个信息爆炸的时代。

你的服务器上充满了各种各样的数据。

问题就提出来了,你如何处理那些非结构化数据?在本文中,让“数据仓库之父” W.H.Inmon谈谈他自己的独到见解。

  虽说非结构化数据很难处理,但是它已经存在很久了,肯定比计算机的历史还要久远。

不信的话,想想圣经,埃及象形文字,和卡马河佛经这些骨灰级的东西,它们都是非结构化数据,它们的历史可想而知了。

这些非结构化数据绝对比那些硅片的出现的要早。

搜索引擎虽然出现了一段时间,但也绝没有印刷时代历史悠久。

即便现在的搜索引擎已经很完善了,但想随心所欲的处理包含非结构化数据信息的时代还没有到来,至少目前是这样的。

这是什么原因造成的呢?   1、无用输入,无用输出 :     只有实现非结构化数据到数据仓库的抽取,搜索引擎才会释放出非结构化数据的真正价值。

实现非结构化数据的整合存在着困难,想想那些很早就提出来的信息技术难题:无用信息输入,无用信息输出(GIGO),就会知道即使功能再强大的搜索引擎,用来处理那些实质上未经提炼和整和的数据会得到什么结果?搜索引擎的结果会告诉我们答案,返回给用户的也将会是一些没有提炼,无用的信息。

     因此,在搜索之前,那些非结构化的文本数据需要被提炼整合。

如果这个工作完成的话,就不会有无用信息的输入,那么将不会产生无用的输出信息。

  2、数据和公司数据的差异 :   通过搜索来提炼数据收效甚微。

通过提炼和整合数据是白费力气。

试图在整合数据好比愚公移山,大海捞针。

     但是公司数据就是另外一回事了,有以下两个原因。

第一,当提到公司数据,它的总量和类型是有限的,而上的数据正好相反,无穷无尽。

第二,不像数据,公司数据几乎和公司的事务相关。

我可以很肯定的说,上的数据上只有小部分的数据和公司的事务相关。

     因此,整合公司文本数据,或者为了研究或者分析的目的而去整合,是非常可行的。

  3、什么样的公司数据需要整合:   因此什么样的公司数据需要被整合呢?很明显,有这么些类型的公司数据应该被整合,包括:   1.客户数据——那些与客户信息相关的数据   2.安全性数据——如意外事件,审查,修理,特约条款等等这些重要的事件   3.合同数据——与公司合同相关的数据   4.发现数据(Discovery data)——诉讼过程中的数据   5.顺应性数据(Compliance data)——针对公司敏感事件和事务的描述     由此看出,公司数据限制很少,或者从理论上说,是没有限制的。

  4、数据整合的优势:     整合公司文本数据的重大优点之一,就是一旦整合,它们就可以输入到数据仓库中,并且能重用。

也就是说,公司文本数据只需要整合一次。

整合之后,只要你愿意,你可以多次研究和分析这些数据,可谓一劳永逸。

  值得一提的是,在这公司文本数据整合后,就可以放入到数据仓库中。

一旦进入了数据仓库,这些数据就能与结构数据结合到一起。

  5、客户信息分析 :     举个例子,如针对公司的客户信息管理系统,就要分析客户信息。

通常会从客户那里收到e-mail。

但是,一旦那些e-mail阅读之后,通常就被放在一边了。

这些读过的邮件将会存放到一个文件夹里,从此这些邮件就在那里搁置着,与另外上千的e-mail堆放在一起。

  问题是,当公司需要这些信息的时候,这些信息却很难找到。

当一些e-mail涉及到潜在的未来信息,就显得更加重要了。

  客户琼斯夫人案例分析     为了证明以上观点,让我们看看一个案例,这个案例的主角是一位叫琼斯夫人的客户。

假设她上个月写了一个e-mail来严厉批评公司的销售人员,因为她的一个订单被延误了。

而正好这个月,公司的另外销售人员准备打电话给琼斯夫人,请求下更多的订单。

这是时候,对于那个销售人员来说,上个月的来自琼斯夫人的e-mail重不重要呢?   答案当然是非常重要的。

如果我们想给琼斯夫人推销更多的新产品,这个时候关于客户最近的任何信息都是非常重要的,无论正面了解的信息,还是从琼斯夫人那里反馈的信息。

因此,摆在我们公司面前的问题就是如何找到那些与客户相关的e-mail?如何过滤掉那些不相关的e-mail?     这里说的例子,只是其中的一个,许多的例子都需要用到非结构文本数据,如果为公司文本数据设计一个专门的整合过程,将这些公司文本数据能存储到一个数据仓库里,查找、过滤信息就好办多了。

     注:数据无非包括结构化数据和非结构化数据。

结构化数据可以很轻松的被导入到数据仓库中,因为不管是3NF还是星型模型,它们在结构上都属于结构化数据。

而非结构化数据包括音频、图像、e-mail、电子表格、txt文本、文档、报告等。

  作者简介   比尔?恩门(Bill Inmon),被称为数据仓库之父,最早的数据仓库概念提出者,在数据库技术管理与数据库设计方面,拥有逾35年的经验。

他是“企业信息工厂”的合作创始人与“政府信息工厂”的创始人。

数脉科技8月促销,新客减400港币,BGP、CN2+BGP、阿里云线路低至350元

数脉科技(shuhost)8月促销:香港独立服务器,自营BGP、CN2+BGP、阿里云线路,新客立减400港币/月,老用户按照优惠码减免!香港服务器带宽可选10Mbps、30Mbps、50Mbps、100Mbps带宽,支持中文本Windows、Linux等系统。官方网站:https://www.shuhost.com* 更大带宽可在选购时选择同样享受优惠。* 目前仅提供HKBGP、阿里云产品,香港...

香港最便宜的vps要多少钱?最便宜的香港vps能用吗?

香港最便宜的vps要多少钱?最便宜的香港vps能用吗?香港vps无需备案,整体性能好,而且租用价格便宜,使用灵活,因为备受站长喜爱。无论是个人还是企业建站,都比较倾向于选择香港VPS。最便宜的香港vps能用吗?正因为有着诸多租用优势,香港VPS在业内颇受欢迎,租用需求量也在日益攀升。那么,对于新手用户来说,香港最便宜的vps租用有四大要点是务必要注意的,还有易探云香港vps租用最便宜的月付仅18元...

RFCHOST - 洛杉矶CN2 GIA VPS季付23.9美元起 100Mbps带宽

RFCHOST,这个服务商我们可能有一些朋友知道的。不要看官网是英文就以为是老外服务商,实际上这个服务商公司在上海。我们实际上看到的很多商家,有的是繁体,有的是英文,实际上很多都是我们国人朋友做的,有的甚至还做好几个品牌域名,实际上都是一个公司。对于RFCHOST商家还是第一次分享他们家的信息,公司成立大约2015年左右。目前RFCHOST洛杉矶机房VPS正进行优惠促销,采用CN2优化线路,电信双...

非结构化数据管理为你推荐
江苏电信机房托管服务器机房放哪里比较好?哪些公司能做托管新浪微相册新浪微博相册配图怎么删除linux路由跟踪linux 用route add命令设置路由,目标地址是一个地址段:192.168.2.100-192.168.2.200linux开放8080端口怎么在linux 打开80端口阿里云如何重装系统怎么重装系统~???徐正溪独孤天下杨勇是谁演的 独孤天下杨勇历史原型是谁ck香港官网calvin klein香港专柜地址搭建服务器教程怎么在自己的电脑上建立服务器一个服务器多少钱100M独享服务器多少钱爱奇艺会员体验购买什么东西才能获得爱奇艺的vip体验卷
域名邮箱 vps论坛 动态ip的vps 西安服务器 5折 美国主机网 idc测评网 双11抢红包攻略 patcha qq数据库下载 bgp双线 网站木马检测工具 isp服务商 美国堪萨斯 福建铁通 网通服务器托管 视频服务器是什么 国外的代理服务器 镇江高防 学生服务器 更多