非结构化数据管理“数据仓库之父”谈如何处理非结构化数据

非结构化数据管理  时间:2021-05-30  阅读:()

如何处理非结构化数据

我认为这其中最大的一部分是来自于社交媒体的移动平台产生的数据和海量的电子邮件。

据InformationWeek报道,英特尔估计到2015年,全球至少有25亿人会频繁使用互联网,产生的数据量必将越来越多,我们需要更多的资源用于存储和处理这些数据信息。

这一观点引发了数据分析师纷纷开始研究非结构化数据的潜力;例如,谷歌的阿维纳什考希克就公开声称“非结构化数据的高潮将至。

”   在此,我希望与您分享一些您可以用来处理非结构化数据的方法:   在云计算在分发数据,只储存更多的非结构化数据,希望您能利用先进的大数据分析与预测分析平台看到有用的数据模式。

  开发更强大的分析引擎以便分析数据,其中大部分将在云中实时进行。

  将暗数据/暗社交和紫外数据转化为可用的结构化数据信息,您能从中获得见解,正如我曾经提及的分裂分析角度。

  将尽可能多的数据合并为大型数据文件,奥巴马团队在2012年的选举在所做的准备工作就是一个很好合并的例子,合并几个不同的数据库,可以使得数据分析和预测见解更容易。

  清洁数据:这是假设非结构化数据是脏的,或者说是对目前的分析状态没有有用的。

您可以清除重复的信息,确保实体命名的一致性,清空稀疏的数据集。

考虑检查Saleforce 的关键社交数据,这关系到客户数据记录到社交媒体帐户和网上在线内容的帐户。

“数据仓库之父”谈如何处理非结构化数据

毫无疑问,这是一个信息爆炸的时代。

你的服务器上充满了各种各样的数据。

问题就提出来了,你如何处理那些非结构化数据?在本文中,让“数据仓库之父” W.H.Inmon谈谈他自己的独到见解。

  虽说非结构化数据很难处理,但是它已经存在很久了,肯定比计算机的历史还要久远。

不信的话,想想圣经,埃及象形文字,和卡马河佛经这些骨灰级的东西,它们都是非结构化数据,它们的历史可想而知了。

这些非结构化数据绝对比那些硅片的出现的要早。

搜索引擎虽然出现了一段时间,但也绝没有印刷时代历史悠久。

即便现在的搜索引擎已经很完善了,但想随心所欲的处理包含非结构化数据信息的时代还没有到来,至少目前是这样的。

这是什么原因造成的呢?   1、无用输入,无用输出 :     只有实现非结构化数据到数据仓库的抽取,搜索引擎才会释放出非结构化数据的真正价值。

实现非结构化数据的整合存在着困难,想想那些很早就提出来的信息技术难题:无用信息输入,无用信息输出(GIGO),就会知道即使功能再强大的搜索引擎,用来处理那些实质上未经提炼和整和的数据会得到什么结果?搜索引擎的结果会告诉我们答案,返回给用户的也将会是一些没有提炼,无用的信息。

     因此,在搜索之前,那些非结构化的文本数据需要被提炼整合。

如果这个工作完成的话,就不会有无用信息的输入,那么将不会产生无用的输出信息。

  2、数据和公司数据的差异 :   通过搜索来提炼数据收效甚微。

通过提炼和整合数据是白费力气。

试图在整合数据好比愚公移山,大海捞针。

     但是公司数据就是另外一回事了,有以下两个原因。

第一,当提到公司数据,它的总量和类型是有限的,而上的数据正好相反,无穷无尽。

第二,不像数据,公司数据几乎和公司的事务相关。

我可以很肯定的说,上的数据上只有小部分的数据和公司的事务相关。

     因此,整合公司文本数据,或者为了研究或者分析的目的而去整合,是非常可行的。

  3、什么样的公司数据需要整合:   因此什么样的公司数据需要被整合呢?很明显,有这么些类型的公司数据应该被整合,包括:   1.客户数据——那些与客户信息相关的数据   2.安全性数据——如意外事件,审查,修理,特约条款等等这些重要的事件   3.合同数据——与公司合同相关的数据   4.发现数据(Discovery data)——诉讼过程中的数据   5.顺应性数据(Compliance data)——针对公司敏感事件和事务的描述     由此看出,公司数据限制很少,或者从理论上说,是没有限制的。

  4、数据整合的优势:     整合公司文本数据的重大优点之一,就是一旦整合,它们就可以输入到数据仓库中,并且能重用。

也就是说,公司文本数据只需要整合一次。

整合之后,只要你愿意,你可以多次研究和分析这些数据,可谓一劳永逸。

  值得一提的是,在这公司文本数据整合后,就可以放入到数据仓库中。

一旦进入了数据仓库,这些数据就能与结构数据结合到一起。

  5、客户信息分析 :     举个例子,如针对公司的客户信息管理系统,就要分析客户信息。

通常会从客户那里收到e-mail。

但是,一旦那些e-mail阅读之后,通常就被放在一边了。

这些读过的邮件将会存放到一个文件夹里,从此这些邮件就在那里搁置着,与另外上千的e-mail堆放在一起。

  问题是,当公司需要这些信息的时候,这些信息却很难找到。

当一些e-mail涉及到潜在的未来信息,就显得更加重要了。

  客户琼斯夫人案例分析     为了证明以上观点,让我们看看一个案例,这个案例的主角是一位叫琼斯夫人的客户。

假设她上个月写了一个e-mail来严厉批评公司的销售人员,因为她的一个订单被延误了。

而正好这个月,公司的另外销售人员准备打电话给琼斯夫人,请求下更多的订单。

这是时候,对于那个销售人员来说,上个月的来自琼斯夫人的e-mail重不重要呢?   答案当然是非常重要的。

如果我们想给琼斯夫人推销更多的新产品,这个时候关于客户最近的任何信息都是非常重要的,无论正面了解的信息,还是从琼斯夫人那里反馈的信息。

因此,摆在我们公司面前的问题就是如何找到那些与客户相关的e-mail?如何过滤掉那些不相关的e-mail?     这里说的例子,只是其中的一个,许多的例子都需要用到非结构文本数据,如果为公司文本数据设计一个专门的整合过程,将这些公司文本数据能存储到一个数据仓库里,查找、过滤信息就好办多了。

     注:数据无非包括结构化数据和非结构化数据。

结构化数据可以很轻松的被导入到数据仓库中,因为不管是3NF还是星型模型,它们在结构上都属于结构化数据。

而非结构化数据包括音频、图像、e-mail、电子表格、txt文本、文档、报告等。

  作者简介   比尔?恩门(Bill Inmon),被称为数据仓库之父,最早的数据仓库概念提出者,在数据库技术管理与数据库设计方面,拥有逾35年的经验。

他是“企业信息工厂”的合作创始人与“政府信息工厂”的创始人。

新网,域名7月盛夏1核心2G内存.COM域名仅19.9元/首年,主机9.9元/月,企业邮箱0元体验

新网好不好?新网域名便宜吗?新网怎么样?新网是国内老牌知名域名注册商,企业正规化运营,资质齐全,与阿里云万网和腾讯云DNSPOD同为国内服务商巨头。近日新网发布了最新的七月放价季优惠活动,主要针对域名、云主机、企业邮箱、SSL证书等多款云产品推送了超值的优惠,其中.com顶级域名仅19.9元/首年,.cn域名仅16元/首年,云主机1核心2G内存3Mbps带宽仅9.9元/月,企业邮箱更是免费送1年,...

妮妮云,美国cera CN2线路,VPS享3折优惠

近期联通CUVIP的线路(AS4837线路)非常火热,妮妮云也推出了这类线路的套餐以及优惠,目前到国内优质线路排行大致如下:电信CN2 GIA>联通AS9929>联通AS4837>电信CN2 GT>普通线路,AS4837线路比起前两的优势就是带宽比较大,相对便宜一些,所以大家才能看到这个线路的带宽都非常高。妮妮云互联目前云服务器开放抽奖活动,每天开通前10台享3折优惠,另外...

随风云-内蒙古三线BGP 2-2 5M 25/月 ,香港CN2 25/月 ,美国CERA 25/月 所有云服务器均支持5天无理由退款

公司成立于2021年,专注为用户提供低价高性能云计算产品,致力于云计算应用的易用性开发,面向全球客户提供基于云计算的IT解决方案与客户服务,拥有丰富的国内BGP、三线高防、香港等优质的IDC资源。公司一直秉承”以人为本、客户为尊、永续创新”的价值观,坚持”以微笑收获友善, 以尊重收获理解,以责任收获支持,以谦卑收获成长”的行为观向客户提供全面优质的互...

非结构化数据管理为你推荐
服务器性能指标性能测试都有哪些指标?游戏服务器租赁租用的服务器怎么运行我自己开发的游戏服务器端程序?大概需要多少资金?日本名字大全日本动漫人物名字大全阿里云联系方式怎么在阿里巴巴下载公司联系方式阿里云建站费用阿里宝卡怎么收费?徐正溪痕迹电视剧郑晓炯是谁饰演?国外手机号求个美国手机号码 麻烦了 万分感激云主机能玩游戏吗买一个服务器可以用挂游戏吗?海外服务器免费ip地址谁知道怎么下载让自己的IP地址显示在国外,会的帮帮忙,谢谢接收验证码为什么会收到验证码
域名升级访问 高防服务器租用选锐一 过期备案域名查询 域名主机管理系统 godaddy域名解析教程 bandwagonhost 42u机柜尺寸 60g硬盘 debian7 一元域名 me空间社区 hkg 可外链相册 免费美国空间 in域名 酷锐 碳云 wannacry勒索病毒 热云 留言板 更多