数据微博网站

微博网站  时间:2021-02-23  阅读:()

Oracle白皮书2012年1月Oracle:企业大数据Oracle白皮书—企业大数据执行概要.
2简介.
3定义大数据.
3大数据的重要性.
4构建大数据平台.
5基础架构要求.
5获取大数据.
5组织大数据.
5分析大数据.
6解决方案体系.
6Oracle大数据解决方案8Oracle大数据机.
8CDH和ClouderaManager.
9OracleBigDataConnectors10OracleNoSQLDatabase.
11数据库中的分析.
12总结.
142Oracle白皮书—企业大数据执行概要如今,大数据这一术语颇受关注,但在这种关注背后,却有着一个简单的故事.
数十年来,企业一直根据关系数据库中存储的事务数据制定业务决策.
但在这些重要数据之外,还存在着非传统、结构化程度较低的数据,这是一种潜在的宝藏:Web日志、社交媒体、电子邮件、传感器和照片,其中蕴含着有用的信息.
存储和计算能力成本的降低让收集这些数据成为可能,而在短短几年前,这些数据还只能弃置不用.
结果是,越来越多的企业都在考虑将传统企业数据和可能极具价值的非传统数据同时用于其业务智能分析.
为了从大数据中获得真正的业务价值,企业需要适当的工具来从不同的数据源捕获和组织多种数据类型,并且要能结合其所有企业数据轻松分析那些数据.
Oracle提供了涉及范围最广、集成度最高的产品组合,可以帮助企业获取和组织这些不同的数据类型,并结合企业现有数据进行分析,从而获得新的启示并利用隐含的关系.
3Oracle白皮书—企业大数据简介随着最近推出Oracle大数据机和OracleBigDataConnectors,Oracle成为首家提供全面、集成的解决方案来满足企业各种大数据需求的供应商.
Oracle大数据战略的核心思想是使企业能够通过改进其当前的企业数据架构来引入大数据和提供业务价值.
通过改进当前的企业架构,企业可以利用Oracle系统无可置疑的可靠性、灵活性和性能来满足大数据需求.
定义大数据大数据通常是指以下类型的数据:传统企业数据—包括CRM系统中的客户信息、事务性ERP数据、网店交易、总账数据.
机器生成的数据/传感器数据—包括呼叫详情记录(CDR)、Web日志、智能仪表、制造传感器、设备日志(常称为数字信息)、交易系统数据.
社交数据—包括客户反馈、Twitter等微博网站、Facebook等社交媒体平台.
据McKinseyGlobalInstitute估计,数据量以每年40%的速度增长,2009年到2020年之间将增长44倍.
但是,虽然数据量是最显而易见的参数,但却并非唯一重要的特征.
实际上,大数据是由四个关键特征来定义的:数据量.
机器生成的数据量远大于非传统数据量.
例如,一架喷气发动机30分钟内即可生成10TB数据.
如果每日的航班超过25,000架次,则仅此一个数据源每日即可生成数PB数据.
智能仪表和重型工业设备(如炼油设备和钻井平台)生成的数据量与此类似,加重了这一问题.
速度.
社交媒体数据流—虽然没有机器生成的数据量大,但会生成对客户关系管理有用的大量观点和关系.
即使是在每条微博只有140个字符的情况下,Twitter数据的生成速度(或频率)之高也足以产生大量数据(每天超过8TB).
多样性.
传统数据格式的描述往往比较详尽,格式变化也较慢.
而非传统数据格式变化极快.
随着新服务的添加、新传感器的部署或新市场营销活动的进行,也需要新的数据类型来捕获相应的信息.
4Oracle白皮书—企业大数据价值.
不同数据的经济价值大不相同.
通常,大量的非传统数据中往往隐藏着有用的信息;难点在于确定哪些数据有用,然后转换和提取这些数据进行分析.

为了充分利用大数据,企业必须改进其IT基础架构,以处理快速生成且类型不一的海量数据,之后可将这些数据与要进行分析的其他企业数据集成.
大数据的重要性如果从大数据中提取出有用信息并结合传统企业数据进行分析,企业可以更全面、更深入地了解其业务,从而提高生产力、增强竞争优势和加强创新—这一切都会对经营业绩产生重大影响.
例如,在医疗保健服务中,慢性病或长期疾病的管理成本很高.
使用家用监测设备来测量生命体征和监测病情只是利用传感器数据来改善患者健康状况以及减少门诊和住院的方法之一.
制造企业通过在其产品中部署传感器来返回遥测数据流.
有时这是为了提供OnStar等服务,OnStar提供通信、安全和导航服务.
也许更重要的是,此遥测还会展现使用模式、故障率以及其他可以降低开发和装配成本的产品改进机会.
随着智能电话和其他GPS设备的迅速流行,广告商也能将商店、咖啡店或饭店附近的消费者作为目标了.
这为服务提供商开辟了新的收入来源,并使许多企业得以锁定新客户.
零售商通常都知道谁会购买其产品.
社交媒体和来自其商业网站的Web日志文件可以帮助零售商了解谁未购买及其原因,而眼下他们尚无从获得此类信息.
这可帮助实现更为有效的微观客户细分、有针对性的市场营销并提高供应链效率.
最后,如果没有大数据,Facebook和LinkedIn等社交网站根本不会存在.
它们的业务模式需要个性化Web体验,而这只能通过捕获并使用用户或会员的所有可用数据来实现.
5Oracle白皮书—企业大数据构建大数据平台和数据仓储、网店或任何IT平台一样,大数据基础架构也有独特的要求.
在考虑大数据平台的各个组件时,必须记住最终目标是要实现大数据与企业数据的轻松集成,以便能够深入分析合并后的数据集.
基础架构要求大数据基础架构方面的要求涉及数据获取、数据组织和数据分析.
获取大数据获取阶段是基础架构有别于大数据出现之前的一个主要变化.
因为大数据是指速度更高、种类更多的数据流,所以支持大数据获取的基础架构必须以可预测的低延迟来捕获数据和执行简短查询;能够处理极高的事务量,通常是在分布式环境中;并支持灵活的动态数据结构.
获取和存储大数据经常使用NoSQL数据库.
此类数据库非常适用于动态数据结构,并且伸缩性强.
NoSQL数据库中存储的数据通常多种多样,因为系统的用途就是捕获所有数据,而不作分类和分析.
例如,NoSQL数据库经常用于收集和存储社交媒体数据.
虽然面向客户的应用不断变化,但底层存储结构却一直都很简单.
通常,这些简单的结构并不是要设计一个模式来包含实体间的关系,而只是包含一个主键来标识数据点以及包含一个内容容器来容纳相关数据.
这种简单的动态结构既支持各种变化,又无需成本高昂的存储层重组.

组织大数据在传统的数据仓储术语中,组织数据称作数据集成.
大数据的数据量之大造成了很多情况下都是在其原始存储位置组织数据,而不迁移大量的数据,这样做既省时又省钱.

组织大数据所需的基础架构必须能够:在原始存储位置处理和操作数据;支持极高的吞吐量(通常成批)以支持大数据处理步骤;处理从非结构化到结构化的各种数据格式.
ApacheHadoop是一种新技术,支持在原始数据存储集群中组织和处理大量数据.
例如,HadoopDistributedFileSystem(HDFS)是Web日志的长期存储系统.
通过在同一集群上运行MapReduce程序并生成聚合结果,这些Web日志就会转变成浏览行为(会话).
6Oracle白皮书—企业大数据然后,这些聚合结果会加载到关系DBMS系统中.
分析大数据由于在组织阶段并不总是移动数据,因此分析也可能在分布式环境中进行,这种情况下某些数据将停留在其原始存储位置,并可从数据仓库透明访问.
分析大数据所需的基础架构必须能够支持对不同系统中存储的更多数据类型进行更深入的分析,如统计分析和数据挖掘;扩展到极致数据量;提供行为变化驱动的更快响应;根据分析模型自动做出决策.
而最重要的是,基础架构必须能够集成大数据与传统企业数据的组合分析.
新见解不仅来自对新数据的分析,还来自结合旧数据对新数据做出的分析,其目的在于对旧问题做出新的诠释.
例如,结合智能售货机所在地点的事件日历对其库存数据进行分析,可以确定售货机的最佳产品组合及补货计划.
解决方案体系为满足上述IT基础架构要求,许多新的技术应运而生.
据最新统计,用于获取和存储大数据的开源键值对数据库已超过120个,而Hadoop则是作为用于组织大数据的主系统,以及用于分析大数据,并将触角延至结构化程度较低的数据集的关系数据库出现的.
这些新系统构成了一个分而治之的解决方案体系,其中包括:不仅仅是SQL(NoSQL)的解决方案:以开发人员为中心的专用系统SQL解决方案:通常等同于关系数据库管理系统(RDBMS)的可管理性、安全性和可信性NoSQL系统旨在捕获所有数据,数据进入系统时不进行分类和分析,因此数据多种多样.
而SQL系统通常是将数据放在定义详尽的结构中,并将元数据强加给捕获的数据以确保一致性并验证数据类型.
7Oracle白皮书—企业大数据分布式文件系统键/值存储MapReduce解决方案NoSQL灵活专业化以开发人员为中心DBMS(OLTP)获取ETL组织数据仓库分析SQL可信安全规范图1分而治之的解决方案体系分布式文件系统和事务(键值)存储主要用于捕获数据,通常符合本白皮书前面所述的要求.
为了解释这些解决方案中的数据并从中提取信息,使用了一种称为MapReduce的编程范例.
MapReduce程序是在分布式数据节点上并行运行的定制编写的程序.
键值存储或NoSQL数据库是大数据环境的OLTP数据库;它们经过了优化,支持极快的数据捕获和简单查询模式.
NoSQL数据库能够提供极快的性能,因为它是通过单一识别键来快速存储捕获的数据,而不是对数据进行解释并投掷到模式中.
因此,NoSQL数据库能够快速存储大量事务.
不过,由于NoSQL数据库中数据的多变性,致使任何数据组织工作都需要编程来解释所用的存储逻辑.
再加之缺乏对复杂查询模式的支持,使得最终用户难以从NoSQL数据库的数据中汲取价值.
为了充分挖掘NoSQL解决方案的价值并将其从以开发人员为中心的专业解决方案转变成面向企业的解决方案,必须将NoSQL解决方案与SQL解决方案结合成一个可靠的基础架构,进而满足当今企业的可管理性和安全性需求.
8Oracle白皮书—企业大数据Oracle大数据解决方案Oracle是首家提供全面、集成的解决方案来满足企业各种大数据需求的供应商.
Oracle大数据战略的核心思想是使企业能够通过改进其当前的企业数据架构来整合大数据和提供业务价值,从而利用Oracle系统无可置疑的可靠性、灵活性和性能来满足大数据需求.
图2Oracle大数据解决方案只有Oracle能够将应对大数据挑战所需的一切(包括软件和硬件)组合成一个集成设计的系统.
Oracle大数据机是一个集成设计的系统,集成了优化的硬件和最全面的软件体系,以Oracle开发的各种专用解决方案来提供一个全面、易于部署的解决方案,用于获取、组织大数据以及将其加载到OracleDatabase11g中.
它旨在对所有数据类型提供至强分析,同时提供企业级性能、可用性、可支持性和安全性.
通过BigDataConnectors,该解决方案与Oracle数据库云服务器和Oracle数据库紧密集成,这样企业可以结合分析所有数据并实现超强性能.
Oracle大数据机Oracle大数据机采用全机架配置,有18台Sun服务器,总存储容量为648TB.
机架中的每台服务器各有2个CPU,每个CPU各有6个内核,因此每个全机架共有216个内核.
每台服务器有48GB1内存,因此每个全机架共有864GB内存.
1可升级到96GB或144GB9Oracle白皮书—企业大数据图3大数据机软件概览Oracle大数据机通过同时包含开源软件和Oracle开发的专用软件来满足企业大数据需求.
Oracle大数据机集成软件2包括:ClouderaDistributionincludingApacheHadoop(CDH)的完全发布版用于对ClouderaCDH进行全面管理的ClouderaManager统计包R的开源发布版,用于分析Oracle大数据机上未筛选的数据OracleNoSQLDatabase社区版3以及OracleEnterpriseLinux操作系统和OracleJavaVMCDH和ClouderaManagerOracle大数据机包含ClouderaDistributionincludingApacheHadoop(CDH)和ClouderaManager.
CDH是商业和非商业环境中第一个基于ApacheHadoop的发布版.
CDH包含100%开源的ApacheHadoop以及使用Hadoop所需的全套开源软件组件.
2OracleBigDataConnectors是单独许可的产品,但大数据机可以预先配置有BigDataConnectors.
3OracleNoSQLDatabase企业版可作为单独许可的组件用于Oracle大数据机.
10Oracle白皮书—企业大数据ClouderaManager是用于管理CDH的端到端应用程序.
ClouderaManager实时展现整个集群内正在运行的节点和服务的情况;提供一个中央位置来将配置更改应用到整个集群;引入全方位的报告和诊断工具来帮助优化集群性能和利用率.
OracleBigDataConnectorsOracle大数据机使企业能够轻松获取和组织新型数据,OracleBigDataConnectors则支持以集成数据集形式来分析所有数据.
OracleBigDataConnectors可以安装在Oracle大数据机或普通Hadoop集群上.
OracleLoaderforHadoopOracleLoaderforHadoop(OLH)使用户能够通过HadoopMapReduce处理来创建优化的数据集,以便在OracleDatabase11g中进行高效加载和分析.
与其他Hadoop加载器不同,它通过生成Oracle内部格式来加快数据加载和减少数据库系统资源的使用.
OLH作为MapReduce转换中的最后一个步骤加入其中,即一个单独的map–partition–reduce步骤.
该步使用Hadoop集群中的CPU将数据转换为Oracle理解的格式,进而降低Oracle集群的CPU负载并提高数据提取速度,因为数据格式已适合Oracle数据库.
加载后,数据在数据库中将永远可用,因此利用SQL或业务智能工具,普通数据库用户即可极快地访问这些数据.
OracleDirectConnectorforHadoopDistributedFileSystemOracleDirectConnectorforHadoopDistributedFileSystem(HDFS)是一个高速连接器,用于直接从Oracle数据库访问HDFS上的数据.
利用OracleDirectConnectorforHDFS,用户可以灵活地根据应用程序的需要随时从HDFS查询数据.
它允许在Oracle数据库中创建外部表,从而支持对HDFS中存储的数据进行直接的SQL访问.
于是可以通过SQL查询HDFS中存储的数据,将这些数据与Oracle数据库中存储的数据相联接,或将它们加载到Oracle数据库中.
对HDFS上的数据访问已经过优化,可以实现快速数据移动和并行化,并支持自动负载平衡.
HDFS上的数据可以是分隔符分隔的文件或由OracleLoaderforHadoop创建的Oracle数据转储文件.
OracleDataIntegratorApplicationAdapterforHadoop通过OracleDataIntegrator易于使用的界面,OracleDataIntegratorApplicationAdapterforHadoop简化了从Hadoop和Oracle数据库集成数据的过程.
一旦数据可在数据库中访问,最终用户即可使用SQL和OracleBI企业版来访问数据.
11Oracle白皮书—企业大数据已在使用Hadoop解决方案并且不需要Oracle大数据机之类集成产品的企业,可以使用BigDataConnectors作为独立的软件解决方案来从HDFS集成数据.
OracleRConnectorforHadoopOracleRConnectorforHadoop是一个R软件包,用于透明地访问Hadoop和HDFS中存储的数据.
RConnectorforHadoop使开源统计环境R的用户能够分析HDFS中存储的数据,利用MapReduce处理功能针对大量数据运行R模型—无需R用户学习其他API或语言.
最终用户可以利用3500多个开源R软件包来分析HDFS中存储的数据,而管理员无需学习R即可在生产环境中调度RMapReduce模型.
RConnectorforHadoop也可与Oracle数据库的OracleAdvancedAnalytics选件一起使用.
OracleAdvancedAnalytics选件使R用户能够透明地分析数据库中驻留的数据,无需学习SQL或数据库概念,而R计算也直接在数据库中执行.
OracleNoSQLDatabaseOracleNoSQLDatabase是基于OracleBerkeleyDB的高度可伸缩的分布式键值对数据库.
它提供通用的企业级键值存储,从而在分布式BerkeleyDB之上添加了一个智能驱动.
该智能驱动会跟踪底层存储拓扑,对数据分片,并且知道数据放在何处延迟最低.
与其他同类解决方案不同,OracleNoSQLDatabase易于安装、配置和管理,支持广泛的负载,并提供以企业级Oracle支持作后盾的企业级可靠性.
图4NoSQLDatabase架构12Oracle白皮书—企业大数据OracleNoSQLDatabase的主要用例是低延迟数据捕获和对这些数据的快速查询,通常是通过键查找进行查询.
OracleNoSQLDatabase附带了一个易于使用的JavaAPI和一个管理框架.
该产品以两种形式提供:开源社区版和用于大型分布式数据中心的定价企业版.
前一版本作为大数据机集成软件的一部分来安装.
数据库中的分析数据从Oracle大数据机加载到Oracle数据库或Oracle数据库云服务器后,最终用户即可使用以下易于使用的工具来进行数据库中的高级分析:OracleREnterprise—广泛使用的ProjectR统计环境的Oracle版本,支持统计人员在非常大的数据集上使用R,不会改变最终用户体验.
R用例包括预测特定机场的航班延误以及提交临床试验分析和结果.
In-DatabaseDataMining—能够创建复杂的模型并对非常大的数据量采用这些模型以驱动预测分析.
最终用户可在其BI工具中利用这些预测模型的结果,无需知晓如何构建模型.
例如,可以使用回归模型基于购买行为和人口统计数据来预测客户年龄.
In-DatabaseTextMining—OracleTextMining与OracleDataMining相结合,可从微博、CRM系统注释字段和评论网站中挖掘文本.
文本挖掘的一个例子是基于评论的舆情分析.
舆情分析旨在揭示客户对某些公司、产品或活动的感受.

In-DatabaseSemanticAnalysis—能够在各种数据点和数据集之间创建图表和连接.
例如,语义分析可创建关系网,从而确定客户朋友圈的价值.
关注客户流失时,客户价值基于其关系网的价值,而不只基于客户自身的价值.
In-DatabaseSpatial—能够为数据添加空间维度,并用图显示数据位置.
此功能使最终用户能够更高效地了解地理空间关系和趋势.
例如,空间数据可以可视化人员网络及其地理邻近性.
地理位置接近的客户很容易影响彼此的购买行为,而如果没有空间可视化,则很容易错失这样的机会.
In-DatabaseMapReduce—能够编写过程逻辑并无缝利用Oracle数据库并行执行.
In-databaseMapReduce使数据科学家能够创建具有复杂逻辑的高性能例程.
In-databaseMapReduce可通过SQL公开.
13Oracle白皮书—企业大数据利用In-databaseMapReduce的示例包括Web日志会话化或呼叫详情记录(CDR)的组织.
Oracle数据库中的每一个分析组件都有用.
结合使用这些组件可为企业创造更多价值.
相比未充分利用Oracle数据库分析潜力的组织,利用SQL或BI工具向最终用户展现这些分析结果的组织更具优势.
Oracle大数据机和Oracle数据库云服务器之间通过InfiniBand连接,因此批处理或查询负载可实现高速数据传输.
Oracle数据库云服务器在托管数据仓库和事务处理数据库时提供卓越的性能.
鉴于数据使用量大,可以使用Oracle商务智能云服务器来为业务分析人员提供丰富信息.
Oracle商务智能云服务器是集成设计的系统,为业务人士提供快如闪念的数据访问.
它经过优化,可以运行OracleBusinessIntelligence企业版,并内置了内存中聚合功能.
Oracle大数据机与Oracle数据库云服务器和新的Oracle商务智能云服务器结合使用,为客户获取、组织、分析企业中的大数据并最大化其价值提供了所需的一切.

Hostodo商家提供两年大流量美国VPS主机 可选拉斯维加斯和迈阿密

Hostodo商家算是一个比较小众且运营比较久的服务商,而且还是率先硬盘更换成NVMe阵列的,目前有提供拉斯维加斯和迈阿密两个机房。看到商家这两年的促销套餐方案变化还是比较大的,每个月一般有这么两次的促销方案推送,可见商家也在想着提高一些客户量。毕竟即便再老的服务商,你不走出来让大家知道,迟早会落寞。目前,Hostodo有提供两款大流量的VPS主机促销,机房可选拉斯维加斯和迈阿密两个数据中心,且都...

FBICDN,0.1元解决伪墙/假墙攻击,超500 Gbps DDos 防御,每天免费流量高达100G,免费高防网站加速服务

最近很多网站都遭受到了伪墙/假墙攻击,导致网站流量大跌,间歇性打不开网站。这是一种新型的攻击方式,攻击者利用GWF规则漏洞,使用国内服务器绑定host的方式来触发GWF的自动过滤机制,造成GWF暂时性屏蔽你的网站和服务器IP(大概15分钟左右),使你的网站在国内无法打开,如果攻击请求不断,那么你的网站就会是一个一直无法正常访问的状态。常规解决办法:1,快速备案后使用国内服务器,2,使用国内免备案服...

iON Cloud七月促销适合稳定不折腾的用户,云服务器新购半年付8.5折,洛杉矶/圣何塞CN2 GT线路,可选Windows系统

iON Cloud怎么样?iON Cloud今天发布了7月份优惠,使用优惠码:VC4VF8RHFL,新购指定型号VPS半年付或以上可享八五折!iON的云服务器包括美国洛杉矶、美国圣何塞(包含了优化线路、CN2 GIA线路)、新加坡(CN2 GIA线路、PCCW线路、移动CMI线路)这几个机房或者线路可供选择,有Linux和Windows系统之分,整体来说针对中国的优化是非常明显的,机器稳定可靠,比...

微博网站为你推荐
绵阳电信绵阳电信宽带怎么收费的最新qq空间代码QQ空间代码有哪些???拂晓雅阁有什么网站是学电脑技术的`?个性qq资料`谁有最新 最有个性的QQ个性资料flash导航条flash导航条swf格式的要怎么编辑网店推广网站怎么免费推广淘宝店铺?xp系统停止服务xp系统停止服务怎么办?电子商务网站模板我想开发一个电子商务网站,但是想加入自己设计的模板,可以吗?分词技术搜索引擎采用的是什么技术?263企业邮箱设置263企业邮箱如何修改密码
顶级域名 域名服务器的作用 如何申请免费域名 ipage godaddy主机 韩国电信 国外在线代理 bgp双线 最好的免费空间 linux服务器维护 免费申请个人网站 百度云1t 最好的qq空间 双12 丽萨 攻击服务器 免备案cdn加速 重庆服务器 广州服务器托管 密钥索引 更多