大数据分析

2016年6月13日 来源:科工网-国际互联网+生态服务平台  浏览 1637 次 评论(0)

大数据分析是指对规模巨大的数据进行分析。大数据可以概括为5个V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、Value(价值)、真实性(Veracity)。大数据作为时下火热的IT行业的词汇,随之而来的数据仓库、数据、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据分析也应运而生。

前端展现

用于展现分析的前端开源工具有JasperSoft,Pentaho, Spagobi, Openi, Birt等等。

用于展现分析商用分析工具有Style Intelligence、RapidMiner Radoop、Cognos, BO, Microsoft, Oracle,Microstrategy,QlikView、 Tableau 。

国内的有国云数据(大数据魔镜),FineBI等等。

数据仓库有

Teradata AsterData, EMC GreenPlum, HP Vertica 等等。

数据集市有

QlikView、 Tableau 、Style Intelligence等等。

大数据分析的五个基本方面

1. Analytic Visualizations(可视化分析)

不管是对数据分析专家还是普通用户,数据可视化是数据分析工具基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。

2. Data Mining Algorithms(数据挖掘算法)

可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。

3. Predictive Analytic Capabilities(预测性分析能力)

数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。

4. Semantic Engines(语义引擎)

我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。

5. Data Quality and Master Data Management(数据质量和数据管理)

数据质量和数据管理是一些管理方面的实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。

假如大数据真的是下一个重要的技术革新的话,我们把精力关注在大数据能给我们带来的好处,而不仅仅是挑战。

开源大数据

1. Hadoop HDFS、Hadoop MapReduce, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成。

2. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。

一体机数据仓库

IBM PureData(Netezza), OracleExadata, SAP Hana等等。

异步大数据分析:

异步处理的大数据分析中遵守了捕获、存储加分析的流程,过程中数据由传感器、网页服务器、销售终端、移动设备等获取,之后再存储到相应设备上,之后再进行分析。由于这些类型的分析都是通过传统的关系型数据库管理系统(RDBMS)进行的,数据形式都需要转换或者转型成为RDBMS能够使用的结构类型,例如行或者列的形式,并且需要和其它的数据相连续。

处理的过程被称之为提取、转移、加载或者称为ETL。首先将数据从源系统中提取处理,再将数据标准化处理且将数据发往相应的数据仓储等待进一步分析。在传统数据库环境中,这种ETL步骤相对直接,因为分析的对象往往是为人们熟知的金融报告、销售或者市场报表、企业资源规划等等。然而在大数据环境下,ETL可能会变得相对复杂,因此转型过程对于不同类型的数据源之间处理方式是不同的。

当分析开始的时候,数据首先从数据仓储中会被抽出来,被放进RDBMS里以产生需要的报告或者支撑相应的商业智能应用。在大数据分析的环节中,裸数据以及经转换了的数据大都会被保存下来,因为可能在后面还需要再次转换。


我来说两句
人参与 丨 评论0条)
图标
注册 登录    
评论列表
每页 10 条,共 0 条
×

微信扫一扫关注我们

欢迎投稿

×

邮箱:15236061639@163.com

QQ:60298351

微信:a18137798589

(版权所有 科工网&北京天云聚合科技有限公司 © Copyright 2015 - 2022 . All Rights Reserved.) 京ICP备14030211号-5   |   营业执照