大数据初探(一)

大数据初探学习笔记一

  • 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
  • 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。
  • 大数据的5V特点(IBM提出): Volume(大量)、 Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

数据存储单位详细换算

数据存储单位大小换算规则 - -
1Byte=8bit (一字节=八位) 1KB=1024Byte 1MB=1024KB
1GB=1024MB 1TB=1024GB 1PB=1024TB
1EB=1024PB 1ZB=1024EB 1YB=1024ZB
1BB=1024YB 1NB=1024BB 1DB=1024NB

典型大数据分析流程

  • 明确分析目的和思路
  • 数据收集
  • 数据处理
  • 数据分析
  • 数据可视化
  • 报告填写

image_19

  1. 数据处理:对收集到的数据进行加工处理,主要包含数据清洗、数据转化、数据提取、数据计算等方法;
  2. 数据分析:指使用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程;(Mysql、Hive、HBase、kudu、redis)
  3. 数据可视化:通过图形化的方式展示出最终的数据分析结果。

大数据部门组织架构

平台组 数据仓库组 数据挖掘组 报表研发组
大数据平台环境搭建 ETL工程师 算法工程师 JAVAEE工程师
集群性能监控 HIVE工程师-数仓建模和数据分析 推荐系统工程师  
集群性能优化   用户图像工程师  

数据仓库

  1. 概念

    数据仓库是一个很大的数据存储集合,出于企业的分析性报告和决策支持的目的而创建,对多样的业务数据进行筛选和整合。它为企业提供一定的BI能力,指导业务流程改进,监视时间成本,质量以及控制。

  2. 数据抽取

    从业务数据库通过工具将需要的数据抽取存储到数据仓库中,为数据分析提供基础数据。

  3. 仓库可以是Mysql,Oracle,Hive等

ETL

  1. 概念

    ETL:”Extract-Transfrom-Load”,用来描述将数据从源端经过(extract抽取),转换(transform),加载(load)至目的端的过程。

    ETL是将业务系统的数据经过抽取,清洗,转换之后加载到数据仓库的过程,目的是将企业中分散,凌乱,标准不统一的数据整合到一起。

  2. Kettle(PDI)

    • Kettle是一款国外开源ETL工具,纯JAVA编写,可以在linux,windows,unix上运行,绿色无需安装。

    • Kettle 中文译名 水壶,项目主程序员MATT希望把各种数据放入一个水壶中,然后以一种指定的格式流出。

    • Kettle允许管理来自不同数据库的数据,提供一个图形化的用户环境来描述想做什么,无需关心怎么做。

  3. Kettle安装

大数据初探(二)

Comments