大数据初探学习笔记一
- 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
- 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。
- 大数据的5V特点(IBM提出): Volume(大量)、 Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
数据存储单位详细换算
| 数据存储单位大小换算规则 | - | - |
|---|---|---|
| 1Byte=8bit (一字节=八位) | 1KB=1024Byte | 1MB=1024KB |
| 1GB=1024MB | 1TB=1024GB | 1PB=1024TB |
| 1EB=1024PB | 1ZB=1024EB | 1YB=1024ZB |
| 1BB=1024YB | 1NB=1024BB | 1DB=1024NB |
| … | … | … |
典型大数据分析流程
- 明确分析目的和思路
- 数据收集
- 数据处理
- 数据分析
- 数据可视化
- 报告填写

- 数据处理:对收集到的数据进行加工处理,主要包含数据清洗、数据转化、数据提取、数据计算等方法;
- 数据分析:指使用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程;(Mysql、Hive、HBase、kudu、redis)
- 数据可视化:通过图形化的方式展示出最终的数据分析结果。
大数据部门组织架构
| 平台组 | 数据仓库组 | 数据挖掘组 | 报表研发组 |
|---|---|---|---|
| 大数据平台环境搭建 | ETL工程师 | 算法工程师 | JAVAEE工程师 |
| 集群性能监控 | HIVE工程师-数仓建模和数据分析 | 推荐系统工程师 | |
| 集群性能优化 | 用户图像工程师 |
数据仓库
-
概念
数据仓库是一个很大的数据存储集合,出于企业的分析性报告和决策支持的目的而创建,对多样的业务数据进行筛选和整合。它为企业提供一定的BI能力,指导业务流程改进,监视时间成本,质量以及控制。
-
数据抽取
从业务数据库通过工具将需要的数据抽取存储到数据仓库中,为数据分析提供基础数据。
-
仓库可以是Mysql,Oracle,Hive等
ETL
-
概念
ETL:”Extract-Transfrom-Load”,用来描述将数据从源端经过(extract抽取),转换(transform),加载(load)至目的端的过程。
ETL是将业务系统的数据经过抽取,清洗,转换之后加载到数据仓库的过程,目的是将企业中分散,凌乱,标准不统一的数据整合到一起。
-
Kettle(PDI)
-
Kettle是一款国外开源ETL工具,纯JAVA编写,可以在linux,windows,unix上运行,绿色无需安装。
-
Kettle 中文译名 水壶,项目主程序员MATT希望把各种数据放入一个水壶中,然后以一种指定的格式流出。
-
Kettle允许管理来自不同数据库的数据,提供一个图形化的用户环境来描述想做什么,无需关心怎么做。
-
-
Kettle安装
- JDK安装,环境变量配置
- Kettle中文网
- Kettle无需安装,下载解压后,使用Spoon.bat/Spoon.sh启动即可
Comments