大数据的4个关键技术

我们引用了大数据的4v特征
volume 大数据数据量大，数据量单位为t 或者p级variety 数据类型多，大数据包含多种数据维度比如日志、视频、图片value 价值密度低，商业价值高比如监控视频，其中关键1-2秒可能具有极高的价值velocity 要求处理速度块1.2 大数据的4个关键技术
1.3 etl/elt的区别etl 包含的过程是 extract、transform、load的缩写
包括了数据抽取 => 转换 => 加载三个过程
在数据源抽取后首先进行转换，然后将转换的结果写入目的地
etl 包含的过程是 extract、load、transform的缩写
elt的过程是，在抽取后将结果先写入目的地，然后利用数据库的聚合分析能力或者外部计算框架，如spark来完成转换
目前数据主流框架是etl，重抽取和加载，轻转换，搭建的数据平台属于轻量级
elt架构，在提取完成之后，数据加载会立即开始，更省时，数据变换这个过程根据后续使用需求在 sql 中进行，而不是在加载阶段
elt框架的优点就是保留了原始数据，能够将原始数据展现给数据分析人员
etl相关软件：
商业软件：informatica powercenter、ibm infosphere datastage、oracle data integrator、microsoft sql server integration services等开源软件：kettle、datax、sqoop1.4 大数据与数据库管理系统database management system，数据库管理系统，可以管理多个数据库
目前关系型数据库在dbms中占据主流地位，常用的关系型数据库有oracle、mysql和sql server
其中sql就是关系型数据库的查询语言
sql是与数据直接打交道的语言，是与前端、后端语言进行交互的“中台”语言
sql语言特点：
价值大，技术、产品、运营人员都要掌握sql，使用无处不在很少变化，sql语言从诞生到现在，语法很少变化入门并不难，很多人都会写sql语句，但是效率差别很大除了关系型数据库还有文档型数据库mongodb、键值型数据库redis、列存储数据库cassandra等
提到大数据就不得不说hive
hive是基于hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在hadoop中的大规模数据的机制。
hive与关联型数据库rdbms相比
不足：
不能像 rdbms 一般实时响应，hive 查询延时大不能像 rdbms 做事务型查询，hive 没有事务机制不能像 rdbms 做行级别的变更操作（包括插入、更新、删除）优点：
hive 没有定长的 varchar 这种类型，字符串都是 stringhive 是读时模式，保存表数据时不会对数据进行校验，而在读数据时将校验不符合格式的数据设置为null1.5 oltp/olap在数据仓库架构中有非常相关的2个概念，一个是oltp，一个是olap
oltp（ on-line transaction processing ）联机事务处理，主要是对数据的增删改
记录业务发生，比如购买行为，发生后，要记录是谁在什么时候做了什么事，数据会以增删改的方式在数据库中进行数据的更新处理操作
实时性高、稳定性强，atm，erp，crm，oa等都属于oltp
olap（ on-line analytical processing ）联机分析处理，主要是对数据的分析查询
当数据积累到一定的程度，需要做总结分析，bi报表=> olap
oltp产生的数据通常在不同的业务系统中
olap需要将不同的数据源 => 数据集成 => 数据清洗 => 数据仓库，然后由数据仓库统一提供olap分析
2.大数据计算2.1 大数据计算模式大数据计算模式解决问题代表产品
批处理计算针对大规模数据的批量处理 mapreduce、spark等
流计算针对流数据的实时计算 storm、s4、flume、streams、puma、dstream、super mario、银河流数据处理平台
图计算针对大规模图结构数据的处理 pregel、graphx、giraph、powergraph、hama、goldenorb等
查询分析计算大规模数据的存储管理和查询分析 dremel、hive、cassandra、impala等
2.2 lambda大数据框架
lambda架构：
batch layer（批处理层），对离线的历史数据进行预计算，能让下游进行快速查询。因为基于完整的数据集，准确性能得到保证。可以用hadoop、spark 和 flink 等计算框架
speed layer（加速处理层），处理实时的增量数据，加速层的数据不如批处理层完整和准确，但重点在于低延迟。可以用 spark streaming、storm 和 flink 等计框架算
serving layer（合并层），将历史数据计算与实时数据计算合并，输出到数据库，供下游分析
2.3 大数据典型技术hadoop一个文件系统，外加一个离线处理框架mapreduce，由于提供的上层api不太友好，加上mapreduce 处理框架比较慢，基本上都用作文件系统
spark本身是一个执行引擎，不保存数据，所以需要外部的文件系统（通常会基于hadoop）提出了内存计算的概念，即尽可能把数据放到内存中，还提供了良好的上层使用接口，包括spl语句（spark sql）处理数据十分方便。相比 hadoop mapreduce 获得了百倍的性能提升，基本上用它来做离线数据处理
flink分布式实时计算框架，具有超高的性能，支持flink流式计算与storm性能差不多，支持毫秒级计算
spark 和 flink的区别
3.大数据实践本文主要讲解了大数据的概念和基础知识，帮助读者对大数据有一个基本了解。如果对实践有学习需要（可以留言），我再花时间整理大数据的实践讲解：pyspark进行titanic乘客生存预测。使用pyspark进行初步的大数据操作，数据选取kaggle泰坦尼克号项目的数据，通过spark读取数据，并利用spark中的ml工具对数据进行构建模型。

未来的人类该如何与人工智能相处
红米新旗舰完整曝光，又出了一款性价比“神器”
光隔离器的工作原理及其应用
超声波涂铟机的用途有哪些
开关电源电路10点总结
大数据的4个关键技术
乐视网被强制执行超3.7亿元
销售MS2602A MS2602A频谱分析仪MS2602A
机器人视觉大幅解放人工劳动力，提高自动化水平
在RTL编码书写中如何考虑时延与布线的问题呢？
新型光传感器实用放大电路实现
中兴通讯发文表示将成立汽车电子产品线
中国嵌入式开发从业人员调查报告
汽车图像传感器的四种网络安全威胁影响
mcu主控和ACU辅控有什么区别
小天鹅滚筒洗衣机操作程序简单易上手帮助解放母亲双手
人工智能与大数据分析以及区别的详细中文资料概述
怎么使用蓄电池良好办法
摩尔定律未来还能不能继续下去
北京联通携手华为成功部署和验证了5G承载专享通道解决方案