不可否认,大数据已经在 21 世纪掀起一场惊涛骇浪。很多人怀揣着成为数据科学家的梦想进入数据科学世界,上期我们提到了数据分析。其实,数据分析是一个数据消费的过程,在数据消费之前的数据准备工作,叫做数据工程。
数据是由许多数据源产生的,像生产执行系统mes,各种辅助生产的应用系统,产线的设备。这些数据源产生的数据我们把它叫做原始数据。
为了让业务决策者使用这些数据,需要对其进行采集,清理,转换,存储,组合,聚合,处理过后的数据才是有价值的数据。
设计和实现这些数据处理的过程叫做数据工程。
数据的采集,清洗,转换处理,是整个数据工程的关键,通常我们可以用etl(extract-transform-load)技术来实现。
随着工厂的发展,各生产线,各部门都会搭建自己的应用系统方便开展自己的业务,随着数字化建设的不断深入,由于业务系统之间各自为政,相互独立造成的数据孤岛现象尤为普遍,业务不集成,数据不共享,给工厂进行数据的报表开发,数据分析,数据挖掘带来了巨大困难。
通过etl可以连接数据孤岛,将分离的业务数据整合在一起,统一的采集,处理,共享。
数据仓库是工厂的数据中心,所有系统产生的原始数据都流向数据仓库,数据的存储,标准化,组合都在数据仓库中完成,最终把有价值的数据提供给各大数据应用系统。
可以说数据仓库不产生数据,也不消费数据,只是数据的搬运工。
总的来说,如果把数据消费过程比作一盘美味的酸辣土豆丝,那数据工程就是个做菜的过程,土豆、葱姜蒜、干红辣椒、盐、糖、醋这些原材料就是原始数据;去菜场买菜就好比数据采集;数据清理就是洗土豆,削皮;数据转换就好比土豆切成丝,姜葱蒜切末,辣椒切断。然后准备工作做好以后就开始炒菜,放入葱姜蒜末,辣椒段和土豆丝,炒菜过程中会加入适量的醋,盐,糖调味,这就好比在对数据做组合,聚合处理。而这一切都是发生在数据仓库这个大厨房。最后呈现就是一盘美味的酸辣土豆丝啦!
据统计,一个数据分析的项目接近80%的时间会花在准备数据上,这就是数据工程的意义所在。
工业大数据时代,在制造业产品的全生命周期从市场规划、设计、制造、销售、维护等过程都会产生大量的结构化和非结构化数据。
而智能工厂利用物联网、人工智能、云计算、大数据技术提高服务和生产,其本质是实现了人、机器、设备、it系统的通过数据互联互通。
产生的数据越来越多,数据采集和集成的需求也越来越多,负责数据采集和集成的数据工程在向智能工厂迈进的数字化转型中扮演着举足轻重的角色。
Razer雷蛇版机箱评测 外部充满了雷蛇产品的气息之余用料和做工也十分考究
小米6Plus最新消息:小米6十秒售罄,小米6Plus被取消,下半年只剩小米Note3
Linux控制I2C/SMBus设备
虹科光纤传感器应用领域介绍
地平线推出征程和旭日两款嵌入式人工智能视觉芯片
数据分析的80%的时间都用在了哪里?
Wi-Fi6+与Wi-Fi6E两者关系及区别分析
IPv4资源不足制约了互联网的应用和发展?
电感与磁珠的区别
基于PXI总线的瞄准设备检定系统[图]
UIoT RT-Thread软件包实现了IoT设备与UCloud UIoT Core物联网通信云平台连接
江西旭昇电子有限公司PCB项目正紧张推进中
iOS10.3最新消息汇总:iOS10.3.3正式版值得更新吗?修复bug提高安全性为主,修复稳定性更高
海思芯片方案介绍
一款实用的水产养殖物联网应用方案
学会分析ffmpeg中YUYV转RGB ARM的使用流程
小型激光切割机在创意雨伞架中的应用
LED显示屏节能的几个小妙招
双模5G手机与单模5G手机相比,他们有什么不一样
电动调节阀中压力的表示方法