看似非常简单的一条 sql,如下图,我们求解的无非就是月总销售量
select ordermonth, sum( orderamount) as amount
from fctordersales with(nolock)
where ordermonth between ‘2017-01-01’ and ‘2018-12-31’
group by ordermonth
一旦 fctordersales 的数据量增长,恐怕不等个半把个小时,是出不来的。
再加上,我们的用户不会那么轻易的放过“折磨”我们 it 工程师的机会,就仅仅围绕月份来做统计,可能还会加上,产品类型,地区等等维度。这样一来,就更加麻烦了,眼珠子恨不得贴到屏幕上,一分一秒的看着时间的流逝,可惜了青春啊~
事实上,大家肯定会出一定的方案来解决这种效率奇慢的查询,比如:
1 加个索引
2 加个分区
3 etl 先算好聚合数据
4 。。。
解决方案总是有的。在这里我们来看看另一种玩法,列式存储。
上图中,表格中的数据,就是典型的row-based data page 行式存储数据页。一行相邻一行的存储在一个数据页上,一列肩并着一列存储在一行上。而 columnar storage layout 就是列式存储, 每一个列的数据都被存在一个数据文件中,比如date_key 按照顺序存储在 date_key file 中,product_sk 也一样,按照二维表中的顺序,存储在 product_sk 文件中。每个列式存储文件中,对应行号上存储的数据,都是表结构中相应行号的列数据。即要获取原表结构中,第20行的数据,那么要分别从这些列式存储的文件中,取得各自的第20行数据,集合起来!
考虑以下场景,比如我们就要分析 2013年,每个月,某两个品种,69,31 的销量:
select
getmonth(date_key) as month
getproductname(product_sk) as product
sum(quantity) as quantity
from fctsalesordinary
group by getmonth(date_key), getproductname(product_sk)
在这里,让我们做出这些假设:
1 date_key是存在一个数据文件里面的,product_sk 是存在另一个数据文件里面的。2013年整年的销售数据有 200w 条,每个文件的段能存储100w,(按照 sql server 的存储容量来计算),这样就总共抓取 2个段, 按照每次读取一个segment的机制,连续读取 2个连续段就只有一次读取,因此磁头读取不需要再次寻址。
2 假设2013年第一条数据在源数据表中,是第100万条数据,2013年最后一条数据是第299万条数据。
按照上面的图解释,我们读取2013年数据的时候,读取product_sk的字段,即读取 第100万条数据到 299万条数据,然后根据product_sk做限制。比起row-based data page(行式存储数据页),其他字段store,promotion,customer字段统统舍去,少读了很多的无效数据。
列式存储还带有一个压缩的选项。因为每个列式存储文件都是存储的同质数据,那么对这些同质数据进行压缩,会有很好的压缩效率。压缩带来的好处是,减少了吞吐量,使得内存容下了更多的数据,并且还可以有效使用 cpu l1 cache, 这种技术称为 vectorized processing.
*参考the design and implementation of modern column-oriented database systems.
为什么列式存储更适合分析性数据仓库:
1. 分析决定了一定是读取大范围连续属性的数据。不是随机读,而是顺序读,速度快很多
2. 请求基本上是采取多个维度同时读的方式,而不会读取所有的列。这样很多row-based data page (行式存储数据页)都会舍去不必要的相邻列的数据。
3. 列式存储的机制:一个数据文件中单独存储的是整个列的数据,按照segment来分段,一次至少读取一个段。一个段中可以存储大量的同质数据。
目前支持列式存储的数据有:
greenplum
postgresql
mariadb
microsoft azure sql data warehouse
microsoft sql server 2012 及以上
birt analytics columnardb
ibm db2
oracle database/exadata
sap hana
teradata
apache hbase
clickhouse
apache parquet
以上是我们常用的数据库品牌,还有一些小众数据库,比如 monetdb,kdb+ 等也支持。所以趁早用起来吧
人工智能才是大产业,才是华为发展的战略要地
无人机携人工智能助软件工程师发现未来
华大电子荣获首批汽车安全芯片信息安全认证证书
智能家居带给您便捷的生活
拆解显示博通成苹果最大WiFi供应商
列式存储是数据分析性能杀手锏
华为打造的VR眼镜促使VR行业迎来了黄金机遇
氧传感器寿命多少正常_氧传感器发黑是怎么回事_清洗氧传感器的土办法
锁相环(PLL)和相移键控(PSK)系统的相位噪声
A17芯片与M1pro哪个好?
政府利用大数据等最先进的技术防止疫情蔓延
索尼首机Xperia S LT26i三月发售 售价4100元
数字赋能母婴行业新升级,软通动力与袋鼠妈妈达成战略合作
人类与通用AI之间 还隔着许多个“深度学习”
无边框“水滴屏”努比亚Z18即将上市,性能卓越双屏设计
Overview of 1-Wire Technology
安森美半导体再次获中国物联网产业应用联盟认可
什么是三相稳压器和单相稳压器?三相稳压器可以接单相吗?
内存芯片商突破DRAM技术挑战 三大主力军抢进1z nm制成
中国芯为智能手机助力,或将实现“弯道超车”!