Ali-HBase的SQL实践与改进

摘要： 2017云栖大会hbase专场，阿里巴巴技术专家天穆带来ali-hbase的sql实践与改进的演讲。本文主要从为什么需要sql开始谈起，进而讲解了sql on hbase，接着着重分享了ali-hbase sql的优化与改进，最后对未来进行了展望。
2017云栖大会hbase专场，阿里巴巴技术专家天穆带来ali-hbase的sql实践与改进的演讲。本文主要从为什么需要sql开始谈起，进而讲解了sql on hbase，接着着重分享了ali-hbase sql的优化与改进，最后对未来进行了展望。
以下是精彩内容整理：
为什么需要sql？
时间序列数据的存取：按照时间顺序追加新记录，按照时间范围查询数据，查询结果按时间倒排。我们数据是按照时间产生的，最新写的数据一定写在表头，在分布式情况下所有操作都落在表头，这台服务器必然会成为热点。
hash散列
解决写热点问题就是打散、随机分布，任何一个操作都可以随机地放在表格里面。这带来一个新的问题，整个表不是有序，一旦时间有序就会产生写热点。
分桶
我们需要做一些折中，也就是分桶，我们对它做一个取模的操作，任何一次操作都可以落在随机的“桶”里面，数据在桶内是有序的，可以按照时间范围来查询。代价是范围查询时必须并发查所有桶。在查完所有桶以外需要进行一次合并。
我们来查时间范围，先查第一个分桶，再查第二个和第三个分桶，得到了70、60、50的结果。分桶方案其实在一定程度上提升了读的性能。
基于hbase native api的实现
现在说的场景是经过高度抽象的场景，实际的场景不可能这么简单，即使在简单的场景下就需要做这么多事情。我们hbase api要想用好hbase就需要很多额外的事情，需要写非常多的代码。学习成本也是非常高的，如果想很精准地使用是需要有技巧的，很多东西都要靠经验，用户在利用hbase api的时候要付出很高的学习成本和开发成本。大部分的hbase用户都会遇到这些类似的问题，而且每个用户都需要了解怎么去解决这些问题，使用了hbase api以后可以对自己的业务做到完全地把控。
sql on hbase
为什么hbase api这么难用，说到底就是太底层了，提供“原语级别的操作。我们希望能够降低用户的接入门槛，能够低成本低接入hbase，怎么做这件事情？阿里hbase大部分场景都是比较简单的，并且有共性，所以我们希望能够引用中间层，大部分人都能够用到。中间层就是sql，sql能够替代api成为hbase的默认户接口。
基于phoenix的sql on hbase解决方案，phoenix就是针对hbase来设计的，而且phoenix在hbase之间也可以结合得非常好，这也是我们选择phoenix的一个主要原因。
支付宝智能搜索dump平台
支付宝智能搜索dump平台，左边的数据源是各种各样的业务数据库，可能是mysql，可能是hbase的，对业务数据库的变更操作会同步到hbase集群里面很多张维表里面，对维表生成宽表。对于hbase来讲，这个场景除了实时写之外还有很大的全量导入。读是通过很多的全局二级索引，经常变更的索引表。因为搜索的业务，用户的需求经常发生变更，这样对应我们的索引表发生变更，虽然有一些成本，但是相比mysql来讲，这个变更的成本是可以接受的。因为业务增长比较快，所以线性扩容也是关键点。
商品报表
商品报表是另外一套吞吐型的业务，它也有实时的全量写，而且也需要二级索引来生成多维报表。这个报表的场景跟dump场景不一样，这个单表比较大，在我们业务里面最大的表在压缩之后有80个tb。
物联网设备信息存储
物联网场景也非常典型，读写相对比较简单，但是数据量特别大，而且写得很快。在这种情况下，存储的成本以及写的吞吐能力、扩容能力hbase比较擅长。在吞吐成本这块，我们采用冷热分离存储以及压缩算法降低成本。
hbase sql的场景基本上都是hbase自己的场景，海量的数据、线性扩展等等，但是hbase有了查询的语意，从而拓展了hbase的业务边界。
ali-hbase sql
为了支持这些场景，我们在hbase做了很多的优化和改进，在hbase本身我们针对阿里的场景做了很多性能和功能上的变革。在稳定性方面，我们做了很多工作，能够让hbase久经双十一沙场。ali-hbasesql与phoenix在功能补齐、功能增强、数据导入导出方面有所改善。phoenix本身需要人去指定一个索引表，我们把这个事情自动化了，同时增强了可以访问多张索引表的能力，数据可以在各个系统之间产生流动。
性能优化目标是将简单请求的性能优化到极致，与对应的hbase native api性能差距小于5%。单行读写的场景下，sql和hbase api的差距很明显。
客户端的元数据缓存，元数据：列名、数据类型、表属性、索引信息等等。元数据更新策略：并不是每次都刷新元数据，我们做了周期性的刷新，通过版本号的方式来识别是不是最新的，如果不是最新的就更新一版，这是优化upsert的缓存更新策略。
select优化，我们会根据油壶请求的大小来合理选择适用，这个选择对性能影响非常大，因为我们的目标是优化简单的请求，优化一点点在用户那边的体现都是非常明显的。我们并不是分析型的场景，并不需要数据的预取，做到这些事情以后读的性能已经跟hbase select比较接近了。
此外，阿里云上的sql，从其他的rdbms迁移至云hbase。
未来的工作未来一定是支持列名映射，支持immutabledataencoding，我们现在正在调研，在大宽表的情况下能够节省1/3—1/2的存储空间。但是有一个限制，这个数据只能写下去，不能改。我们要优化功能都需要让用户去申请sql的客户端，这是非常恶心的事情；支持query server mode和瘦客户端，解决了产品不断迭代的问题，用户不需要升级也可以享受到我们的改进；支持分布式sequence，最终我们也要把sql的能力做到分布式；可选的索引一致性，异步全局二级索引，有些场景下用户不需要强一致性，比如说日志，最终在1分钟之内一致就ok了，所以我们做一个异步的全局更新，更新成本也进一步降低了。
原文链接
本文为云栖社区原创内容，未经允许不得转载。

材料科学姑苏实验室科研战略规划论证会在苏州工业园区现代大厦举行
中兴翻盖样式的折叠屏手机曝光该设备将向内折叠
神经元芯片与A/D芯片的两种接口实现方法
产品设计逆向工程抄数测绘产品测量建模画图高精度曲面设计3D三维
薄膜表面瑕疵在线检测仪的原理、功能及优势
Ali-HBase的SQL实践与改进
什么是OTA升级技术呢？OTA升级的原理和实现方式
物联网传感器助力工业4.0现实发展
探秘日本的机器人技术
英文打字机的打印速度
台积电设备工程师：工作是个体力活
万能拉力试验机怎么挑选合适的夹具？类型、尺寸、大小
重磅！中微爱芯推出超小极薄无引脚封装逻辑器件
如何优雅且体面的图像分割
笑气N2O传感器应用案例解析
高新兴在MWC上海2019上正式发布了5G车联网战略
地下车库一氧化碳在线监测联动风机二总线方案的介绍
华硕否认移动版RTX 2060 Super GPU 是否存在成迷
电子封装技术最难的不是芯片技术本身和资金问题而是人才短缺问题
5G将如何赋能照明产业，如何打造互联互通的物联网平台