OpenStack云平台监控数据采集及处理的实践与优化

陈云炜李伟波陈蔡涛
睿哲科技股份有限公司
在openstack云平台中，对资源的监控与计量是确保云平台稳定运行的标准配置，也恰恰是日常最让人烦恼的问题。尤其在公有云平台中，对资源的监控与计量不仅可以向业务使用者展现业务对资源的使用情况，还可以成为按需计费模式下的计费依据，但是监控数据的准确性、实时性以及海量监控数据的处理、储存和索引性能等都具有挑战性的工作。说到运维监控，大家熟知的有zabbix、cacti、nagios等传统的开源运维监控系统；这些监控系统都很强大也很灵活，从普通的业务使用上来说，经过相关的配置、插件定制甚至是二次开发，完全可以完成对系统资源的监控与计量功能。但这些监控系统毕竟是独立的监控系统，并没有与openstack云平台进行契合，在openstack云平台中增删业务资源时，这些监控系统是无感知的，也就是不能自动地对openstack云平台的资源进行自动监控。并且openstack是一个多租户的云平台，以上这些开源的监控系统中要做到不同租户的资源数据分别监控与计量以及索引，还是比较复杂的。所幸openstack社区有ceilometer项目来实现openstack集群资源监控与计量的功能。ceilometer项目从openstack folsom版本开始发布，经过不断的迭代，功能也逐渐丰富，包含了监控、计量与告警等功能，并且通过openstack的endpoint restful api以及消息队列，可以非常好地与openstack中的其他项目相结合，实现分租户的自动化的资源监控和计量。然而由于ceilometer在运行性能上的一些原因，社区逐渐地ceilometer项目进行了功能的拆分：ceilometer主要实现资源数据的采集，将计量和数据存储功能分拆成为gnocchi项目，将告警功能拆分成为aodh项目。本文仅涉及ceilometer数据采集和gnocchi数据处理和存储两个部分，并且基于openstack ocata版及之后版本的ceilometer和gnocchi进行分析。
二、ceilometer与gnocchi架构
1．ceilometer架构和基本概念
在openstack中ceilometer主要负责数据采集，其采用类似于agent加server的结构，大致的架构如下图1所示：
图 1
其数据采集是由agent端来完成的，在ceilometer中有compute、central、ipmi等类型的agent，一般常用的是compute和central两种类型的agent：
compute agent：负责收集openstack部署中各个计算节点上vm实例的资源使用数据。compute agent须在每个计算节点上安装，并且需要与虚拟机管理程序（hypervisor）进行密切的交互以获得vm虚拟机实例的相关资源数据。不同类型的hypervisor提供了不同的api，因此compute agent所能收集的数据受限于hypervisor api所能提供的数据类型。
central agent：负责轮询公共restful api，以收集未通过消息队列发布消息的openstack组件的相关资源情况，还可以通过snmp收集硬件相关的资源。例如：openstack networking、openstack object storage、openstack block storage等资源的使用情况均由central agent轮询restful api来进行收集。
ipmi agent：负责收集openstack部署的各个计算节点上的ipmi传感器数据和intel节点管理器数据。此agent需要节点安装了ipmitol程序以支持ipmi数据收集。
ceilometer agent采集到的数据需要发送到server端进行汇总、分析和储存，在ceilometer中数据的发送方式是由publisher来定义和处理的，收集到的每种类型的数据都可以使用一个或多个publisher发送，在openstack的ocata版本中，ceilometer agent采集到的数据依然默认是采用notifier：／／类型的publisher发送到消息队列中。ceilometer agent采集到的原始数据称为meter，meter是资源使用的某个计量项，它的属性包括：名称（name）、单位（unit）、类型（cumulative：累计值，delta：变化值、gauge：离散或者波动值）以及对应的资源属性等；某些数据在采集到时可能还不符合相关格式，因此可以在发送数据前进行一些转换，这个转换称为transformer，一条meter数据可以经过多个transformer处理后再由publisher发送，流程简图如下图2所示：
图 2
在消息队列中由ceilometer collector充当一个server的角色来消费消息队列中的收集到的监控数据消息。ceilometer collector可将采集到的数据进一步加工和处理，然后将数据通过http方式发送到gnocchi组件中进行处理和储存，并且后续的数据索引读取也是由gnocchi进行处理。但ceilometer也保留了旧版本的一些功能，可以选择旧版本ceilometer的方式将数据直接存入一些数据库中。
2．gnocchi架构和基本概念
gnocchi 提供数据存储服务，是一个时间序列数据库，为ceilometer提供存储后端，致力于解决ceilometer应用中所面临的大规模存储和索引时间序列数据的性能问题。gnocchi不仅解决了大规模时间序列数据存取的性能问题，同时还把openstack云平台中多租户等特性考虑在内。引用gnocchi官方的一张图，其架构如下图3所示：
图 3
由以上架构图可以看出gnocchi主要有两个核心部件：api和metricd，并且依赖于三个外部组件：measure storage、aggregate storage、index。
measure storage：measures是gnocchi对数据的第三层划分，是实际的监控数据。因此measure storage用于保存实际监控数据，并且是临时保存的，在gnocchi处理后会删除其中已处理的数据。
aggregate storage：首先要理解aggregate是什么。gnocchi采用了一种独特的时间序列存储方法：它不是存储原始数据点，而是在存储它们之前对它们按照预定义的策略进行聚合计算，仅保存处理后的数据。所以gnocchi在读取这些数据时会非常快，因为它只需要读取预先聚合计算好的结果。因此aggregate storage是用于保存用户时间看到的聚合计算后的结果数据。
index：通常是一个关系型数据库，用于索引resources和metrics，以使得可以快速地从measure storage或aggregate storage中取出所需要的数据。
api：即gnocchi－api服务进程，通过indexer和storage的driver，提供查询和操作archivepolicy，resource，metric，measure的接口，并将新到来的measure存入measure storage。
metricd：即gnocchi－metricd服务进程，根据metric定义的archivepolicy规则，周期性地从measure storage中汇总聚合计算measures，以及对aggregate storage中的数据执行数据聚合计算和清理过期数据等动作，并将聚合的结果数据保存到aggregate storage。
结合图2和图3来看，在ceilometer collector中收集到的数据通过gnocchi这个publisher发到到gnocchi－api，再由gnocchi－api将收集到的数据写入到measure storage。metricd会周期性地检索measure storage是否有数据需要处理，并将measure storage中的数据依次取出进行聚合计算，在将计算结果保存到aggregate storage后也将measure storage中已处理的measures原始数据删除。
在gnocchi中，将api和metricd均设计成无状态的服务，因此可以很方便地进行横向扩展。并且对于运行的gnocchi－metriccd守护程序或gnocchi－api端点的数量没有限制，可以根据系统的负载大小调整相关服务进程的数量即可提升系统的处理能力。
三、ceilometer与gnocchi的实践与优化
上文简述了ceilometer和gnocchi的基本架构和一些基本概念，下文将讲述这两个组件在实际系统中的一些应用，以及遇到的一些问题和解决方法。
1．ceilometer的实践与优化
ceilometer的部署按照官方文档进行安装和配置，一般在控制节点运行ceilometer－central、ceilometer－collector和ceilometer－notification服务、在计算节点运行ceilometer－compute服务。然而官方默认的配置并不能完全符合我们的业务需求，需要进一步优化配置。
首先，ceilometer agent所需要收集的数据是由polling．yaml配置文件来定义的，配置文件路径为：／etc／ceilometer／polling．yaml，而默认的配置是执行所有定义在ceilometer python包entry＿points．txt中的收集器来收集发送所有数据：
图 4
然而这个“全量”的配置可能会导致ceilometer agent代码层面的错误，使得收集数据的流程中断。尤其是对于ceilometer的compute agent，上文讲到，ceilometer的compute agent所能收集的数据受限于hypervisor api所能提供的数据类型，而ceilometer entry＿points．txt中定义了所有不同平台的收集器，那么肯定会有一些收集器不适用当前平台环境的，从而导致在执行这些收集器时程序出错：
图 5
从数据层面来看，我们应该只收集那些业务系统关心的数据；因为收集过多的无用数据时会给传输、处理和储存都带来额外的性能开销，尤其是在使用消息队列传输监控数据时，消息队列中大量的消息堆积将会导致消息队列服务占用大量的内存。因此，我们需要优化配置，定制化地执行收集器收集我们所需的数据。例如，在计算节点，我们如果仅需收集实例虚拟机的cpu、内存、磁盘还有虚拟网卡的资源使用情况，并根据各种资源的所需求的实时性定制其发送数据的频率，简要配置示例如下图6所示：
图 6
其中的interval是发送数据间隔，单位是秒。而meters则是需要收集的数据类型，其参数值需要根据当前ceilometer所能收集的数据类型来设定，当前ceilometer所支持采集的数据类型在／etc／ceilometer／gnocchi＿resources．yaml文件中的metrics域所定义，其值同时会对应到gnocchi中的资源类型，然后才可以在后续的gnocchi中检索和处理。
其次的优化是我们需要增加ceilometer collector的进程数。在上文中提及，在openstack ocata版本中，ceilometer agent收集到的数据依然是先通过消息队列发送给ceilometer collector处理然后再发送到gnocchi。而在ceilometer中collector默认的进程数（即collector workers数量）是1，当集群的虚拟机数量越来越多时以及采集的数据量越来越大时，因ceilometer collector处理消息速度过慢就会出现消息堆积的情况，由于collector响应不及时还可能导致大量的unacked消息的出现，如下图7：
图 7
出现此类情况后可通过修改／etc／ceilometer／ceilometer．conf的配置，增加collector的workers进程数即可解决。collector的workers进程数可根据集群的规模以及收集的数据量以及数据上报频率来设定，建议在满足消息队列中的消息不会持续堆积的情况下再增加1～2个workers进程，以满足未来一段时间内集群虚拟机不断增加所带来的监控数据增长。
而在openstack ocata版本之后的ceilometer中，还可以通过修改所有ceilometer agent中的／etc／ceilometer／pipeline．yaml配置文件，将其中的publishers从notifier：／／改为gnocchi：／／，然后ceilometer agent收集到的数据即可直接发送到gnocchi的api中，不再需要ceilometer collector作中转，避免了通过消息队列发送给ceilometer collector处理再转发到gnocchi带来的额外性能消耗：
图 8
2．gnocchi的实践与优化
gnocchi是一个致力于解决ceilometer应用中所面临的大规模存储和索引时间序列数据的性能问题的组件，因此在gnocchi中涉及到比较多关于性能方面的参数。
首先是gnocchi api，其api不仅承担了接收上报的原始监控数据并储存到measure storage的任务，还承担着业务系统通过api从aggregate storage索引和取出所需数据的任务。在生产环境中，gnocchi api一般以wsgi或uwsgi应用的形式来运行，可通过apache的mod＿wsgi来运行gnocchi－api，官方的默认配置如下图9：
图 9
可根据集群规模的大小调整单个api实例中的进程数和线程数来提高api的并发量；并且gnocchi api是无状态的，因此在集群规模较大时，可通过部署多个gnocchi－api实例，然后通过负载均衡分发请求到每个gnocchi－api，以此提升gnocchi－api的并发量。
然后是gnocchi的metricd，即gnocchi－metricd服务进程，是gnocchi中最核心的部分。gnocchi－metricd不仅负责了周期性地到measure storage中取出并计算聚合新的监控数据，还负责了按照预定策略，周期性地到aggregate storage中重新计算聚合旧的监控数据，并且删除已过期的监控数据。因此gnocchi－metricd服务属于计算与i／o都是密集型的进程，需要配置好恰当的gnocchi－metricd workers进程数。如果gnocchi－metricd进程数过少，则会导致measure storage有大量的meansures积压，并且也会导致aggregate storage中有待重新计算聚合的meansures出现积压，可在openstack控制节点中执行gnocchi status命令查看gnocchi－metricd当前的数据处理状态，如图10：
图 10
一般来说，gnocchi－metricd的workers进程数应该在满足meansures不会持续增加的情况下再增加2个以上的workers进程，以满足未来一段时间内集群虚拟机不断增加所带来的监控数据增长。gnocchi－metricd服务也是无状态的，因此在集群规模较大时，可通过在多个机器上部署gnocchi－metricd实例，然后协同处理集群的meansures监控数据。
然后是gnocchi中依赖的一个index数据库和两个存储数据的storage。index可选mysql或postgresql等关系型数据库，并且其保存的数据是规整的关系数据，仅用于查询索引，数据量不会很大，因此一般不会出现性能瓶颈。而measure storage和aggregate storage承载了gnocchi的大部分的i／o操作，在海量监控数据前，其性能至关重要。gnocchi官方支持的measure storage和aggregate storage类型有普通的本地文件file、ceph、swift、amazon s3等，在gnocchi 4．0版本中还增加了redis。官方的配置中推荐使用ceph作为measure storage和aggregate storage，而在实践的过程中发现，如果gnocchi 4．0以下的版本直接使用性能一般的ceph集群来当作measure storage和aggregate storage时，在运行一段时间后就可能会出现一些奇怪的性能问题。如图11，ceph集群会频繁地出现osd ops blocked的警告，甚至出现osd 自动down的问题：
图 11
进而查看osd的日志发现osd之间有大量的heartbeat check no reply以heartbeat＿map出现had timed out的情况：
图 12
图 13
在此情况下ceph集群几乎在一种不可用状态，大量的读写请求被blocked，运行在ceph集群中的虚拟机和cinder volume也大量失去了响应，而此时gnocchi－api和gnocchi－metricd日志中也出现大量的rados读写ceph集群超时的错误：
图 14
在此类情况下需要把gnocchi－api和gnocchi－metricd进程退出，并把ceph中存储gnocchi数据的pool删除，待数据重新平衡才可恢复。
通过调试和摸索，发现其原因是ceph对海量小文件的存储支持还比较差，尤其是在多副本的情况下储存gnocchi的监控数据，其总数据量是成倍的增加，究其原因这还得从ceph的存储原理来进行分析。首先需要了解在ceph中是以object来储存文件的，object的大小由rados限定（通常为2mb或者4mb），当文件超过这个容量大小之后就会按照每个object的容量对文件进行拆分，每个对象都会有一个唯一的oid用于寻址，由ino与ono生成，ino即是文件的file id，用于在全局唯一标示每一个文件，而ono则是分片的编号。ceph分割文件为对象后并不会直接将对象存储进osd中，因为对象的size很小，在一个大规模的集群中可能有数以亿计个对象，这么多对象光是遍历寻址，速度就已经很缓慢了。因此ceph中引入pg（placement group）的概念，这是一个逻辑上的组，object通过crush算法映射到一组osd上，每个pg里包含完整的副本关系，比如3个数据副本分布到一个pg里的3个不同的osd上。下面引用ceph论文中的一张图（图15）可以比较直观地理解，将文件按照指定的对象大小分割成多个对象，每个对象根据hash映射到某个pg，然后再根据crush算法映射到后端的某几个osd上：
图 15
不同的对象有可能落到同一个pg里，在ceph实现里，当pg存在op（operations）时，在osd的处理线程中就会给pg加锁，一直到queue＿transactions里把事务放到journal的队列里（以filestore为例）才释放pg的锁。从这里可以看出，对于同一个pg里的不同对象，是通过pg锁来进行并发的控制，好在这个过程中没有涉及到对象的i／o，效率还是很高的；对于不同pg的对象，可以直接进行并发访问。
在ceph中，每一个pool的pg数都是在创建pool的时候根据集群规模大小计算得出的合理值来设置的，也就是说每一个pool里的pg数是有限的。在gnocchi的监控数据中，每条数据的内容都很小，并且每条监控数据就是一个object，当海量小文件存到一个pg数量较少的ceph pool中时，就会出现单个pg中包含太多的object的情况，虽然pg锁的效率很高，但是在大量小文件读写时依然有可能出现处理不过来的情况，从而就会出现op blocked。
另一方面，osd端处理op时是将op划分为多个shard，然后每个shard里可以配置多个线程，pg按照取模的方式映射到不同的shard里进行处理。一般来说，系统给每个osd配置的处理线程都是比较少的，如果gnocchi pool的pg在osd端一直占用大量处理线程，那么其他ceph pool的 pg的op就会处于等待处理状态，这时也会出现op blocked的情况，而osd线程占用严重时甚至可能导致osd进程异常退出。在osd端，除了将数据写入磁盘（filestore）外还需要写入文件的extended attributes （xattrs）到文件系统或omap（object map）中，面对海量的小文件读写，osd的压力i／o压力会明显增重。
因此在gnocchi中的数据量达到一定程度时，就可能会对ceph存储集群产生不利的影响。在出现这种情况下，以下是一些解决的方案：
方案一：在gnocchi 4．0以下的版本中，使用swift或本地文件file作为measure storage和aggregate storage。亦或者使用swift或本地文件file作为measure storage，而aggregate storage继续使用ceph；因为measure storage中保存的是原始的监控数据，数据的文件条目量大并且都是小文件，而aggregate storage中保存的是聚合计算后的结果数据，数据量相对较小。但如果ceph集群的性能不是很好，尤其是ceph中的osd数量较少时，并且监控的数据量相对较大，以及需要保存较长一段时间时，不建议使用ceph。
方案二：升级openstack中的gnocchi版本到4．0及以上，继续使用ceph作为measure storage和aggregate storage。gnocchi在4．0及之后的版本代码中做了优化，当使用ceph作为measure storage时，measure storage中保存的measures是保存在ceph osd的omap中而不是osd的object文件，omap中的数据是保存在leveldb、rocksdb等数据库中，所以measures的数据并不会写到磁盘中，以此缓解osd的i／o压力。aggregate storage中的数据依然是保存为ceph的object文件。但是在小型ceph集群中，如果监控数据量比较大时，依然会对ceph集群产生一定的性能影响。
方案三：升级openstack中的gnocchi版本到4．0及以上，使用redis作为measure storage，使用swift或ceph作为aggregate storage。此方案性能最优，因为measure storage中保存的measures文件量大但容量小，measures需要经过gnocchi－api写入measure storage，gnocchi－metricd读出处理，然后gnocchi－metricd从measure storage删除等步骤。使用redis这个内存型的数据库不仅可以解决measure storage海量小文件读写频繁的需求，并且内存高速i／o带宽的优势使得gnocchi－api和gnocchi－metricd在i／o处理上性能更高，系统并发性能更好。
四、结语
以上对ceilometer监控数据采集和gnocchi数据处理的架构和流程作了简要的分析，并且分析了笔者在将gnocchi和ceph存储结合使用时出现的一些问题，这些问题在出现在生产环境中是非常致命的，不仅导致大规模的业务不可用，甚至还可能导致数据丢失的风险。因此在搭建openstack集群时，预先按照集群规模、采集的数据量等等规划好监控数据的保存方案，对生产环境上线后的稳定性意义深远。

2022年半导体产业趋势预测
英特尔：新型凌动芯片将支持Android和Linux
nxp电源管理芯片烧坏的原因是什么
ATmega8 AVR微控制器简介
射频导纳物位计工作原理与优势特点
OpenStack云平台监控数据采集及处理的实践与优化
中兴“复活” 但已元气大伤
新品首发 | 三瑞电源发布新款户外电源
Navi12和Navi14的规格仍然是谜 Navi14或命名为RX5500系列
煤气烤炉机器人取代工人做业
IBM GarageTM 助力日丰实现智能节流升级
0glass将AR技术应用在汽车发动机装配指导等运用场景
矿用杂散电流测定仪的使用注意事项
likely与unlikely在Linux kernel的区别
BPI-W3 开源路由器Rockchip RK3588 8 Core CPU(4*A76 +4*A55)
5G LAN工业路由器：开启智能制造时代的关键
5G投入未达市场预期，运营商投资小心翼翼
光耦的内部原理及工作条件
电容器充电放电原理是什么
远程预付费电能管理系统在南宁研祥智谷的落地应用