你知道TinyML运行效能谁说了算吗？

在ai芯片或神经加速处理器(neural network processing unit, npu或deep learning accelerator, dla)领域中，大家也都说自家的芯片世界最棒，对手看不到车尾灯，难道没有一个较为公正衡量芯片运行（推论）效能，就像手机跑分软件一样，让大家比较信服的基准吗？
其实在ai芯片领域中所谓的「效能」，可能因关心的重点不同而会有不同定义和解读。分别可从硬件每秒可执行乘加的次数(又可细分fp32,fp16及int8等)、对于特定模型在指定推论精度下每秒可执行次数或推论一次所需时间（包含有无模型优化处理）、特定模型推论功耗（推论一次耗费焦耳数）、每瓦特可执行乘加指令次数及其它特定规范时的表现，甚至有用每块美金获得算力来当成基准。所以常会遇到谁也不服谁，老王卖瓜自卖自夸的现象。
目前较被大家接受的就是ml commons所提出的mlperf规范，其中包含训练及推论两大项，而推论部份又可细分为数据中心(datacenter)、边缘(edge)、行动(mobile)及微型(tiny,大多为mcu)。前不久(2023/6/27)才刚公布了tiny v1.1测试结果报告，接下来就帮大家解读一下这份报告，让大家能更了解未来单芯片运行ai的方向及可行性。
评测场景及项目
目前ml commons在tiny部份先前已经过三轮(v0.5, v0.7, v1.0)测试，此次公布的是v1.1结果。测试时分为封闭(closed)及开放(open)型式，前者依官方规范测，而后者厂商可提出依自己规范测试更优的结果，不过不是每轮评测都会有开放型式。
目前主要评测项目如fig.1 所示，共有四个项目，包含关键词侦测(keyword spoting, ks)、视觉唤醒字(visual wake words, vw)、影像分类(image classification, ic)及异常侦测(anomaly detection, ad)。而每个项目都是采单串流数据(single stream)方式进行，即推论完一笔再取下一笔进行推论。依照不同项目，分别使用对应的数据集和模型，并在指定的推论质量下进行评量。
fig.1 mlperf v1.1 工作场景及效能评量项目
参与评测公司、硬件及软件
本次参与评测的项目共有32项，以下依不同项目分别介绍。
参与评测公司：共有10家，krai, nuvoton(新唐科技), stmicroelectronics(简称stm), skymizer(台湾发展软件科技), ctuning, fpgaconvnet, plumerai, syntiant, robert bosh gmbh, kai-jiang（个人）。
参与评测开发板：共有14种，规格下如下所示。
stm nucleo-h7a3zi-q, arm cortex-m7(dsp+fpu) @280mhz
stm nucleo-l4r5zi, arm cortex-m4(dsp+fpu) @120mhz
stm nucleo-u575zi-q, arm cortex-m33(dsp+fpu) @160mhz
stm nucleo-g0b1re, arm cortex-m0+ @64mhz
stm disco-f746ng, arm cortex-m7(dsp+fpu) @216mhz
nordic nrf5340 dk, arm cortex-m33(dsp+fpu) @128mhz
nuvoton numaker-m467hj, arm cortex-m4f @200mhz
digilent cora z7, arm cortex-a9 @667mhz
digilent zc706, arm cortex-a9 @650mhz
digilent zedboard, arm cortex-a9 @650mhz
digilent zybo, arm cortex-a9 @650mhz
infineon cy8cproto-062-4343w, arm cortex-m4 (dsp + fpu) @150mhz
syntiant ndp9120, hifi3+m0 @30.7mhz/98.7mhz
zcu106, risc-v @20mhz
主要cpu规格：共有7大类。只有1项使用risc-v，1项为mcu+npu，其余皆是arm based。cortex-m为单芯片（mcu）等级，cortex-a为微处理器（mpu）等级芯片，用于手机或单板微电脑。
arm cortex-m0+ (1项)
arm cortex-m33 (4项)
arm cortex-m4/m4f (13项)
arm cortex-m7 (7项)
arm cortex-a9 (4项)
syntiant hifi3+m0 (2项)
risc-v (1项)
主要软件及函式库：共有9种。
skymizer onnc
microtvm
plumerai inference engine
syntiant tdk+sdk
bosch hardware-aware lowering engine(hale)
stm x-cube-ai
fpgaconvnet(model+optimiser)
arm cmsis-5
tvm
评测结果：
由于芯片等级落差颇大，单从推论时间(毫秒ms)及能耗(微焦耳uj 比较可能会有点不公平，所以这里依cpu等级及工作频率来分会更清楚些。fig. 2分别列出各等级中推论速度表现最好的。
fig.2 mlperf tiny v1.1各等级cpu及不同应用表现最佳清单。
另外从此次提交的项目亦可看出arm cortex-m4已成为tinyml的主流，若推论仍不够快时，则可再提升到cortex-m7。而新上市的cortex-m33效能已高过cortex-m4，略低于cortex-m7，让使用者有多一点性价比的选择空间。
小结
在边缘智能(edge ai)装置及智能物联网(aiot)应用中使用单芯片（mcu）来运行ai（tinyml)已是现在进行式，透过此次的评比结果，可让大家更了解各家芯片性能及模型优化工具的进展，未来随着mcu+npu的普及，相信下一次的评比结果可能就有更大跃升，就让大家一起期待吧！

无线MCU调试技巧汇总
废弃电池再循环负极材料（RAM）的循环利用研究
红外技术解决音频无线传输难题
微机保护装置是什么及其在电力系统中的作用
VR，AR，MR目前无处不在，正在从休闲游戏世界进入商业企业世界
你知道TinyML运行效能谁说了算吗？
喷墨打印机哪种好_喷墨打印机寿命延长
现代岩土工程监测的利器：振弦采集仪
浙江联通荣获“2020年发展领先奖”
华为的新机很给力，麒麟980+8G运存+40W快充+屏幕指纹
云算力崛起，抹茶交易所的“云玩家”们
光纤网络高清传输的优势_光纤网络高清传输的缺点
abb变频器常见故障
“游戏机”改变医疗：体感技术跨入医疗行业
直线电机模组加持的基因测序设备
华为Mate10什么时候上市？最新消息：外观、配置、价格汇总，iPhone8遇冷原因真相了
智能传感器在安防领域举足轻重
C语言参数管理代码框架更新
闪测仪应用案例:3C小五金尺寸测量
HTC U 11手机拆解视频：内部做工尚可改进