AI时代进一部发展需要的新架构概述

视觉应用与人工智能(ai)正朝着精细化的方向发展,其背后的多种推动力中,最重要的两种是高端智能手机的先进功能以及adas(高级驾驶辅助系统)/自动驾驶技术。
智能手机的面部识别功能需要同时调用视觉与ai处理两种技术,而且技术难度不断增加。最难的部分在于非理想状态下的面部识别,如侧脸、戴帽子、部分脸被围巾遮盖等。为此,智能手机的摄像头变得越来越精细,采用多种传感器实现高动态范围图像(hdr)、双摄变焦、图像稳定等功能。
第二个推动力,即adas,它的设计需要满足两大需求。第一个是面向特定功能的性能要求,比如行人侦测、驾驶员注意力监控、道路偏离预警;第二个是降低功耗。大多数芯片都安装在空气流通较差的环境(没有风扇),甚至极端温度环境,如前挡风玻璃上后视镜的背面。
还有一些其他驱动因素,如虚拟现实、增强现实、机器人、无人机、监控摄像头等技术的发展,它们的需求与上述场景大同小异。
上述功能、视觉和ai技术通常被集成到单独的摄像头管道,从降噪、视觉后处理等任务开始,再到图像分类和分割。有时候,ai需要先完成场景分类,然后再执行hdr或bokeh焦外成像(模糊处理在日语里被称作 boke)等精细图像处理任务。
总体看来,目前有以下三种技术需求:
将视觉和ai处理集成在单一dsp
提升性能
极低功耗的限制
为了满足这三种技术需求,新一代tensilica vision处理器应运而生。
全新tensilica vision q6简介
提高性能,我们考虑了下面几套可选方案:
增加simd宽度或vliw槽的数量。但是这样会增加编程难度,因为很多闲散资源无法有效利用。简单地增加算力比有效地利用算力要简单。
多核。可以立马将可用处理能力提高一倍(或更多),但是需要两倍的本地内存,而且很难做到每个核计算负载的平衡
升频。显而易见的提高性能的方法,但代价是面积(成本)和功耗的增加
打造更高性能的新架构
cadence决定采取第四种方案。全新vision q6 dsp是第五代产品,面向视觉和ai 应用量身打造,采用13级流水线,16nm工艺下可实现1.5ghz处理器频率。较上一代p5,相同版图面积条件下的频率提升达50%。峰值性能的效率提高1.25倍。采用标准图像处理内核时,性能提升可达2倍。
流水线构成如下:
指令前端(3级)
指令解码与分派(2级)
ar/标量整数管道(5标量寄存器/标量流水线)
矢量dsp(3级)
读取和写入会在指令解码一级完成后分别进行。同时,矢量执行和标量执行也分开进行,这样可以提高标量性能,并提供了增加标量cache的机会。该cache可以提高标量处理能力50%,而且存储器速度越慢,cache优势就越明显(与没有cache的情况相比)。
q6的另一个新特色是添加了一个分支预测。流水线越深,这个功能就越重要,因为一旦错过就必须清空并重新填充流水线。
q6与p6向上兼容,为p6写的任何代码都可以无需修改在q6上运行。但是q6有一些新指令无法在p6上运行。
凭借axi4互联技术,q6可以在多处理器环境中运行。用户不仅可以使用多个q6 核,在vq6的系统中增加visionc5来分担ai的处理。
q6编程
在芯片上设计一大堆高性能处理资源是很容易的,但程序员可能最终无法从高层软件开发中获得这些处理资源。ai采用多种框架,q6可以实现以下功能:
安卓神经网络:在安卓平台(即非苹果智能机)上实现本地ai应用
tensorflow、tensorflow lite、caffe
定制层支持:用户可以在标准网络基础上自行添加特殊功能
支持多种标准神经网络(mobilenet、inception、resnet、vgg、segnet、fcn、yolo、rcnn、ssd等)
安卓神经网络(ann)相对比较新,去年10月刚刚发布,到现在也就半年的时间。ann提供的神经网络api可以让开发者无需关注具体ai处理是在应用处理器(通常是高端arm处理器)还是在专有的ai dsp上执行。。q6支持运行在安卓8.1系统(oreo)的ann,可实现实时的优化执行。右图显示的是ann各组件的协作方式。作为专用处理器(也可称dsp,术语不同而已)的q6位于流程的中心。
上图中显示的是现有tensilica ai工具链,也称为xnnc(xtensa神经网络编译器)。该工具链需要一个神经网络描述符(在caffe或tensorflow框架下)将其编译成可以在q6(或p6、c5)上运行的代码。它可以自动处理许多管理工作,如dma和tile管理。tensilica ai处理技术采用8位定点权重,但经过几年的发展,32位浮点和8位定点也能实现同样的精度了(约0.5%量子化误差),其好处就是可以节省大量的功耗和面积。
对于hdr、语音身份认证、图像稳定等特殊算法,cadence正与相关领域的合作伙伴展开广泛合作。我们还是khronos公司openvx工作组的负责人,推动视觉处理分流标准的开发。

互联网在消费领域取得巨大成功,面向生产领域将遇到巨大挑战
百度Apollo车联网技术在奔驰A系中的应用
使用相同的电池增加电动汽车的续航里程–通过更好的软件提高效率
ATH生态圈系统模式源码
Trinamic推出世界最小PANdrive智能电机—PD20-1-1210
AI时代进一部发展需要的新架构概述
能在汤太咸时自动提示的电动勺子
常用的功率元器件大全,防爆变频机的设计,你想知道的全在这里!
奔驰成立EQ Power混合动力汽车子品牌 首款为奔驰S改款车
华为p10什么时候出?华为P10:临近有喜有坑,你会选择购买吗?
无线多点土壤墒情监测系统的功能介绍
微软推出首款SharePoint移动应用 只针对iOS设备
彩电AFT电路的原理和作用
无人机在未来军事战争中具有重大意义
晶振为什么要加电容_需要配多大电容
荷兰电信网络运营商巨头KPN近期与华为签定了5G商用协议
FCC投票消除5G部署监管障碍,为众多行业充当重要基础设施
浅谈变频器的常见故障及解决方法
异军突起,WAYON维安IC之超低功耗LDO
北京人民大会堂举行:谋划广播电视网与移动互联网融合发展新模式