Verilog/FPGA开源项目卷积神经网络

介绍
在深度学习中，卷积神经网络（cnn或convnet）是一类人工神经网络（ann），最常用于分析视觉图像。
cnn 也称为移位不变或空间不变人工神经网络(shift invariant or space invariant artificial neural networks ,siann )，它基于卷积核或滤波器的共享权重架构，沿输入特征滑动并提供称为特征映射的平移等变响应。它们在图像和视频识别、推荐系统、图像分类、图像分割、医学图像分析、自然语言处理、脑机接口和金融时间序列中都有应用。
cnn 是多层感知器的正则化版本。多层感知器通常表示全连接网络，即一层中的每个神经元都连接到下一层中的所有神经元。这些网络的“完全连通性”使它们容易过度拟合数据。正则化或防止过拟合的典型方法包括：在训练期间惩罚参数（例如权重衰减）或修剪连接性（跳过连接、丢失等） cnn 采用不同的正则化方法：它们利用数据中的分层模式并使用在过滤器中压印的更小更简单的图案来组装复杂度越来越高的图案。因此，在连接性和复杂性的规模上，cnn 处于较低的极端。
与其他图像分类算法相比，cnn 使用的预处理相对较少。这意味着网络通过自动学习来学习优化过滤器（或内核），而在传统算法中，这些过滤器是手工设计的。这种独立于先验知识和特征提取的人为干预是一个主要优势。
cnn_hardware_acclerator_for_fpga
https://github.com/sumanth-kalluri/cnn_hardware_acclerator_for_fpga
https://thedatabus.io/introduction
这是完全参数化的 verilog 实现cnn，用于加速 fpga 上的卷积神经网络推理
软件工具：
设计 - xilinx vivado 2017
验证 - python 3.6 和 xilinx ise 14.7 命令行工具
convolution_network_on_fpga
https://github.com/hunterlew/convolution_network_on_fpga
描述
该项目使用 ise 14.7 和 vertix-7 fpga 构建。它使用某些加速策略执行 7 层网络前向计算。首先，使用matconvnet在 mstar 数据集上训练一个 sar 目标分类网络，并使用 early-stop。然后，使用 matlab 将权重和输入转换为 fpga 可以加载的 coe 文件。接下来，设计原生 verilog 编写的模型来完成前向计算。系统使用 16 位定点数据来保持精度。结果证明，它每张图像的花费不到 1ms，优于其他计算平台。
加速
第一个转换需要对 fpga 的资源和速度之间权衡，考虑到第一个转换中输入和权重的大小，如果层较大，那么该层就应该使用移位寄存器结构进行加速。另一个转化，层仅需要使用管道结构。请注意，有 18 个文件以 m_conv_1 命名，表示第一个 conv 中有 18 个移位寄存器。
对于带宽的限制，第二个转换层，使用通道分组并行化方案。使用 v7-415t 和 v7-485t fpga 进行比较，它们根据不同的资源量使用不同的组号（4 vs 1）。可能会注意到文件 cnn_top.v 中的方案，其中包含控制通道分组和合并的信号“ram_ready”。
cnn-fpga
https://github.com/qshen3/cnn-fpga
有以下几个模块：
conv2d
说明：
卷积模块，可以进行二维卷积。支持多个卷积核，不同步长，是否启用边缘0填充等
可配置参数：
paddingenable边缘是否使用0填充，1代表是，0代表否0
输入输出：
max_pool
说明：
最大池化模块，可以对输入进行最大池化运算。
可配置参数：
输入输出：
fpga-cnn
https://github.com/dem123456789/fpga-cnn
fpga 实现的cnn：
cnn.v是顶层设计，初始化a，b，i。模板为16x16层模块sixteenbysixteen.v
sixteenbysixteen.java生成verilog代码
clacc
https://github.com/taoyilee/clacc
原为清华大学深度学习硬件加速器课程项目，由林允龙教授主讲。该课程相当于斯坦福大学的cs231n(http://cs231n.stanford.edu/)。
深度学习加速器（卷积神经网络）
这是在 verilog 中实现类似 mit eyeriss 的深度学习加速器
注：clacc代表卷积层加速器
rtl-implementation-of-two-layer-cnn
https://github.com/haleski47/rtl-implementation-of-two-layer-cnn
https://github.com/di5h3z/ece-564-convolutional-neural-network-accelerator
具有详细设计的两层 cnn
详细的设计文档：
https://github.com/haleski47/rtl-implementation-of-two-layer-cnn/blob/master/report/apar%20bansal%20ece564%20project.pdf
nthu-iclab
https://github.com/leothebestcoder/nthu-iclab
这是清华大学ic lab提供的一个非常详细的设计项目，逐步实现一个cnn，并附带测试项目。
下面是每一步的功能，并且每一步都有详细的设计文档。
最终实现：使用 cnn 进行数字分类
es203-coa-cnn
https://github.com/akcgjc007/es203-coa-cnn
具体的实现过程：
代码介绍：
https://www.youtube.com/watch?v=3j2x-j0z2m8
结果：
mnist_cnn_hdl
https://github.com/makifozkanoglu/mnist_cnn_hdl
https://github.com/flystandard1/cnn_hardware_ece1718_uoft
通过硬件加速提升 cnn-mnist 的性能
文件夹“design_files”包括硬件中的所有设计文件
文件夹“verification_files”是设计文件的验证环境
文件夹“weights”包括 mnist 和输入图像的权重
cnn-implementation-in-verilog
https://github.com/boaaaang/cnn-implementation-in-verilog
使用 python & verilog 实现卷积神经网络
实现框图：
仿真波形
cnn_core
https://github.com/0x5b25/cnn_core
使用 altera avalon-mm 总线
使用 quartus prime ide 在 stratix iv 上编译和测试。
更多介绍请参考instructions.txt
cnn-accelerator-vlsi
https://github.com/lirui-shanghaitech/cnn-accelerator-vlsi
详细要求在./resource/project_2.0.pdf中有详细介绍。
下面列出一些主要要求：
所有输入特征图和权重的位长为 8 位，输出为 25 位数据。
输入特征图带宽为8x8位，权重带宽也是8x8位（最大同时读取8个输入特征图和8个权重）
输出带宽为 2x25 位（最多同时将 2 个输出写入主存）
结果如下：
注意：这个项目有一部分所需的文件没有公开，但是，可以将此设计合成到 fpga。
cnn-fpga
https://github.com/omarelhedaby/cnn-fpga
在zynq fpga上实现cnn，使用mnist数据库对手写数字进行分类
网络 conv2d->tanh activation->avgpool->conv2d->tanh activation->avgpool->conv2d->tanh activation->全连接层->relu->全连接层->softmax
该项目很完整，虽然readme写的不是很完整，但是有个详细的设计、仿真及验证完档。
https://github.com/omarelhedaby/cnn-fpga/blob/master/hardware%20documentation.pdf
image-classification-using-cnn-on-fpga
https://github.com/padhi499/image-classification-using-cnn-on-fpga
简介
在 fpga 上使用 cnn 进行图像分类
项目是关于在 fpga 上设计一个经过训练的神经 n/w（cifar-10 数据集），以使用深度学习概念（cnn-卷积神经网络）对图像 i/p 进行分类。
有 6 层（滑动窗口卷积、relu 激活、最大池化、扁平化、完全连接和 softmax 激活）决定了我们的 i/p 图像的类别。内核/过滤器用于从图像 i/p 进行特征检测。图像 i/p 可以是灰度/彩色的。
使用的工具
vivado v17.4
matlab vr2018.a
digitalrecognition
https://github.com/suisuisi/fpgaandcnn
《基于fpga的数字识别-实时视频处理的定点卷积神经网络实现》
posture_recognition_cnn
https://github.com/cxdzyq1110/posture_recognition_cnn
简介
基于cnn的姿态识别
帮助机器通过摄像头了解我们人类在做什么是很重要的。一旦实现，机器就可以对人类的各种姿势做出不同的反应。但是这个过程也非常困难，因为通常这个过程实现不仅速度跟不上并且耗电，同时也需要非常大的内存空间。
这里我们专注于实时姿势识别，并尝试让机器“知道”我们做出什么姿势。姿态识别系统由de10-nano soc fpga kit、摄像头和hdmi监视器组成。soc fpga 从摄像头捕捉视频流，通过 cnn 模型识别人体姿态，最后通过 hdmi 接口显示原始视频和分类结果（站立、行走、挥手等）。
我们上传我们的项目，包括 matlab、python 和 quartus。
软件版本：
matlab r2017b
python 3.6.3
anaconda 5.1.0
tensorflow-gpu 1.3.0
quartus 14.0
同时在该仓库中含有作者的论文，论文中包含详细的设计。
npu_on_fpga
https://github.com/cxdzyq1110/npu_on_fpga
目的在fpga上面实现一个npu计算单元。能够执行矩阵运算（add / addi / adds / mult / multi / dot等）、图像处理运算（conv / pool等）、非线性映射（relu / tanh / sigm等）。
优点考虑到灵活性较强，易于修改网络结构，适用于实现小型cnn/rnn网络。
缺陷由于指令串行执行、缺少cache导致外存读写频繁，运算性能较低。
该项目也是上面项目的同一作者，详细的设计，完整的工程，值得去操作一下。
neural-engine
https://github.com/hollance/neural-engine
大多数新的 iphone 和 ipad 都有神经引擎，这是一种特殊的处理器，可以让机器学习模型变得非常快，但对于这种处理器的实际工作原理，公众知之甚少。
apple 神经引擎（或 ane）是npu的一种，代表神经处理单元。它就像 gpu，但 npu 不是加速图形，而是加速卷积和矩阵乘法等神经网络操作。
ane 并不是唯一的 npu——除了 apple 之外，许多公司都在开发自己的 ai 加速器芯片。除了神经引擎，最著名的 npu 是谷歌的 tpu（或 tensor processing unit）。
这个项目并不是一个实现cnn的项目，但是是一个关于apple 神经引擎（或 ane）介绍及相关文档的集合的项目。
总结
今天介绍了n个cnn的项目，前面的项目比较“单薄”，只适合学习cnn设计，从nthu-iclab（包含）之后的项目更适合实践，因为这些项目都有详细的设计文档及板卡验证过程。
结合之前的tpu及今天的相关项目，大家应该对神经网络应该不会再恐惧了，下一篇文章我们将介绍一些dnn项目，将这个系列完善一下。
最后，还是感谢各个大佬开源的项目，让我们受益匪浅。后面有什么感兴趣方面的项目，大家可以在后台留言或者加微信留言，今天就到这，我是爆肝的碎碎思，期待下期文章与你相见。

无线充电器的好处
解密Arm Neoverse V1和Neoverse N2平台为下一代基础设施带来计算变革
智能安防市场遇冷，哪些新技术会改变格局
中国电信正式宣布了2018年DWDM系统扩容工程采购结果
电机扭矩大小由什么决定_1.5kw电机扭矩有多大
Verilog/FPGA开源项目卷积神经网络
汽车电子的技术创新成为汽车产业持续兴旺的主因
美国限制中国科技公司进入美国市场？
XMOS委任Mark Lippett为总裁兼首席执行官
人工智能风口下的芯片发展
造车浪潮来袭！八大动力电池企业造新能源汽车
科技巨头扎堆“造车”的逻辑是什么?
爆诺基亚今年推出两款骁龙845的旗舰机，都会采用五镜头拍照技术
拼接屏未来四大创新方向
Li-Fi：没有无线电的无线连接
智能化的生活给我们带来了什么好处
华灿光电战略转型调整效果再见成效，预计全年净利扭亏为盈
【步行领糖果】“果”然真的爱你，10分钟步行即送！！！
关于双足机器人的设计与研究
哪款蓝牙耳机防水效果比较好？好用的分体式蓝牙耳机推荐