AES中的字节替换的FPGA实现

介绍aes中的字节替换算法原理并阐述基于fpga的设计和实现。为了提高系统工作速度，在设计中应用了流水线技术。最后利用maxplus-ii开发工具给出仿真结果，并分析了系统工作速度。
1 引言
目前，加密算法按照加密特点分为对称密文和不对密文二大类。aes [1](advanced encryption standard)是nist(national institute of suandard and t echnologies)继2000年10月选择rijndael算法[2]之后，于2001年11月26日发布的新的对称数据加密算法。
本文首先介绍aes中的subbytes(字节替换)概貌，并解析出它使用的算法原理，然后论述基于fpga技术对aes中的字节替换仿真的设计与实现。笔者在运用fpga技术的过程中完全采用nist公司的aes算法标准。为了获得在面积和速度上的最佳优化，将流水线设计技术应用到本设计中。另外，本文所得到的仿真结果是在maxplus-ii 10.0上运用verilog hdl硬件描述语言来实现的。
2 aes中的subbytes算法描述
aes算法的核心有4种操作[3]：subtytes(字节替换)、shiftrows(行位移变换)、mixcolumns(列混合变换)和addroundkey。这里，主要对sunbytes(字节替换)算法进行描述。
2.1 sunbytes字节替换
字节替换重要的是将一个8位数据转换为另一个不同的8位数据，这里要求一一对应，并且替换结果不能超出8位。例如将00h转换成63h。这个重要的特性正好符合galois field(gf)-伽罗瓦域特性。由于转换的数据是8位的，所以符合gf(28)域特性，即gf(28)域中进行的加法或乘法操作的结果必须在{0x00 ...0xff}这组数中。虽然gf()域论是相当深奥的，但gf()域加法的最终结果却很简单，gf()加法就是异或(xor)操作。关于gf()加法和乘法，将在2.3字节中进行描述。
根据nist描述的ase算法标准，sunbytes字节替换连续进行以下变换便可达到替换要求。
(1)在gf(28)域中进行乘法变换，即实现多项式m(x)=x8+x4+x3+x+1变换，称之为“multiplicative inverse”。
(2)在gf(28)域中进行交换来实现如下矩阵，称之为“affine transformation”。例如“ca”被变换成“ed”。
2.2 在gf(28)域中进行的变换算法
上节所示的二种变换中第二种变换容易实现，而对于第一种变换，假设输入为y，则输出应为y-1。在gf(28)域中满足y255=1[3]，所以y-1=y-1·y255=y254。根据这个公式我们就能将求逆变换y-1转变成在gf(28)域的乘法y254运算。
2.3 gf(28)域中的加法和乘法
gf(28)域的一个主要特点是加法或乘法操作的结果必须在{0x00 ...0xff}这组数中。虽然gf()域论是相当深奥的，但gf(28)域加法的最终结果却很简单。gif[28]加法即就是异或(xor)操作。而乘法运算有点繁锁。如果进行乘法运算的二个8位数为a=(a7,a6,a5,a4,a3,a2,a1,a0),b=(b7,b6,b5,b4,b3,b2,b1,b0)。
假设二个多项式为：
a(χ)=a7·χ7+a6·χ6+a5·χ5+a4·χ4+a3·χ3+a2·χ2+a1·χ1+a0
b(χ)=b7·χ7+b6·χ6+b5·χ5+b4·χ4+b3·χ3+b2·χ2+b1·χ1+b0
c(χ)=a(χ)×b(χ)=c14·χ14+c13·χ13+c12·χ12+c11·χ11+...
+c114=χ1+c0
c14=a7·b7
c13=(a7·b6)+(a6·b7)·
c1=(a1·b0)+(a0·b1)
c0=a0·b0
其中：符号“·”指的是“与”操作，“+”指的是“异或”操作。
根据gf(28)域特性有
χ8=χ4+χ3+χ+1
χ9...χ14可以根据类型普通乘法运算依次将上式两边同乘以χ得到。这样，可以得到χ14=χ7+χ4+χ3+χ，所以，可以将c(χ)化简成8位多项式：c(χ)=d(χ)=d7χ7+d6χ6+...+d1χ1+d0，具体操作可参考相关文献。
3 fpga的设计实现
3.1 总体框图
若要在fpga上实现如上所示的aes字节替换运算，就要运用2.1节所述的二种变换，如图1所示的sunbytes替换整体结构框图，当inv信号为“0”时，输入数据为加密过程，先在gf(28)中进行乘法运算，然后送到gf(2)中进行转换运算;当inv信号为“1”时，输入数据为解密过程，先在gf(2)中进行解密运算，然后计算gf(28)中乘法的逆运算。相应的fpga实现的具体框图如图2所示。下面，对在fpga中实现的具体框图进行介绍。
3.2 sender模块
该模块每个时钟产生一个0~255的8位二进制数据，用作待加密的明文或待解密的密文。具体程序源代码见sender.v。
3.3 affine和invaffine模块
该模块实现了2.1节的第二种变换，对输入数据在gf(28)域中进行矩阵仿射变换。因为要进行的运算比较复杂，在设计中均做了去除毛剌处理，具体框图如图3所示，图中“combinatorial circuit”模块实现gf(28)域的组合逻辑运算，输出有出单元，在clk的上升沿时刻将处理后的输出寄存到输出级，这样可以达到很好的去除毛剌的效果。在整个设计过程中，均采用这种处理，即在每个模块的输出端均加一个寄存器输出单元。
3.4 aes01模块
该模块实现了2.1节的第一种变换即乘法变换。根据算法要求，该模块在gf(28)域中输入一个8位数据y，要得到y-1，因为y-1=y-1·y255=y254，图4可以达到计算y254的目的。在图4中，2模块对输入数据进行平方运算，x模块对二个输入数据进行乘法运算。平方运算和乘运河运算都符合2.3节所述的乘法运算法则。该模块的运算比较复杂，在fpga中实现该运算出现很长的路延迟。经过仿真，若将该模块在一个时钟内完成，则最高时钟工作频率只能达到11.13mhz。为了提高系统的工作速度，笔者将流水线技术应用到设计中。
整个电路可划分为3个流水级，每一级只完成数据处理的一部分，一个时钟周期完成一级数据处理，然后在下一个时钟到来时将处理后的数据传递给下一级;第一组数据进入流水线后，经过一个时钟周期传递到第二级，同时第二级数据进入第一级，数据队列依次前进。每组数据都要经过3个流水线后才能得到最后的计算结果，但是作为整个流水线，每个时钟周期都能计算出一组结果，所以平均计算一组数据只需要一个时钟周期的时间，大大提高了数据处理速度，保证了整个系统以较高的频率工作。经过仿真，最高工作时钟频率可以达到30.21mhz。
4 仿真结果
该设计可以满足aes字节替换的要求，并且应用流水线技术使最高时钟工作频率达到30.21mhz，且毛剌现象不严重。

STM32+ESP8266连接腾讯IOT微信小程序一键配网
小米最新消息：火爆米粉节，小米发布米粉节总销售战报，总销售额破13.6亿！
智慧城市为人和机器带来全新功能，未来七年内复合年增长率为24.7％
Ultimaker发布3D打印技术信心指数报告
Intel白皮书：UWB技术实现高速无线个人局域网
AES中的字节替换的FPGA实现
SpaceX猎鹰9号火箭发射自动中止任务失败
iPhone XR疯狂降价，发布快一年了现在上车算不算晚呢？
高毛利诱人，国内外厂商争相布局UV LED
5G时代欠“深度” 行业应用才是真正“起跑”
AMD Instinct MI200计算卡首曝：用上MCM多芯封装
爱立信携手英特尔和诺基亚致力于面向IoT的下一代无线连接
Altera专家：认知无线电，认知一切
“意念打字”新方法：每分钟能写近30个字母，错误率仅6.13%
SST™ DN4 DeviceNet PCIe NIC 集成总线、主从工序
江苏基于5G独立组网进行转型升级，促进生产线迭代走向数字智能化
Xylon的新款logiVID-ZU视觉开发套件，平台开发多样化，有效提高开发效率
看看这七家企业在人工智能领域做了什么布局？
射频能量的感应加热技术与设计解决方案
图尔克FS+流量传感器功能有哪些