加速器加快网速的方法

加快网速的方法时间:2021-05-20 阅读:()

WP504(v1.
0)2018年10月2日china.
xilinx.
com1Copyright2018年赛灵思公司版权所有.
Xilinx、赛灵思标识、Artix、ISE、Kintex、Spartan、Virtex、Vivado、Zynq及本文提到的其它指定品牌均为赛灵思在美国及其它国家的商标.
所有其它商标均为各自所有方所属财产.
采用赛灵思Alveo数据中心加速器卡的赛灵思xDNN处理引擎是一款高性能高能效DNN加速器,在原始性能和功率效率(用于实时推断工作负载)方面优于当今众多常见的CPU和GPU平台.
xDNN处理引擎可通过MLSuite在众多云环境(例如AWSEC2或NimbixNX5)中使用.
白皮书:Alveo数据中心加速器卡WP504(v1.
0)2018年10月2日使用赛灵思Alveo加速器卡加速DNN摘要Xilinx深度神经网络(xDNN)引擎使用XilinxAlveo数据中心加速器卡提供高性能、低时延、高能效的DNN加速.
通过保持较低能源成本以及最大限度地减少实现过程中所需的特定加速器的数量,可以显著降低总体拥有成本(TCO).
赛灵思Alveo加速器卡在高性能、高能效、灵活的机器学习(ML)推断方面表现出色.
xDNN处理引擎已被开发用于一般执行卷积神经网络(CNN),如ResNet50、GoogLeNetv1、Inceptionv4-甚至包含自定义层的CNN.
本白皮书概述了xDNN硬件架构和软件堆栈,以及支持"业界一流"高能效推断声明的基准数据.
为读者提供指导,帮助其实现Alveo数据中心加速器卡上的结果再创造.
WP504(v1.
0)2018年10月2日china.
xilinx.
com2使用赛灵思Alveo加速器卡加速DNN数据中心应用中的深度学习关联性在过去几年中,深度学习方法在各种应用领域均取得了巨大成功.
应用机器学习(ML)的一个领域是视觉和视频处理.
互联网上的视频内容在过去几年中也迅速增长,对图像整理、分类和识别方法的需求也相应增长.
卷积神经网络(CNN)是ML神经网络的一种,其一直是处理图像数据的有效方法,尤其是在数据中心部署的背景下.
CNN图像网络可用于对云中的图像进行分类和分析.
在许多情况下,图像处理的时延对最终应用至关重要,例如标记流视频中的非法内容.
本白皮书介绍了赛灵思深度神经网络(xDNN)引擎,这是一款可编程推断处理器,其能够在赛灵思Alveo加速器卡上运行低时延、高能效的推断.
xDNN推断处理器通用CNN引擎,支持各种标准的CNN网络.
xDNN引擎通过赛灵思xfDNN软件堆栈集成到诸如Caffe、MxNet和TensorFlow等广受欢迎的ML框架中.
在Alveo加速器卡上运行的xDNN处理引擎能够以每秒GoogLeNetv1吞吐量4,000或更多图像的速度进行处理,意味着在Batch=1时超过70%的计算效率.
正如该计算效率所述,运行在赛灵思Alveo加速器卡上的xDNN,在实现低时延推断方面优于GPU等加速平台.
众所周知,GPU平台能够通过同时批处理多个图像来提高其性能;然而,虽然批处理可以提高性能并减少所需的GPU存储器带宽,但批处理的副作用是时延显著增加.
相比之下,xDNN处理引擎不依赖于批处理来实现最大化的吞吐量性能.
而是每个引擎独立运行,并且不共享权重存储器.
每个引擎在Batch=1下运行,并且可以在单个Alveo加速器卡上实现多个引擎.
因此,增加器件中xDNN引擎的数量仅增加了聚合器件Batch=1的吞吐量.
xDNN架构概览xDNN硬件架构如图1所示.
每个xDNN引擎由一个脉动阵列、指令存储器、执行控制器和元素级处理单元组成.
引擎通过指令队列从在主处理器上执行的命令软件接收张量指令.
仅当目标网络改变时,CNN网络的指令(张量和存储器操作)才改变.
重复执行相同的网络会重复使用先前加载的驻留在指令缓冲器中的指令.
WP504(v1.
0)2018年10月2日china.
xilinx.
com3使用赛灵思Alveo加速器卡加速DNN图1:xDNN硬件架构xDNN处理引擎架构亮点双模式:吞吐量优化或时延优化命令级并行执行硬件辅助图像分块自定义层支持(异构执行)脉动阵列架构吞吐量和时延优化模式xDNN处理引擎的架构特性之一是包括两种操作模式,一种用于吞吐量优化,另一种用于时延优化.
在吞吐量优化模式中,通过创建优化的处理引擎(PE)来利用数据流并行性,以处理低效映射到一般脉动阵列的特定层.
例如,GoogLeNetv1的第一层是RGB层,占整体计算开销的近10%,不能有效地映射到有效计算网络其余部分的脉动阵列.
在此吞吐量优化模式中,xDNNv3包括为三个输入通道定制的其他脉动阵列.
这种变化的网络效应是更高的整体计算效率,因为可以在先前图像卷积和FC层完成其各自的处理的同时,计算下一图像的第一层.
对于需要最低单图像时延的应用,用户可以选择部署时延优化版本的引擎.
对于这些应用,可以调整xDNNPE流水线以减少时延.
X-RefTarget-Figure1偏置偏置偏置偏置横杆ReLUReLUReLUReLU池化池化池化池化执行控制器溢出/恢复DMA控制器图像队列指令缓冲器脉动阵列权重DMA控制器WP504_01_082418池化/元素级加法WP504(v1.
0)2018年10月2日china.
xilinx.
com4使用赛灵思Alveo加速器卡加速DNN命令级并行执行xDNN处理引擎为每种类型的命令(下载、Conv、池化、元素级和上传)提供专用的执行路径.
如果网络图允许,则允许卷积命令与其他命令并行运行.
某些网络图具有不同指令类型的并行分支,有时允许并行处理.
例如,在GoogLeNetv1inception模块中,3x3最大池化层是一个层的主要示例,该层可以使用xDNN处理引擎与其他1x1/3x3/5x5卷积并行运行.
图2显示了GoogLeNetv1网络的inception模块.
图2:GoogLeNetv1中的Inception层如图3所示,软件可以与第二个分支的3x3卷积并行地调度3x3最大池化.
X-RefTarget-Figure2X-RefTarget-Figure3图3:GoogLeNetv1中Inception层的xDNN调度WP504_02_092418滤波级联上一个层Conv3x3Conv5x5Conv1x1Conv3x3ReduceConv1x1Conv5x5Reduce3x3最大池化WP504_03_092418Conv3x3ReduceMaxPool3x3并行执行Conv5x5ReduceConv1x1Conv3x3Conv5x5Conv1x1时间WP504(v1.
0)2018年10月2日china.
xilinx.
com5使用赛灵思Alveo加速器卡加速DNN硬件辅助图像分块xDNN处理引擎具有内置的硬件辅助图像分块功能,用来支持具有大图像/激活大小的网络.
xDNN处理引擎允许跨宽度和高度的输入特性映射分块.
如图4所示.
硬件辅助图像分块采用单个非数据移动指令(Conv、Pool、EW)并生成正确的微操作序列(下载、操作、上传).
通过将激活存储器逻辑分区为两个区域(如双缓冲区),微操作在硬件中完全实现流水线化.
通过异构执行自定义网络支持尽管xDNN处理引擎支持广泛的CNN操作,但新的自定义网络仍在不断开发中-有时,FPGA中的引擎可能不支持选择层/指令.
由xfDNN编译器来识别xDNN处理引擎中不受支持的网络层,并且可以在CPU上执行.
这些不受支持的层可以位于网络的任何部分-开始、中间、结束或分支中.
图5显示了编译器如何将处理划分到xDNN处理引擎甚至CPU中的各种PE上.
X-RefTarget-Figure4图4:硬件辅助图像分块功能WP504_04_082118分块1分块2分块3分块4输入特性映射输入宽度W深度/通道输入高度HX-RefTarget-Figure5图5:由编译器分区的处理WP504_05_082118FPGAorCPUFPGAFPGACPUCPU预处理并行子图子图1后处理WP504(v1.
0)2018年10月2日china.
xilinx.
com6使用赛灵思Alveo加速器卡加速DNN脉动阵列架构xDNN处理引擎利用诸如"SuperTile"论文(1)中描述的技术来实现高工作频率.
这个SuperTileDSP宏提供了一个关系放置的宏,其可以进行分块以构建更大的计算阵列,例如矩阵乘法和卷积,这是CNN计算最为密集的操作.
图6显示了映射到FPGA中的DSP48和CLB-M(LUTRAM)分块的逻辑处理元件的示例.
该宏单元是xDNN脉动阵列中的基本处理单元.
1.
E.
Wuetal.
,XilinxInc.
IEEEXploreDigitalLibrary,Sept.
2017,AHigh-ThroughputReconfigurableProcessingArrayforNeuralNetworks.
X-RefTarget-Figure6图6:DSP宏示例中的MAC和权重包装WP504_06_092418CLB-MCLB-MCLB-MCLB-MCLB-MCLB-M1x时钟DSP48E2DSP48E2CLB-MCLB-MCLB-MCLB-M1x时钟2x时钟2x时钟权重高速缓存(Pong)重新格式化P+++重新格式化权重高速缓存(Pong)权重高速缓存(Pong)重新格式化P+++重新格式化权重高速缓存(Pong)FPGA物理分段逻辑处理元素WP504(v1.
0)2018年10月2日china.
xilinx.
com7使用赛灵思Alveo加速器卡加速DNNxfDNN软件堆栈概览xfDNN软件堆栈是软件工具和API的组合,其可通过各种常见的ML框架实现xDNN处理引擎的无缝集成和控制.
图7中的流程图详细说明了如何准备网络和模型,以便通过Caffe、TensorFlow或MxNet在xDNN上进行部署.
在CPU上运行不受支持的层的同时,xfDNN编译器还支持xDNN层.
在编译和量化网络/模型之后-该流程通常需要不到一分钟-用户可以通过选择简单易用的Python或C++API与xDNN处理引擎进行接口连接.
图7:xfDNN流程图赛灵思xfDNN软件堆栈包括:1.
网络编译器和优化器编译器产生在xDNN引擎上执行的指令序列,其提供张量级控制和数据流管理,以实现给定的网络.
2.
型号量化器量化器从经训练的CNN网络模型产生目标量化(INT8或INT16),而无需数小时的再训练或标记的数据集.
3.
运行时间和调度器xfDNN简化了xDNN处理引擎的通信和编程,并利用了符合SDx的运行时间和平台.
X-RefTarget-Figure7WP504_07_092818TensorflowMxNetCPU层FPGA层Caffe模型权重图像校准集前端赛灵思张量图之框架张量图优化的张量图运行时间量化器编译器WP504(v1.
0)2018年10月2日china.
xilinx.
com8使用赛灵思Alveo加速器卡加速DNN图8显示了xfDNN库的流程图,其将深度学习框架与在赛灵思FPGA上运行的xDNNIP相连接.
有关xfDNN编译器的更多信息现代CNN是数百个单独操作的图表,即卷积、Maxpool、Relu、偏置、批处理规范、元素级加法等.
编译器的主要工作是分析CNN网络并生成在xDNN上执行的优化指令集.
xfDNN编译器不仅提供简单的PythonAPI来连接到高级ML框架,而且还通过融合层、优化网络中的内存相关性以及预调度整个网络来提供网络优化工具.
这消除了CPU主机控制瓶颈.
请参见图9作为示例.
X-RefTarget-Figure88:xfDNN软件堆栈WP504_08_092818xfDNN处理引擎来自赛灵思来自社区{RESTfulAPI}xfDNN中间件、工具和运行时间X-RefTarget-Figure9图9:xfDNN编译器优化WP504_09_092818下一个下一个融合[Relu+Bias+Conv]融合[Relu+Bias+Conv]融合[Relu+Bias+Conv]融合[Relu+Bias+Conv]融合[Relu+Bias+Conv]融合[Relu+Bias+Conv]ReluReluReluReluBiasBiasBiasBiasConvConvConvConvReluReluPoolPoolBiasBiasConvConvDDR缓冲片上UltraRAM缓冲上一个未优化的模型上一个为URAM而优化的xfDNN智能融合层流WP504(v1.
0)2018年10月2日china.
xilinx.
com9使用赛灵思Alveo加速器卡加速DNN性能基准测试结果随着实时AI服务的日益增多,时延成为整体AI服务性能的重要方面.
GPU在时延和吞吐量之间存在显著的权衡,与此不同的是,xDNNv3DNN引擎可以提供低时延和高吞吐量.
此外,xDNNv3内核提供简单的Batch=1接口,无需任何排队软件来自动批量输入数据便可实现最大吞吐量,从而降低了接口软件的复杂性.
图10和图11显示了Alveo加速器卡和广受欢迎的GPU和FPGA平台上的CNN、时延和吞吐量基准.
图10显示了沿左Y轴以每秒图像数量来测量的GoogLeNetV1Batch=1吞吐量.
吞吐量上方显示的数字是以毫秒为单位的测量/报告时延.
X-RefTarget-Figure10图10:GoogLeNetv1Batch=1吞吐量WP504_10_092418051015202530050010001500200025003000350040004500GoogLeNetV1Batch=1吞吐量和时延时延(ms)图像/秒24.
32ms4.
9ms412048371.
19ms2508761.
14ms2,5421.
18ms3,1241.
87ms4,1273,3891.
18msXeonBroadwellf1.
2xlargeAWSXeonSkylakec5.
18xlargeAWSNvidiaP4(INT8)Arria-10(FP16)NvidiaV100(FP16/FP32)NvidiaT4(INT8)预计AlveoU200xDNNv3时延模式(INT8)AlveoU200xDNNv3吞吐量模式(INT8)AlveoU250xDNNv3吞吐量模式(INT8)AlveoU250xDNNv3时延模式(INT8)1.
82ms注释:1.
XeonE5-2696v4f1.
2xlargeAWS实例,Ubuntu16.
04LTS,amd64xenial映像建于2018年08月14日,IntelCaffe(https://github.
com/intel/caffe),Git版本:a3d5b02,run_benchmark.
pyw/Batch=1修改.
2.
XeonPlatinum8124Skylake,c5.
18xlargeAWS实例,Ubuntu16.
04LTS,amd64xenial映像建于2018年08月14日,IntelCaffe,Git版本:a3d5b02,run_benchmark.
pyw/Batch=1修改.
3.
Arria-10号码取自英特尔白皮书"利用OpenCL平台和英特尔Stratix10FPGA加速深度学习.
"https://builders.
intel.
com/docs/aibuilders/accelerating-deep-learning-with-the-opencl-platform-and-intel-stratix-10-fpgas.
pdf.
Arria时延数据尚未公布.
4.
NvidiaP4和V100号码取自Nvidia技术概览,"从数据中心到网络边缘,深度学习平台、AI服务的性能和效率的巨大飞跃".
https://images.
nvidia.
com/content/pdf/inference-technical-overview.
pdf.
数据检索于2018年9月3日.
5.
基于当前可用的已公布基准的NvidiaT4投影.
根据早期的功率效率基准,GoogLeNetBatch=1性能范围在1700-2000个图像/秒之间.
6.
AlveoU200数字测量IntelXeonCPUE5-2650v42.
2GHz、2400MHzDDR4、Ubuntu16.
04.
2LTS实例在OpenStackPike,Centos7.
4上运行,预发布版本MLSuite,streaming_classify.
py,合成数据,MLSuiteDSAThinShell,FC和在Xeon主机上运行的SoftMax层和不包含在计算总计中的操作(占总计算的0.
06%).
7.
AlveoU250数字测量IntelXeonSilver4110CPU@2.
10GHz,CentOSLinux发布7.
4.
1708,预发布版本MLSuite,streaming_classify.
py,合成数据,DSA:ThinShell,FC和在Xeon主机上运行的SoftMax层和不包含在计算总计中的操作WP504(v1.
0)2018年10月2日china.
xilinx.
com10使用赛灵思Alveo加速器卡加速DNN图11显示了沿Y轴以每秒每瓦特图像数量来测量的GoogLeNetV1吞吐量.
虽然GoogLeNetv1性能可用于基准测试,但xDNN支持广泛的CNN网络.
如需了解有关运行其他CNN网络的更多信息,请参阅MLSuite文档(https://github.
com/Xilinx/ml-suite).
结论与行动呼吁如共享性能结果所示,xDNN处理引擎是一种高性能、高能效的DNN加速器,在实时推断工作负载方面优于当今众多常见的CPU/GPU平台.
xDNN处理引擎可通过MLSuite在众多云环境(例如AmazonAWS/EC2或NimbixNX5)中使用.
其通过赛灵思的新Alveo加速器卡无缝扩展到本地部署.
赛灵思的可重配置FPGA芯片允许用户通过xDNN更新继续接收新的改进和功能.
这使用户能够跟上不断变化的需求和不断演进发展的网络.
如需了解有关入门的更多信息,请访问:https://github.
com/Xilinx/ml-suite或https://www.
xilinx.
com/applications/megatrends/machine-learning.
htmlX-RefTarget-Figure11图11:GoogLeNetv1Batch=1能源效率WP504_11_092418Nvidia(2)P4(INT8)Arria-10(1)(FP16)6050403020100NvidiaV100(2)(FP16/FP32)AlveoU200(3)xDNNv3吞吐量模式(INT8)AlveoU250(3)xDNNv3吞吐量模式(INT8)Images/Second/WattNotes:1.
Arria-10号码取自英特尔白皮书"利用OpenCL平台和英特尔Stratix10FPGA加速深度学习.
"https://builders.
intel.
com/docs/aibuilders/accelerating-deep-learning-with-the-opencl-platform-and-intel-stratix-10-fpgas.
pdf.
2.
NvidiaP4和V100号码取自Nvidia技术概览,"从数据中心到网络边缘,深度学习平台、AI服务的性能和效率的巨大飞跃".
https://images.
nvidia.
com/content/pdf/inference-technical-overview.
pdf.
数据检索于2018年9月3日.
3.
基准执行期间电路板管理固件报告的电路板功率数据.
GoogLeNetV1Batch=1高能效WP504(v1.
0)2018年10月2日china.
xilinx.
com11使用赛灵思Alveo加速器卡加速DNN修订历史下表列出了本文档的修订历史.
免责声明本文向贵司/您所提供的信息(下称"资料")仅在对赛灵思产品进行选择和使用时参考.
在适用法律允许的最大范围内:(1)资料均按"现状"提供,且不保证不存在任何瑕疵,赛灵思在此声明对资料及其状况不作任何保证或担保,无论是明示、暗示还是法定的保证,包括但不限于对适销性、非侵权性或任何特定用途的适用性的保证;且(2)赛灵思对任何因资料发生的或与资料有关的(含对资料的使用)任何损失或赔偿(包括任何直接、间接、特殊、附带或连带损失或赔偿,如数据、利润、商誉的损失或任何因第三方行为造成的任何类型的损失或赔偿),均不承担责任,不论该等损失或者赔偿是何种类或性质,也不论是基于合同、侵权、过失或是其他责任认定原理,即便该损失或赔偿可以合理预见或赛灵思事前被告知有发生该损失或赔偿的可能.
赛灵思无义务纠正资料中包含的任何错误,也无义务对资料或产品说明书发生的更新进行通知.
未经赛灵思公司的事先书面许可,贵司/您不得复制、修改、分发或公开展示本资料.
部分产品受赛灵思有限保证条款的约束,请参阅赛灵思销售条款:http://www.
xilinx.
com/legal.
htm#tos;IP核可能受赛灵思向贵司/您签发的许可证中所包含的保证与支持条款的约束.
赛灵思产品并非为故障安全保护目的而设计,也不具备此故障安全保护功能,不能用于任何需要专门故障安全保护性能的用途.
如果把赛灵思产品应用于此类特殊用途,贵司/您将自行承担风险和责任.
请参阅赛灵思销售条款:http://china.
xilinx.
com/legal.
htm#tos.
关于与汽车相关用途的免责声明如将汽车产品(部件编号中含"XA"字样)用于部署安全气囊或用于影响车辆控制的应用("安全应用"),除非有符合ISO26262汽车安全标准的安全概念或冗余特性("安全设计"),否则不在质保范围内.
客户应在使用或分销任何包含产品的系统之前为了安全的目的全面地测试此类系统.
在未采用安全设计的条件下将产品用于安全应用的所有风险,由客户自行承担,并且仅在适用的法律法规对产品责任另有规定的情况下,适用该等法律法规的规定.
日期版本修订描述10/02/20181.
0赛灵思初始版本.

展开全文

加速器加快网速的方法相关文档

文件127 ipad连不上wifi苹果ipad突然连不上网了，是怎么回事？网络是好的，手机能上网。ipad连不上wifiipad显示无互联网连接怎么回事？win10445端口win的22端口和23端口作用分别是什么 ?tcpip上的netbiostcp 协议里的 netbios . 在哪，找不到 x-routerX-Router这个软件有什么用 css3按钮如何在html添加一个搜索框和一个按钮 css选择器CSS中的选择器分几种？css选择器CSS的常见选择器有哪几种联通合约机iphone5联通合约机iphone5能用移动卡吗猫咪永久域名收藏地址 godaddy域名注册域名备案中心万网免费域名 mach 阿里云代金券 2017年万圣节中国电信测速112 免费mysql 国外代理服务器软件多线空间四川电信商城主机管理系统什么是web服务器谷歌台湾酸酸乳后门 ncp 卡巴斯基免费下载 bwg 更多

加速器加快网速的方法

RAKsmartCloud服务器,可自定义配置月$7.59

搬瓦工(季付46.7美元)新增荷兰(联通线路)VPS,2.5-10Gbps

CloudCone：洛杉矶MC机房KVM月付1.99美元起,支持支付宝/PayPal