优化ai内存不足

ai内存不足  时间:2021-01-19  阅读:()

YOURSUCCESS,WESUCCEED基于GPU的AI计算优化方法与案例:从训练到推理张清,浪潮AI首席架构师AI计算的发展趋势及其挑战基于GPU的AI计算优化方法:从训练到推理提纲CaseStudy:基于GPU实现AutoMLSuite计算优化Source:IDC2019AI计算的发展趋势US$M2,731.
74,478.
96,833.
89,674.
413,432.
317,468.
01,680.
62,686.
63,762.
94,639.
05,917.
67,303.
464.
0%52.
6%41.
6%38.
8%30.
0%59.
8%40.
0%23.
3%27.
6%23.
4%0.
0%10.
0%20.
0%30.
0%40.
0%50.
0%60.
0%70.
0%02,0004,0006,0008,00010,00012,00014,00016,00018,000201820192020202120222023中国人工智能总体市场规模及预测,2018-2023AISpendingGrowthRate整体投资中国人工智能服务器市场规模及预测,2018-2023AIServerGrowthRate算力投资趋势1:越来越多的场景将采用AI技术创新,未来计算投入会越来越大81.
3%73.
7%66.
6%59.
8%51.
7%47.
9%42.
7%18.
7%26.
3%33.
4%40.
2%48.
3%52.
1%57.
3%0%10%20%30%40%50%60%70%80%90%100%2017年2018年2019年2020年2021年2022年2023年TrainingInferenceSource:IDC2019AI计算的发展趋势趋势2:越来越多的AI应用将进入生产阶段,未来5年推理所需计算会迅速增加Source:FacebookAI计算的发展趋势趋势3:大数据+大模型,需要更大的计算16.
036.
087.
0153.
082.
2%84.
2%85.
1%85.
4%80.
0%81.
0%82.
0%83.
0%84.
0%85.
0%86.
0%020406080100120140160180200ResNeXt-10132*8dResNeXt-10132*16dResNeXt-10132*32dResNeXt-10132*48d单位:BFLOPS计算量准确度AI计算面临的挑战AI计算架构:芯片间异构与芯片内异构异构并行与协同计算–CPU/GPU,CUDACore/TensorCoreAI计算规模:K级节点、10K级GPU卡性能与性能的可扩展性–单模型K级以上GPU并行计算AI计算环境:不同用户、不同算法、不同数据、不同框架、不同GPU卡任务管理与资源调度–生产系统K级以上模型并发调度不同AI计算的发展趋势及其挑战基于GPU的AI计算优化方法:从训练到推理提纲CaseStudy:基于GPU实现AutoMLSuite计算优化基于GPU的AI计算优化方法AI应用特征分析GPU平台优化AI计算框架GPU优化AI应用GPU优化计算特征访存特征通信特征IO特征计算优化存储优化网络优化资源管理资源调度GPU系统管理优化数据模型划分单机优化算法不同通信机制数据模型聚合训练性能优化训练扩展优化推理吞吐优化推理延时优化AI应用特征分析CPUGPUTeye工具:从微架构层次分析AI应用与框架特征,实现性能优化MXNetTensorFlowCaffeCV应用特征分析案例CPU利用率:5%-25%CPU内存:20GB以下GPU利用率:80%-100%GPU内存:15GB左右GPU平台优化计算优化–训练:单机8-16V100GPU并行–推理:单机8-16T4GPU并行网络优化–训练:单机4-8个IB卡(100GB/s-200GB/s)实现1000卡以上并行–推理:单机万兆网络通信优化–训练:NVSwitch+RDMA–推理:PCIE存储优化:高性能并行存储+SSD/NVMe两级存储547.
23889.
64456.
811076.
551761.
27907.
392065.
93399.
91805.
034124.
376813.
023581.
968195.
8313473.
36976.
06050001000015000resnet101resnet50vgg16V100-SMX332GBbs=256(Images/s)(InspurAGX-5)1GPU2GPUs4GPUs8GPUs16GPUs6134077903102741020000400006000080000100000120000A厂商8*PCIeGPUServerB厂商8*NVLinkGPUServerInspur5488M5NLPTransformerBenchmark(每秒钟训练单词数)GPU系统管理优化数量:120GPU分配:共享用途:训练用户:ALLSSD缓存HAP100_share数量:96GPU分配:独享用途:训练用户:行为分析SSD缓存P100_exclusive数量:64GPU分配:共享用途:训练用户:ALLSSD缓存V100_share数量:120GPU分配:独享用途:训练用户:图像识别SSD缓存V100_exclusive用户数据:代码,模型云存储数量:32GPU分配:共享用途:开发调试,镜像定制用户:ALLSSD缓存P40_debug利用AIStation实现统一资源管理和调度–大规模AI生产平台:800+GPU卡–GPU利用率40%提升到80%–作业吞吐提升3倍训练数据下载AI计算框架GPU优化并行机制:数据并行/模型并行/数据+模型并行/Pipline并行GPU计算充分发挥:FP16与FP32混合精度计算,保持训练稳定下的大batchsize训练计算梯度同步通信机制:异步或半异步,ring-allreduce,2D-Torusall-reduce通信优化:合并小数据,提升通信效率;计算与通信异步,实现隐藏通信并行IO,采用多线程的数据读取机制数据预取、数据IO与计算异步并行IOAI计算框架GPU优化案例开源地址:https://github.
com/Caffe-MPI/Caffe-MPI.
github.
ioNo.
ofGPUsimages/sNo.
ofGPUsInspurCaffe-MPIInspurTensorFlow-Opt实现512块GPU24分钟完成imagenet数据集训练基于HPC架构,实现数据并行,并行IO读取数据基于NCCL,并采用环形通信方式计算与通信异步,实现计算与通信的异步隐藏实现主从模式到对等模式通信合并梯度,提升通信效率采用fp16通信,减少通信量AI应用面临的挑战分析及优化思路数据跟不上计算,GPU利用率低模型和数据大,GPU显存溢出,如何优化混合精度如何优化,TensorCore如何高效利用如何快速实现多机多GPU卡并行计算Pref/NVProfTensorflow-timelineHorovod-timelineTeyeGPU-driver/CUDA/cuDNN/NCCL计算框架版本匹配CPU/GPU端、Bios设置CPU与GPU、GPU与GPU、节点间通信拓扑应用瓶颈分析GPU系统级优化GPU代码级优化训练的性能训练的扩展效率推理的吞吐量推理的延时AI训练应用GPU优化方法数据IO优化数据格式、数据存储、数据处理、数据流水线混合精度优化使用CUDACore&TensorCore发挥GPU使用效率GPU并行优化使用ring(tree)-allreduce高效并行通信方式数据IO优化数据并行读取数据并行批量预处理数据与计算异步并行数据IO优化案例1某图像识别CNN模型(在P100平台训练)实测单卡计算性能只有2.
3TFlops,远低于P100的理论单精度浮点性能;分析GPU的利用率,发现GPU只有60%左右的时间在参与计算,剩余40%的时间处于空闲状态;在毫秒尺度观察GPU的使用情况,发现有周期性的0.
06s左右的GPU空闲时间数据IO优化案例1效果通过优化图片预处理方式,可以有效的提高GPU资源的利用率,优化后GPU的使用率提升到90%左右.

Kinponet是谁?Kinponet前身公司叫金宝idc 成立于2013年 开始代理销售美国vps。

在2014年发现原来使用VPS的客户需求慢慢的在改版,VPS已经不能满足客户的需求。我们开始代理机房的独立服务器,主推和HS机房的独立服务器。经过一年多的发展,我们发现代理的服务器配置参差不齐,机房的售后服务也无法完全跟上,导致了很多问题发生,对使用体验带来了很多的不便,很多客户离开了我们。经过我们慎重的考虑和客户的建议。我们在2015开始了重大的改变, 2015年,我们开始计划托管自己...

Digital-VM80美元新加坡和日本独立服务器

Digital-VM商家的暑期活动促销,这个商家提供有多个数据中心独立服务器、VPS主机产品。最低配置月付80美元,支持带宽、流量和IP的自定义配置。Digital-VM,是2019年新成立的商家,主要从事日本东京、新加坡、美国洛杉矶、荷兰阿姆斯特丹、西班牙马德里、挪威奥斯陆、丹麦哥本哈根数据中心的KVM架构VPS产品销售,分为大硬盘型(1Gbps带宽端口、分配较大的硬盘)和大带宽型(10Gbps...

妮妮云香港CTG云服务器1核 1G 3M19元/月

香港ctg云服务器香港ctg云服务器官网链接 点击进入妮妮云官网优惠活动 香港CTG云服务器地区CPU内存硬盘带宽IP价格购买地址香港1核1G20G3M5个19元/月点击购买香港2核2G30G5M10个40元/月点击购买香港2核2G40G5M20个450元/月点击购买香港4核4G50G6M30个80元/月点击购买香...

ai内存不足为你推荐
asp主机空间Asp空间是什么空间啊?跟有的网站提供的免费空间有什么区别吗?台湾vps香港vps和台湾vps哪个好用免费网站空间哪里有永久免费的网站空间?北京网站空间自己弄一个简单的网站,大概需要办理什么,大概需要多少钱?虚拟主机管理系统大家都用的是什么虚拟主机管理系统?分享一下虚拟主机系统什么是虚拟主机?论坛虚拟主机虚拟主机禁止放论坛mysql虚拟主机如何建立支持PHP+MySQL的虚拟主机?成都虚拟主机一个虚拟主机最多支持几个子目录呢?一个百度推广账户是不是只能推广一个主域名下的网站?安徽虚拟主机合肥金马网络科技有限公司怎么样?
国外私服 股票老左 1g空间 南通服务器 umax120 东莞服务器托管 金主 免费网络空间 江苏双线 中国电信宽带测速 月付空间 ubuntu安装教程 时间同步服务器 香港打折信息 美国vpn服务器 美国达拉斯 crontab 天鹰抗ddos防火墙 免费论坛空间 服务器监测软件 更多