作业私服服务器架设

私服服务器架设  时间:2021-01-18  阅读:()
TeslaGPU集群服务器使用手册v0.
93(2010-1-11)一、系统环境简介TeslaGPU集群服务器域名为tesla.
sccas.
cn,IP地址为159.
226.
49.
76(暂定),内部用户可以在办公网内直接使用SSH登录该集群,外部用户同样需要经过防火墙身份认证之后(认证过程请参见《深腾7000远程登录指南》)再进行SSH登录.
数据的上传与下载仍然是通过scp或者sftp方式进行.
TeslaGPU集群服务器的系统环境如下:1)硬件环境:头节点1个,机器名console,配备一颗IntelXeonE5504四核处理器,2.
0GHz主频,2*4MB缓存,8G内存,6块300GBSAS硬盘,工作于Raid5模式.
计算节点90个,存在两种不同硬件配置,其机器名分别如下:c0101-c0110、c0201-c0203、c0301-c0305(共18个节点)以上节点配置一颗AMDPhenom9850四核处理器,2.
5GHz主频,4*256KB二级缓存,4MB三级缓存,3块TeslaC1060GPU处理器,8GB内存,一块500GBSATA硬盘.
c0204-c0233、c0401-0442(共72个节点)以上节点配置一颗IntelXeonE5410四核处理器,2.
33GHz主频,2*6MB二级缓存,2块TeslaC1060GPU处理器,8GB内存,一块500GBSATA硬盘.
各节点间通过DDR4XInfiniband高速网络和千兆以太网进行连接,分别用于计算数据和系统管理信息的通讯.
2)软件环境:RHEL5.
3x64操作系统,内核版本2.
6.
18-128.
el5.
GNUC/C++/Fortran编译器.
NvidiaCUDAToolkit2.
1开发工具.
Mvapich/OpenMPI并行编程环境.
Atlas/GotoBlas数学函数库.
Torque/Maui资源管理系统及作业调度器.
Ganglia集群监控系统.
3)文件系统:除console外所有节点通过NFS挂载console的/export目录,包括console在内的所有节点的/home目录为/export/home目录的软链接.
由于文件系统性能不高,建议不要在该集群上运行会造成大规模并行或复杂I/O的应用程序.
二、程序开发及调试环境1)基本编译环境目前在TeslaGPU集群上各节点均提供用于编译通用程序代码的GCC编译器,能够编译C/C++/Fortran程序,对应的命令为gcc/g++/gfortran,该编译器为系统默认安装,安装路径位于/usr下.
另外在所有计算节点(不包括console)可以使用NvidiaCUDAToolkit开发工具包提供的用于编译CUDAGPU加速程序CUDA编译器,对应的命令为nvcc.
NvidiaCUDAToolkit安装在/export/cuda下,在计算节点上不用再另外设置环境变量,console上无法使用.
2)并行程序编译环境TeslaGPU集群上安装了两套开源MPI编译并行环境,即Mvapich和OpenMPI,用户需要在自己主目录下建立名为.
mpi_type文件(该文件为隐藏文件),在文件中指明使用哪套并行环境.
如果该文件不存在或不合法,系统将默认使用Mvapich并行编译环境.
~/.
mpi_type文件示例如下:#Herewesetopenmpienvironment.
MPITYPE="openmpi"(注:修改完.
mpi_type文件之后,需要退出并重新登录系统才能使设置生效)要查看当前并行编译环境设置是否生效,可以简单的执行"whichmpicc"并通过返回信息中的路径来进行判定.
三、作业提交运行TeslaGPU集群目前安装的是Torque资源管理系统和Maui作业调度器.
Torque是著名的开源软件OpenPBS的后续开源版本(PBSPro是OpenPBS的商业化版本),命令基本兼容于OpenPBS和PBSPro.
Maui则是一套通用的集群作业调度器,可以结合各种资源管理系统进行安装,并为集群实现复杂的可配置的作业调度功能.
Torque资源管理系统和Maui调度器的官方网站是:http://www.
clusterresources.
com/pages/products/torque-resource-manager.
phphttp://www.
clusterresources.
com/products/maui-cluster-scheduler.
php在上面的网站上可以下载这两个软件的源码和配置使用文档.
如需进一步了解,可自行进行下载和阅读学习.
下面简单说明如何在TeslaGPU集群上使用Torque提交运行作业:1)作业脚本在Torque中,作业脚本用来描述运行作业(程序)所需执行的命令和程序,也可以用来配置该作业的参数(参数一般在提交作业时通过命令行直接指定).
用户通过使用qusb提交该作业脚本,使脚本文件中所写的程序和命令得到执行.
(与深腾上的LSF不同,bsub直接提交可执行程序的名称,这一点请区分开)实际上,当作业得到调度执行之后,系统将远程登录到被分配的主计算节点并执行所提交的作业脚本中的内容.
特别需要注意的是,与平时正常登录一样,在执行作业时系统自动远程登录计算节点后的初始目录(也就是开始执行作业脚本时的目录)仍然是用户的主目录,而不是用户提交作业时所在的目录.
而用户提交作业时所在的目录则被保存为$PBS_O_WORKDIR环境变量传递给执行作业的登录进程.
因此,当用户提前作业时的工作目录不是用户的主目录时,作业脚本里正式内容的第一句,通常应该是将工作目录切换至之前提交作业的目录,即:cd$PBS_O_WORKDIR对于串行程序和纯OpenMP并行程序,作业脚本只需按照的shell脚本书写方法,在脚本中调用程序使其执行即可,假设程序名为当前目录的foo_se,则脚本中可以这么写(文件名请任意指定):#假设该脚本文件名为job.
sh1cd$PBS_O_WORKDIR#如果是OpenMP程序,此处先设置OpenMP执行变量.
/foo_searg1arg2.
.
.
对于MPI并行程序,在计算化学集群上的Torque系统中是通过mpiexec软件包使程序得到执行,调用该软件包的过程已经封装在了mpijob这个命令脚本中.
mpijob命令默认以Mvapich方式执行MPI程序.
如并行环境配置使用的是OpenMPI的话,则需加上相应的-openmpi参数.
如:#假设该脚本文件名为job.
sh2cd$PBS_O_WORKDIR#执行Mvapich并行程序mpijob.
/foo_mpi_mvaarg1arg2.
.
.
或是:#假设该脚本文件名为job.
sh3cd$PBS_O_WORKDIR#执行OpenMPI并行程序mpijob-openmpi.
/foo_mpi_openarg1arg2.
.
.
2)作业提交对于Torque系统,使用qsub命令提交作业,最常用的格式如下:qsub-lnodes=X:ppn=Y-qQUEUESCRIPT其中X代表所需节点数,Y代表每节点使用CPU数,QUEUE代表队列名,SCRIPT是作业脚本名.
TeslaGPU集群中目前有三个队列,分别如下:队列名资源配置最小规模默认规模最大规模最大时长默认时长all集群中所有计算节点4x14x4@intel90x4不超过7天1天amd18个AMD平台计算节点1x11x416x4不超过7天2天intel72个Intel平台计算节点1x11x436x4不超过7天2天其中,amd队列是默认队列,所有没有使用-q参数指定提交到哪个队列的作业将会被提交到amd队列当中.
另外,如果作业提交到all队列,Torque在默认情况下将随机分配空闲节点给作业运行,而不去管该节点是什么平台的处理器.
用名可以在提交作业时使用-l参数并且再加上:amd或:intel选项,即-lnodes=X:ppn=Y:intel或-lnodes=X:ppn=Y:amd,这样就能够指定使用何种平台的计算节点运行作业.
如果需要混合使用两种不同平台的节点,可以通过指定-lnodes=X1:ppn=Y1:intel+X2:ppn=Y2:amd,这样系统就会将作业分配X1个intel节点和X2个amd节点上运行.
作业提交举例如下(例中job.
sh1、job.
sh2、job.
sh3脚本为前面举例所写的脚本):qsub-lnodes=1:ppn=1-qamdjob.
sh1(job.
sh1是之前所写串行程序脚本,即使用单个AMD平台节点上的单个CPU核心执行作业)qsub-lnodes=2:ppn=4-qinteljob.
sh2(使用2个Intel平台的计算节点,每节点占用4个CPU核心,共8个核心执行MPI并行程序,job.
sh2中指定用Mvapich并行环境执行)qsub-lnodes=4:ppn=4:amd+8:ppn=4:intel,walltime=3:0:0-qallsh3(使用4个AMD平台的计算节点,每节点占用4个CPU核心,以及8个Intel平台的计算节点,每节点也占用4个CPU核心来运行作业,并且设置作业时长为3天.
这样一共使用了12x4=48个CPU核心,并且使用OpenMPI并行环境执行)qsub提交作业后,系统返回'1051.
console'类似的输出,其中前面的数字1051代表作业号,作业号是Torque系统中每个作业所拥有的唯一的代号.
需要提示的是,如果程序执行过程中有标准输入过程(比如需要从键盘输入指定变量),那么建议自行使用重定向方式将其从文件输入.
当然,qsub同样提供-I参数进行交互式作业提交,具体使用方法在此不再详叙,可参考官方手册自行尝试.
3)作业状态查看使用qstat命令,可以看到系统中所有正在排队和运行的作业,qstat默认输出类似以下信息:JobidNameUserTimeUseSQueue1056.
consolejob.
sh1user110:02:03Camd1057.
consolejob.
sh2user225:13:27Rintel1061.
consolejob.
sh3user40Rall1062.
consolejob.
sh4user10Qintel上述信息分别代表的含义是作业号,作业名(默认为脚本名),用户名,使用CPU时间,状态(常用状态:R代表运行,Q代表排队,E代表正在退出,H代表挂起,C代表运行完毕),队列名.
如需查看指定作业号的作业,执行:qstatjobid1jobid2.
.
.
jobid1和jobid2代表指定作业号,可以一次查看多个作业.
如需查看指定用户的作业,可以使用参数-u:qstat-uuser1该方式输出和默认略有不同,但大同小异.
如需查看特定作业详细信息,则应使用-f参数:qstat-fjobid该命令将会输出作业号为jobid的作业的详细信息.
4)作业挂起、释放和删除使用qhold命令可以挂起作业,使其不被调度执行;使用qrls命令可以将挂起的作业释放,使之可以被调度执行;而使用qdel命令即可删除作业,不论该作业是否正在运行当中.
这些命令的具体格式为:qholdjobid1jobid2.
.
.
qrlsjobid1jobid2.
.
.
qdeljobid1jobid2.
.
.
其中jobidX代表需要操作的作业号,可以一次操作多个作业.
5)作业的输出结果作业运行完成或异常退出之后,在用户提交作业的目录下会生成'jobname'.
o'jobid'以及'jobname'.
e'jobid'两个文件(比如sh1.
o1066和sh1.
e1066),分别记录作业执行时写往标准输出设备和标准错误输出设备的输出信息,其中jobname是作业名,默认则是提交作业时的作业脚本名,jobid则是作业号.
用户可以通过这两个文件查看和验证程序运行的结果.
同时,建议在编写程序时尽量将程序运行结果输出到特定的磁盘文件而不是标准输出(屏幕).
以上是Torque作业资源管理系统常用到的一些基本操作,更加复杂的操作可以参考Torque官方网站上提供的文档.
另外,如果遇到作业不能正常提交、作业提交后不能被正常调度以及在使用mpijob命令配合Torque运行MPI并行程序时遇到了程序不能正确被执行的错误(指的是没有得到系统的正确执行,而非程序本身的错误)等异常情况,请及时来信或来电反馈相关信息,谢谢大家配合.
该文档如有遗漏或不当之处,请随时批评指出,谢谢.

欧路云:美国200G高防云-10元/月,香港云-15元/月,加拿大480G高防云-23元/月

欧路云 主要运行弹性云服务器,可自由定制配置,可选加拿大的480G超高防系列,也可以选择美国(200G高防)系列,也有速度直逼内地的香港CN2系列。所有配置都可以在下单的时候自行根据项目 需求来定制自由升级降级 (降级按天数配置费用 退款回预存款)。由专业人员提供一系列的技术支持!官方网站:https://www.oulucloud.com/云服务器(主机测评专属优惠)全场8折 优惠码:zhuji...

bgpto:日本独立服务器6.5折($120起),新加坡独立服务器7.5折($93起)

bgp.to在对日本东京的独立服务器进行6.5折终身优惠促销,低至$120/月;对新加坡独立服务器进行7.5折终身优惠促销,低至$93/月。所有服务器都是直连国内,速度上面相比欧洲、美国有明显的优势,特别适合建站、远程办公等多种用途。官方网站:https://www.bgp.to/dedicated.html主打日本(东京、大阪)、新加坡、香港(CN)、洛杉矶(US)的服务器业务!日本服务器CPU...

火数云 55元/月BGP限时三折,独立服务器及站群限时8折,新乡、安徽、香港、美国

火数云怎么样?火数云主要提供数据中心基础服务、互联网业务解决方案,及专属服务器租用、云服务器、专属服务器托管、带宽租用等产品和服务。火数云提供洛阳、新乡、安徽、香港、美国等地骨干级机房优质资源,包括BGP国际多线网络,CN2点对点直连带宽以及国际顶尖品牌硬件。专注为个人开发者用户,中小型,大型企业用户提供一站式核心网络云端服务部署,促使用户云端部署化简为零,轻松快捷运用云计算!多年云计算领域服务经...

私服服务器架设为你推荐
海外虚拟主机国外的虚拟主机介绍个linux虚拟主机windows虚拟主机和linux虚拟主机有什么区别cm域名注册cm域名是什么含义?价格是多少?注册地址是多少?有什么投资价值?广东虚拟主机西部数码和中国万网,哪家的虚拟主机哪个好,用过的说说?虚拟主机代理个人适合代理虚拟主机的业务吗虚拟主机推荐便宜的虚拟主机,推荐几个国内ip代理谁给我几个北京或国内的IP代理啊,高分,能用的网站空间申请企业网站空间申请有哪些流程啊。、、。手机网站空间手机登陆qq空间网址是什么?万网虚拟主机万网免费虚拟主机和收费虚拟主机有什么区别
备案域名出售 赵容 万网优惠券 国外空间 typecho 湖南服务器托管 免费个人空间 双十一秒杀 域名接入 怎么建立邮箱 网站在线扫描 网站加速软件 免费的asp空间 linode支付宝 php服务器 深圳域名 攻击服务器 免费主页空间 japanese50m咸熟 九零网络 更多