职位描述
该职位还未进行加V认证,请仔细了解后再进行投递!
岗位职责
1.负责公司高性能计算( HPC )环境中 IB 、 RoCE 网络的规划、部署、优化和管理,以及 GPU / DPU 集群的搭建、调度、优化和整体交付。确保计算资源的高效利用,支持业务快速发展和技术创新。
2.负责 GPU / DPU 集群的网络规划,包括 IB 、 RoCE 等高速网络的选型、设计和实施。
3.负责 GPU / DPU 集群的部署、调度、管理和优化,确保集群的高性能稳定运行。
4.分析和解决集群中的性能瓶颈问题,对硬件、软件和算法进行优化。
5.参与或负责新技术、新方案的调研、测试和实施,提升集群的整体性能。
6.编写相关技术文档,包括网络规划、部署方案、性能调优报告等。
7.与其他部门紧密合作,确保业务需求得到满足,提供技术支持和解决方案。
职位要求
1.计算机科学、数学、物理等相关专业本科及以上学历,3年以上相关领域工作经验。
2.熟悉 IB 、 RoCE 网络,具有 NVIDIA 等 GPU 集群部署、调度、管理、优化经验,对高性能计算和数据中心网络有深入理解。
3.满足以下至少1条开发经验要求:
--- RDMA 协议的应用优化及拥塞控制算法优化工作经验,熟悉 IB 网络/ RoCE 。
--- GPU 卡集群部署的性能优化工作经验,了解 GPU 互联,熟悉 NVLINK 、 NVSWITCH 。
--- GPU 虚拟化,至少熟悉 vCUDA 、 cGPU 、 qCUDA 、rCUDA 等一种虚拟化方案。
--- CUDA 和 NCCL 的优化工作,熟悉 CUDA 算子库、runtime 、 driver 库相关 API 。
4.具有扎实的计算机网络基础,熟悉 TCP / IP 协议栈、路由交换技术、负载均衡等。
5.具备良好的分析问题和解决问题的能力,对解决具有挑战性问题充满激情。
6.优秀的团队合作精神和沟通能力,能够跨部门协作,推动项目进展。
7.具有思科 CCIE 和华为 HCIE 等网络认证证书者优先录用。
工作地点
地址:武汉江汉区武汉-江汉区武汉市江汉区新华路186号福星国际商贸大厦4楼
求职提示:用人单位发布虚假招聘信息,或以任何名义向求职者收取财物(如体检费、置装费、押金、服装费、培训费、身份证、毕业证等),均涉嫌违法,请求职者务必提高警惕。