职位描述
该职位还未进行加V认证,请仔细了解后再进行投递!
岗位职责:
1.硬件监控与维护: GPU 集群安装与维护,管理 BMC IPMI 硬件报警系统,建立和维护硬件告警工单体系;
2.负责机器内硬件固件的升级维护、问题定位,进行硬件/ BIOS 性能调优。监控和维护 RDMA 网络/交换机,调整水线,进行故障定位;
3.软件运维:负责监控、日志、存储、工单系统组件的搭建及运维管理;
4.IDC管理:负责 IDC 的备件库存管理,确保7*24小时 oncall 响应,处理机房问题(如断电、温度过高等),协调厂商上门升级服务,对故障机器组件(如网卡、主板、光模块、线缆)进行更换和维修;
5.远程分析数据中心运行中需求和技术问题,推动并提升数据中心的运维效率;
6.负责常见故障处理;协助进行现场资产的统计与登记,确保资产安全。
职位要求:
1.本科及以上学历,计算机、电子信息等相关专业;
2.至少3年以上机房运维或算力集群运维执行经理经验,熟悉人工智能和大模型行业;
3.熟悉高算力服务器产品,对于高算力服务器问题进行运营处理,具备一定的维修能力;
4.熟悉 Linux 系统、虚拟化技术、容器技术等,有大规模集群运维经验者优先。
5.精通监控和告警系统,如 Prometheus 、Grafana 、 Zabbix 等。
6.良好的沟通能力和团队协作精神,能够在压力下有效解决问题。
工作地点
地址:武汉江汉区武汉-江汉区武汉市江汉区新华路186号福星国际商贸大厦4楼
![](http://img.jrzp.com/jrzpfile/rcw/SearchJob/images/jg.png)