AI云服務(wù)器運(yùn)維工程師
面議核心職責(zé)
1.云服務(wù)器管理
●負(fù)責(zé)Linux服務(wù)器(CentOS/Ubuntu)的部署、監(jiān)控、調(diào)優(yōu)及故障處理
●管理云平臺(tái)(AWS/Azure/GCP)的IAAS資源,包括網(wǎng)絡(luò)/存儲(chǔ)/安全組配置
●實(shí)施自動(dòng)化運(yùn)維(Ansible/Terraform)及災(zāi)備方案
2.Kubernetes集群運(yùn)維
●設(shè)計(jì)、部署及維護(hù)高可用K8s集群(≥50節(jié)點(diǎn))
●管理HelmChart部署、CRD開發(fā)、Operator框架應(yīng)用
●優(yōu)化集群性能(網(wǎng)絡(luò)CNI/存儲(chǔ)CSI/資源調(diào)度)
3.GPU與AI支持
●維護(hù)GPU服務(wù)器硬件(NVIDIA4090/5090/A100系列)及驅(qū)動(dòng)/CUDA環(huán)境
●部署LLM推理服務(wù)(vLLM/Triton)及監(jiān)控GPU利用率
●協(xié)助AI團(tuán)隊(duì)優(yōu)化計(jì)算資源分配與成本控制
________________________________________
硬性要求
●基礎(chǔ)能力
●3年以上Linux系統(tǒng)管理經(jīng)驗(yàn),精通Shell/Python腳本
●熟悉云平臺(tái)核心服務(wù)(EC2/EBS/VPC等)及CLI管理
●掌握監(jiān)控體系搭建(Prometheus+Grafana+AlertManager)
●Kubernetes專精
●2年以上生產(chǎn)環(huán)境K8s運(yùn)維經(jīng)驗(yàn),持有CKA/CKAD認(rèn)證者優(yōu)先
●深入理解Etcd/API-Server/Controller工作原理
●具備ServiceMesh(Istio/Linkerd)實(shí)踐經(jīng)驗(yàn)
________________________________________
優(yōu)先考慮條件
1.GPU管理經(jīng)驗(yàn)
●熟悉NVIDIAGPU虛擬化(vGPU/MIG)
●有DCGM-Exporter或Fluentd日志采集實(shí)踐
2.LLM運(yùn)維實(shí)踐
●部署過HuggingFace/LLaMA等大模型服務(wù)
●了解模型并行訓(xùn)練、顯存優(yōu)化方案
3.其他加分項(xiàng)
●熟悉分布式存儲(chǔ)(Ceph/GlusterFS)
●有MLOps平臺(tái)(Kubeflow/DLAMI)運(yùn)維經(jīng)驗(yàn)
●理解RDMA/InfiniBand高速網(wǎng)絡(luò)
________________________________________
我們提供
●參與億級(jí)參數(shù)大模型基礎(chǔ)設(shè)施建設(shè)的機(jī)遇
●技術(shù)導(dǎo)向的扁平化管理,彈性工作制
●有競(jìng)爭(zhēng)力的薪資及福利
●與同事共同參與AI基礎(chǔ)設(shè)施的搭建和管理