運維主管
1.5-2萬元/月崗位職責:
1、負責騰訊云相關產品(需了解主流云服務)的運維管理工作,制定標準化操作流程及故障處理規范,保障業務持續穩定與數據安全可靠;
2、承擔Kubernetes集群(如ACK/TKE/EKS)的架構設計、部署實施與性能調優,涵蓋節點彈性伸縮、Pod調度優化、HPA自動擴縮容及故障自愈方案設計;
3、負責公司服務器、網絡設備及相關軟硬件設施的日常維護與監控,通過規劃、部署、巡檢、優化等手段,確保系統7x24小時高可用運行;
4、建立并執行安全基線標準(CISBenchmark),定期開展漏洞掃描(Nessus/OpenVAS),制定安全防護策略,并推動漏洞修復閉環;
5、搭建基于Prometheus+AlertManager+Grafana的全鏈路監控平臺,集成ELK/EFK日志分析系統,實現秒級告警響應與故障根因定位;
6、負責數據備份體系的建設與執行,制定備份策略,按時完成各服務器數據備份,保障數據完整性與可恢復性;
7、完成上級交辦的其他相關工作任務。
崗位要求:
1、熟悉主流公有云平臺(阿里云/騰訊云/AWS)的部署與運維,熟練掌握Linux系統管理及常用存儲備份技術(如rsync/NFS/smb等);
2、深入理解Kubernetes網絡機制(Calico/Flannel)、存儲插件(CSI)與安全控制(RBAC/NetworkPolicy),具備Jenkins+GitLabCI自動化流水線構建能力;
3、掌握LVS+Keepalived、Nginx反向代理配置,包括SSL證書管理、URL重寫、緩存策略、限流控制與負載均衡設置;
4、理解HTTP、TCP/IP等基礎網絡協議,了解HTTP請求流程與OSI模型,熟悉IPv4/IPv6、DNS、DHCP、NTP等網絡服務原理與配置方法;
5、熟悉Zabbix、Nagios、Prometheus、skywalking、open-falcon等開源監控工具的部署、配置與日常維護;
6、具備Redis、mongodb、rabbitmq、rocketmq、nacos、apollo等主流中間件的集群部署與性能優化經驗;
7、熟練使用VMwarevSphere、Hyper-V等虛擬化平臺,能夠完成虛擬機創建、遷移、備份恢復及資源池優化管理;
8、熟悉交換機、路由器、防火墻、服務器等網絡設備的配置與管理,掌握常見網絡故障診斷與排查技能;
9、了解CI/CD工具鏈(如Jenkins/GitLabCI),熟悉容器化技術(Docker)及編排系統(Kubernetes)的應用與運維;
10、有本地部署deepseek大模型或參與大模型訓練項目者優先考慮