sre運(yùn)維工程師
1.1-2萬(wàn)元/月產(chǎn)品范圍:阿里公共云的云原生可觀測(cè)性產(chǎn)品線及中間件相關(guān)服務(wù),包括日志、監(jiān)控、告警、消息隊(duì)列等,具備完善的可觀測(cè)體系構(gòu)建實(shí)踐經(jīng)驗(yàn),同時(shí)擁有一定的SRE背景,在高可用架構(gòu)設(shè)計(jì)、容災(zāi)演練、變更管控、故障處理等方面有深入理解;SRE-穩(wěn)定性工程師(中級(jí)1人):負(fù)責(zé)阿里公共云穩(wěn)定性解決方案的架構(gòu)實(shí)施與日常運(yùn)維工作。
工作范圍:
架構(gòu)設(shè)計(jì):結(jié)合具體業(yè)務(wù)需求,運(yùn)用阿里云ARMS、OpenTelemetry、Prometheus、Grafana等可觀測(cè)技術(shù),規(guī)劃具備高可用性與可量化特性的穩(wěn)定性架構(gòu),覆蓋系統(tǒng)健壯性、監(jiān)控完整性與自動(dòng)化響應(yīng)機(jī)制,達(dá)成系統(tǒng)可靠性與交付效率的平衡。
穩(wěn)定性體系建設(shè):掌握高可用架構(gòu)設(shè)計(jì)、容災(zāi)測(cè)試、變更管理與故障應(yīng)急流程,主導(dǎo)全鏈路容災(zāi)、灰度上線、資金安全保障等關(guān)鍵治理項(xiàng)目,推進(jìn)紅藍(lán)對(duì)抗演練、突發(fā)事件響應(yīng)、風(fēng)險(xiǎn)排查等能力的實(shí)際落地。依托自動(dòng)化平臺(tái)建設(shè),實(shí)現(xiàn)變更受控、故障可防、系統(tǒng)可快速恢復(fù)的穩(wěn)定性工程閉環(huán)。
故障管理:承擔(dān)應(yīng)急處置任務(wù),協(xié)調(diào)多方團(tuán)隊(duì)聯(lián)動(dòng),開(kāi)展根因分析,快速恢復(fù)服務(wù),并通過(guò)事后復(fù)盤推動(dòng)系統(tǒng)性優(yōu)化。
開(kāi)發(fā)能力:熟練掌握至少1-2種編程語(yǔ)言,如Python、Java等,能夠通過(guò)腳本開(kāi)發(fā)提升可觀測(cè)平臺(tái)的運(yùn)維效率。
具備扎實(shí)的架構(gòu)設(shè)計(jì)、性能調(diào)優(yōu)與系統(tǒng)穩(wěn)定性保障能力,深刻理解阿里云ARMS、OpenTelemetry、Prometheus、Grafana等可觀測(cè)工具的技術(shù)架構(gòu)與適用場(chǎng)景,具備豐富的實(shí)際落地經(jīng)驗(yàn)。
在識(shí)別業(yè)務(wù)潛在風(fēng)險(xiǎn)時(shí),能綜合技術(shù)可行性、運(yùn)營(yíng)成本、投入產(chǎn)出比等因素,推動(dòng)切實(shí)可行的優(yōu)化方案實(shí)施。具備系統(tǒng)的安全生產(chǎn)培訓(xùn)經(jīng)歷,具有較強(qiáng)的數(shù)據(jù)安全意識(shí),對(duì)生產(chǎn)與非生產(chǎn)環(huán)境保持高度敬畏。