SRE / DevOps / Infrastructure Automation

把維運經驗轉化為可複製的系統能力

15+ 年 IT、Linux、雲端與 SRE 經驗,定位為 Hands-on SRE Lead,擅長以 GCP、K8s、Nginx 與 Python / Bash 自動化,將人工 SOP 平台化、標準化,降低人為風險並縮短交付週期。

15+
年 IT / SRE / Linux 維運經驗
4hr
基礎環境交付從 3 個工作天縮短至 4 小時內
90%+
基礎設施部署效率提升
0
腳本上線後,未再發生同類人為指令誤操作事故
Experience

核心職涯經歷

從單點救火到制度化治理,將個人技術經驗沉澱為團隊、平台與流程都能長期使用的能力。

近期經歷
星域資訊
SRE 團隊管理 / 技術標準化

建立技術標準化團隊,消弭能力落差與單點風險

接任後發現團隊技術透明度不足,任務分配容易與成員能力錯位,造成特定同仁負荷過重,也提高技術單點故障風險。我導入技能盤點、精準培訓與知識內化機制,讓團隊在面對複雜任務時具備更高韌性。

Skill Matrix 建立技能矩陣與一對一盤點
Training 針對關鍵短板推動專項培訓
Knowledge Base 技術分享會沉澱文件與簡報

技能透明化

透過問卷與面談掌握成員專長邊界,讓任務分派更貼近實際能力與培養方向。

能力基準線

針對團隊最關鍵的運維短板設計培訓與測驗,目標是建立最低基準線,而非要求每位成員成為同質化專家。

近期經歷
星域資訊
Incident Response Playbook

構建視覺化維運決策體系,將故障分類心智圖轉化為標準化排查流程

線上事故發生時,資訊往往混亂且細碎,值班人員容易在資源層、代碼層與服務層之間盲目跳轉。我將維運經驗整理為故障分類心智圖,讓一線人員能從現象出發快速收斂故障範圍,降低認知負荷並提升處置一致性。

Decision Tree 以視覺化路徑引導事故判斷
MTTR 縮短故障範圍收斂時間
Playbook 將個人經驗轉為團隊防呆機制

網站層異常路徑

針對 5xx、API 逾時等現象,導引值班人員先檢索關鍵字日誌,再區分代碼邏輯錯誤或資料庫連線超限,並執行通報或緊急回滾。

資源層異常路徑

針對 K8s Pod 重啟、OOMKilled、Pending 等狀態,導引檢查節點水位與資源限制,判斷是否為單點失效並執行原子化恢復操作。

近期經歷
星域資訊
Infrastructure Automation

自研自動化工具鏈,將標準環境交付 Lead Time 從 3 天縮短至 4 小時內

原部署流程橫跨 GCE、SQL、Redis、K8s、DNS、CDN 等多個平台,過度依賴人工確認與手動操作,容易發生配置不一致。我透過標準化參數、預檢機制與 Python / Bash 集成方案,將碎片化作業整合為可重複、可追蹤的流水線。

3 days -> 4hr 標準環境交付 Lead Time 口徑
90%+ 純執行與預檢流程效率提升
CaC 標準化 K8s YAML 與應用配置

資源協調與參數化

串接 GCP SDK 與內部系統 API,將專案、環境、規格與網域參數標準化,減少需求確認與人工抄寫成本。

全鏈路自動化與預檢

整合 DNS / CDN 解析流程與部署前檢查,讓跨平台斷點作業變成一致、可回溯的交付流程。

事故治理實踐
彩虹科技
Interactive Deployment Script

從事故驅動到自動化治理,避免同類人為部署疏失再發生

曾因手動維運缺乏狀態感知與防呆檢查,導致更新流程誤關閉運行中服務。我以 Bash 開發互動式部署腳本,把專家經驗轉化為系統強制邏輯;自腳本上線後,未再發生因人為指令誤操作導致的同類線上事故。

0 recurrence 同類人為誤操作事故未再發生
Blue / Green 新舊服務並行驗證
Guardrails 關鍵動作二次確認與中斷保護

狀態自動校驗

自動掃描 Skynet 狀態,確認服務是否處於 Master 活動中;遇到異常、環境不一致或不可控因素時立即中斷並告警。

完整性稽核與配置化

整合 SVN 版本比對、MD5 摘要校驗與 Owner 權限檢查;特定專案路徑以配置方式管理,降低跨環境調整成本。

早期平台化實踐
無限創意
Laravel-based Ops Platform

自研 Tomcat 服務整合管理平台,將 Java 維運轉為標準化網頁操作

在容器化尚未普及的階段,值班高度依賴 SSH 指令與個人經驗,故障處理時容易因版本、狀態與權限資訊不一致而擴大風險。我以 Laravel 建置維運管理平台,將監控、部署、日誌與權限納入同一操作入口。

監測與部署一體化

即時呈現服務健康度與版本狀態,並將複雜部署指令封裝為一鍵操作。

即時日誌流

無需登入主機即可查閱線上日誌,縮短 MTTR 並降低主機存取風險。

RBAC 權限控管

建立細粒度權限與審核機制,讓值班人員只執行授權範圍內的操作。

防呆與容錯

針對高風險動作加入邏輯檢核,以系統規則取代人工檢查。

Selected Impact

代表性成果

這些成果共同指向同一件事:把容易依賴個人記憶與人工判斷的維運工作,轉化成可驗證、可授權、可持續改善的工程系統。

基礎設施標準化交付

以自動化工具串起雲端資源、K8s 配置、DNS 與 CDN,使環境佈署具備一致性與可重複性。

  • Python / Bash 工具鏈開發
  • GCP SDK 與內部 API 串接
  • K8s YAML 與應用配置自動產生

團隊技術能力治理

從技能矩陣、專項培訓到技術分享會,建立團隊能力透明度與知識共享習慣。

  • 降低技術單點故障風險
  • 建立共同的運維能力基準線
  • 將個人經驗沉澱為團隊資產
Skills

專業技能

聚焦 SRE、雲端、平台化與自動化,能同時處理技術深度、交付效率與團隊治理問題。

Cloud / Infrastructure

  • GCP / AWS / 阿里雲資源規劃與維運
  • IaC (Infrastructure as Code) 與系統架構設計
  • 地端機房遷移雲端與高可用規劃

Linux / Windows Ops

  • Linux 平台與伺服器架構優化
  • Linux 軟硬體層級問題排查
  • Windows 平台管理工具開發 - AutoIt

Kubernetes / Web Stack

  • Kubernetes 平台操作與部署
  • Nginx / Tomcat 服務維運
  • PHP、C++ 線上部署功能優化

Automation / CI/CD

  • Python / Bash 自動化工具開發
  • Jenkins / Ansible 部署流程整合
  • 預檢、防呆、回滾與流程標準化

Observability / Troubleshooting

  • Prometheus / Grafana 監控視覺化
  • ELK 日誌面板設計與查詢分析
  • SLA / SLO 指標追蹤與告警治理

Team Enablement

  • 10 人以上團隊領導與管理
  • 敏捷專案規劃與工作流程推動
  • 技能培訓、能力盤點與知識共享
Certifications

證照與語言能力

雲端、網路、Linux、Kubernetes 與英文能力摘要。

CKACertified Kubernetes Administrator
CCNACisco Networking
LPIC-1Linux Professional Institute
Associate Cloud EngineerGoogle Cloud
TOEIC 810English Communication
Contact

聯絡方式

歡迎交流 SRE、DevOps、自動化部署、維運平台化與團隊技術治理相關機會。