7. 혼자서는 안 된다 — 멀티 에이전트와 자동 포스트모템역할별 Agent 분리(감시/분석/실행/보고)와 협업 구조. Agent 간 컨텍스트 공유, 에스컬레이션, 자동 포스트모템 생성과 지식 축적의 선순환을 설계합니다.DevOps·2026. 06. 07. PM 10:00(수정됨)·4분·0·@시스템엔지니어로 살아남기 — AI Ops 편·#ai-ops#multi-agent#포스트모템+2
6. AI Agent가 서버를 고친다 — 자동 조치와 RunbookLLM이 실제로 시스템 명령을 실행하는 구조. 3단계 접근법(Read-Only → Human-in-the-Loop → 자율), ReAct 패턴, 안전장치 설계와 Runbook 자동화를 다룹니다.DevOps·2026. 05. 31. PM 10:00(수정됨)·4분·1·@시스템엔지니어로 살아남기 — AI Ops 편·#ai-ops#ai-agent#runbook+2
5. 왜 죽었는가 — RCA 자동화와 환각 방지LLM 기반 근본 원인 분석(RCA)의 핵심 - 프롬프트 5단계 진화와 환각 방지 전략. Meta의 접근법과 실전 RCA 파이프라인을 설계합니다.DevOps·2026. 05. 24. PM 10:00(수정됨)·4분·1·@시스템엔지니어로 살아남기 — AI Ops 편·#ai-ops#rca#장애분석+2
4. LLM이 장애를 감지한다 — 알림 피로 끝내기임계값 알림의 한계를 넘어서는 LLM 기반 이상 탐지. 프롬프트 설계, 알림 상관관계 분석, 실시간 감시 구조와 기존 모니터링과의 통합 방법을 다룹니다.DevOps·2026. 05. 17. PM 10:00(수정됨)·4분·3·@시스템엔지니어로 살아남기 — AI Ops 편·#ai-ops#이상탐지#알림관리+2
3. LLM에게 먹일 데이터 준비 — 전처리와 RAG운영 데이터 품질이 분석 결과를 결정한다. 로그 전처리 5단계, 컨텍스트 전략, RAG 시스템 구축 방법과 알림이 LLM에 도달하는 전체 파이프라인을 설계합니다.DevOps·2026. 05. 10. PM 10:00(수정됨)·5분·3·@시스템엔지니어로 살아남기 — AI Ops 편·#ai-ops#rag#데이터파이프라인+2
2. 어떤 LLM을 쓸 것인가 — 환경별 선택 가이드Claude API vs 로컬 빅모델의 선택 기준. 파라미터, 토큰, 컨텍스트 윈도우의 실무적 의미와 GPU 메모리별 모델 선택 가이드. SRE 작업별 비교와 비용 분석.DevOps·2026. 05. 03. PM 10:00(수정됨)·6분·5·@시스템엔지니어로 살아남기 — AI Ops 편·#llm#claude#ai-ops+3
1. 새벽 3시의 전화 — 왜 자율 SRE인가새벽 3시 장애 호출에서 시작된 자율 SRE의 필요성. 반복적인 토일, 알림 피로, 야간 온콜의 진짜 비용을 해결하는 AI Ops의 개념과 성숙도 모델을 소개합니다.DevOps·2026. 04. 26. PM 10:00(수정됨)·7분·3·@시스템엔지니어로 살아남기 — AI Ops 편·#ai-ops#sre#automation+2