#ai-ops

8개의 포스트

8. 현실과 미래 — 프로덕션 적용과 엔지니어의 역할 변화

보안, 비용, ROI, 점진적 도입 전략(Shadow Mode → 비핵심 → 핵심 시스템), 성과 측정, 업계 현실과 SRE 엔지니어의 역할 변화까지 실전 도입 가이드.

역할별 Agent 분리(감시/분석/실행/보고)와 협업 구조. Agent 간 컨텍스트 공유, 에스컬레이션, 자동 포스트모템 생성과 지식 축적의 선순환을 설계합니다.

LLM이 실제로 시스템 명령을 실행하는 구조. 3단계 접근법(Read-Only → Human-in-the-Loop → 자율), ReAct 패턴, 안전장치 설계와 Runbook 자동화를 다룹니다.

LLM 기반 근본 원인 분석(RCA)의 핵심 - 프롬프트 5단계 진화와 환각 방지 전략. Meta의 접근법과 실전 RCA 파이프라인을 설계합니다.

임계값 알림의 한계를 넘어서는 LLM 기반 이상 탐지. 프롬프트 설계, 알림 상관관계 분석, 실시간 감시 구조와 기존 모니터링과의 통합 방법을 다룹니다.

운영 데이터 품질이 분석 결과를 결정한다. 로그 전처리 5단계, 컨텍스트 전략, RAG 시스템 구축 방법과 알림이 LLM에 도달하는 전체 파이프라인을 설계합니다.

Claude API vs 로컬 빅모델의 선택 기준. 파라미터, 토큰, 컨텍스트 윈도우의 실무적 의미와 GPU 메모리별 모델 선택 가이드. SRE 작업별 비교와 비용 분석.

새벽 3시 장애 호출에서 시작된 자율 SRE의 필요성. 반복적인 토일, 알림 피로, 야간 온콜의 진짜 비용을 해결하는 AI Ops의 개념과 성숙도 모델을 소개합니다.