AI가 인프라를 운영한다 - 대규모 AWS 클라우드 인프라의 AI 기반 자동화
대규모 AWS 클라우드 인프라를 운영하면서 마주하는 문제들:
"권고 아키텍처를 참고해줘" → "ALB 정확하게 표현해야지" → "HA 구성이 안 맞아"
어떻게? AI가 초안 작성 → 아키텍트가 보완 → AI가 검증
효과: 문서 작성 시간 단축, 일관성 있는 아키텍처 뷰 공유
Q: "CloudFront 없이 S3 직접 연결이 허용되나요?"
A: "아니요, 권장되지 않습니다. 거버넌스 정책에 따르면..."
어떻게? 컨플루언스 문서 → RAG 시스템 구축 (바이브 코딩) → 실시간 조회
효과: 수백 페이지 문서 검색 불필요, 즉각적인 답변, 자동 검증
문제: 오류가 일시적인지, 예외적인지 매번 수작업 확인
해결: 반복적인 오류 패턴을 AI가 학습 → 이상 패턴 자동 감지 → 개발팀에 분석 지원
효과: 사전 예방, 빠른 대응, 장애 제로 목표
문제: 인프라 예산 수작업 시뮬레이션, 비용 최적화 업무 급증
해결: Prophet ML 모델로 과거 비용 패턴 학습 → 미래 비용 예측
성과: 평균 오차율 5.5% ~ 11.3%
문제: End Of Service 대응 투자비 지속 증가
해결: AI 활용으로 별도 투자 사업 → 일반 운영 업무로 전환
효과: 투자 절감, 운영 효율화
문제: 대규모 이벤트마다 사전/사후 작업, 실시간 모니터링 인력 부담
해결:
목표: 중대형 장애 제로, 시스템 가용률 99.9%+
"이슈 상황 분석과 적절한 대응이 되었는지 확인해줘"
도구: Amazon Q CLI + Datadog MCP
효과: 대형 이벤트 대응력 향상, 빠른 의사결정
비용 예측 평균 오차율
시스템 가용률 목표
중대형 장애 목표
상시 모니터링 자동화
| 영역 | 기술 스택 |
|---|---|
| AI/ML | Prophet (시계열 예측), NLP (자연어 처리), RAG (검색 증강 생성) |
| AWS 서비스 | Amazon Q CLI, CloudWatch, Athena, QuickSight |
| 모니터링 | Datadog MCP, Linked Alarm Message Pair |
| 문서 관리 | Confluence (거버넌스), 바이브 코딩 (RAG 구축) |
| 개발 방식 | AI 협업 (초안 → 보완 → 검증), 추가 투자 없는 AI 활용 |
| 구분 | 임직원 AI | 인프라 AIOps |
|---|---|---|
| 대상 | 본사/점포 직원 1,253명 | 인프라 운영팀 |
| 목적 | 업무 프로세스 자동화 | 인프라 운영 자동화 |
| 도구 | Copilot, AI Agent 11개 | ML 예측, RAG, 모니터링 AI |
| 효과 | 시간 50~100% 절감 | 비용 절감, 가용률 99.9%+ |