← 메인으로 돌아가기

🔧 인프라 AIOps

AI가 인프라를 운영한다 - 대규모 AWS 클라우드 인프라의 AI 기반 자동화

💡 왜 인프라에 AI가 필요한가?

인프라 운영의 현실

대규모 AWS 클라우드 인프라를 운영하면서 마주하는 문제들:

  • 📄 아키텍처 문서 작성: 현행화할 때마다 몇 시간씩 소요
  • 📚 거버넌스 정책: 수백 페이지 문서에서 필요한 정보 찾기
  • 💰 비용 예측: 수작업 시뮬레이션으로 예산 수립
  • 🚨 장애 대응: 오류 패턴 분석에 시간 소요
  • 📈 대형 이벤트: 24/7 모니터링 인력 부담
🎯 해결책: AIOps (AI + Operations)
AI를 활용해 인프라 운영을 자동화하고, 비용을 절감하며, 운영 품질을 혁신한다

🚀 7가지 인프라 혁신

1. AI와 함께 그리는 아키텍처

"권고 아키텍처를 참고해줘" → "ALB 정확하게 표현해야지" → "HA 구성이 안 맞아"

어떻게? AI가 초안 작성 → 아키텍트가 보완 → AI가 검증

효과: 문서 작성 시간 단축, 일관성 있는 아키텍처 뷰 공유

2. 거버넌스를 AI에게 물어보기

Q: "CloudFront 없이 S3 직접 연결이 허용되나요?"
A: "아니요, 권장되지 않습니다. 거버넌스 정책에 따르면..."

어떻게? 컨플루언스 문서 → RAG 시스템 구축 (바이브 코딩) → 실시간 조회

효과: 수백 페이지 문서 검색 불필요, 즉각적인 답변, 자동 검증

3. 오류 패턴을 AI가 학습한다

문제: 오류가 일시적인지, 예외적인지 매번 수작업 확인

해결: 반복적인 오류 패턴을 AI가 학습 → 이상 패턴 자동 감지 → 개발팀에 분석 지원

효과: 사전 예방, 빠른 대응, 장애 제로 목표

4. ML로 비용을 예측한다

문제: 인프라 예산 수작업 시뮬레이션, 비용 최적화 업무 급증

해결: Prophet ML 모델로 과거 비용 패턴 학습 → 미래 비용 예측

성과: 평균 오차율 5.5% ~ 11.3%

5. EOS 대응을 AI로 전환

문제: End Of Service 대응 투자비 지속 증가

해결: AI 활용으로 별도 투자 사업 → 일반 운영 업무로 전환

효과: 투자 절감, 운영 효율화

6. 24/7 모니터링을 AI가 담당

문제: 대규모 이벤트마다 사전/사후 작업, 실시간 모니터링 인력 부담

해결:

  • 상시 모니터링 자동화
  • 트래픽 급증 시 탄력적 확장 자동화
  • Linked Alarm Message Pair (발생 → 복구 투명한 소통)

목표: 중대형 장애 제로, 시스템 가용률 99.9%+

7. 긴급 상황을 AI가 분석

"이슈 상황 분석과 적절한 대응이 되었는지 확인해줘"

도구: Amazon Q CLI + Datadog MCP

효과: 대형 이벤트 대응력 향상, 빠른 의사결정

📊 핵심 성과

5.5~11.3%

비용 예측 평균 오차율

99.9%+

시스템 가용률 목표

0건

중대형 장애 목표

24/7

상시 모니터링 자동화

🛠️ 사용 기술

영역 기술 스택
AI/ML Prophet (시계열 예측), NLP (자연어 처리), RAG (검색 증강 생성)
AWS 서비스 Amazon Q CLI, CloudWatch, Athena, QuickSight
모니터링 Datadog MCP, Linked Alarm Message Pair
문서 관리 Confluence (거버넌스), 바이브 코딩 (RAG 구축)
개발 방식 AI 협업 (초안 → 보완 → 검증), 추가 투자 없는 AI 활용

🔗 임직원 AI 활용과의 시너지

두 가지 AI 전략

구분 임직원 AI 인프라 AIOps
대상 본사/점포 직원 1,253명 인프라 운영팀
목적 업무 프로세스 자동화 인프라 운영 자동화
도구 Copilot, AI Agent 11개 ML 예측, RAG, 모니터링 AI
효과 시간 50~100% 절감 비용 절감, 가용률 99.9%+
🎯 통합 효과: 전사 AI 역량 강화 - 업무부터 인프라까지 AI 기반 운영 체계 구축

🚀 다음 단계

지속적인 혁신

  • 완료: 7가지 AIOps 적용, 비용 예측 ML 검증
  • 🔄 진행 중: 거버넌스 RAG 시스템 고도화, 모니터링 자동화 확대
  • 📋 계획: AI 기반 자율 운영 인프라 구현, 전사 AI 통합 운영 체계
💡 핵심 교훈: "추가 인력이나 투자 없이도 AI를 활용하면 인프라 운영을 혁신할 수 있다"
인프라 AIOps