Multi-Cloud 비용 분석 리포트

2025년 5월 | KB국민은행

MegazoneCloud 로고

Executive Summary : 5월 전체 비용 현황

Total CSP 비용

$1,506,035

5% 증가 (+$73K)

AWS

$894,103

0.02% 감소 (-$216)

GCP

$143,601

28.8% 증가 (+$31.1K)

Azure

$468,331

9% 증가 (+$37.6K)

AWS 비용/사용량 리뷰

전체 비용 추이

4월 대비 0.02% (-$216) 감소하였으며, 영업일 차이(1일) 고려 시 실질 3.2% 감소 효과 (1일 평균 비용 -$968)

비용 증가 Top 3 Services

  • Amazon RDS +$4,040
  • AWS DataTransfer +$3,028
  • Elastic MapReduce +$2,163

비용 감소 Top 3 Services

  • Amazon CloudWatch -$4,411

    5/14 이후 GetMetricStatistics 감소 (3월 미팅 논의 결과 반영 확인)

  • Amazon ElastiCache -$3,018

    4/19 마이데이터 BFD 운영 자원 Down-sizing 영향

  • Amazon SageMaker -$2,306

    5/2 그룹 마이데이터 Canvas Workspace Instance 삭제 영향

RI / SP 현황

구분사용률충당률 (Coverage)미사용 금액 (4월 대비)
Compute SP98.2% (+0.5%)86.7% (+1.8%)$3,670 (-$750)
ML SP84.7% (+1.7%)50% (+9%)$113 (-$9)
RDS RI99.97% (-0.03%)74% (+0.7%)-

5/31 갱신된 Compute SP는 6/8 기준 사용률 100%를 달성하여 효율적으로 운영되고 있습니다.

분석: DataTransfer 비용 증가 (+11.7%) 원인

AWS 정책 변경: 5월 1일부터 NLB Cross-AZ(Inter-Zone) 트래픽 비용 부과 시작

기존에 내부 이슈로 과금되지 않던 NLB의 가용 영역(AZ) 간 데이터 전송에 대해 5/1부터 정상 과금($0.01/GB)이 시작되었습니다. 이는 클라이언트와 NLB, 또는 NLB와 대상(Target)이 서로 다른 AZ에 위치할 때 양방향 트래픽에 모두 적용됩니다. 관련 AWS 블로그

주요 발생 비용 (LoadBalancing-InterZone-In: $2,241)

  • [그룹공동]KB FCC 콜인프라 운영: $1,151.70
  • 랜딩존-Network: $384.18
  • KB부동산 데이터허브 운영: $198.29

주요 발생 비용 (LoadBalancing-InterZone-Out: $1,255)

  • [그룹공동]KB FCC 콜인프라 운영: $928.47
  • 마이데이터 CCN 운영: $87.98
  • 랜딩존-Network: $62.09

분석: EMR 비용 증가 (+19%) 원인 및 최적화 방안

그룹 마이데이터 통합 분석 플랫폼의 EMR Serverless 사용량 증가(+$2,377)가 주요 원인입니다. 아래 방안을 통해 최적화가 가능합니다.

적절한 용량 설정

  • 워크로드에 맞는 vCPU/메모리 크기 최적화
  • 애플리케이션의 최소/최대 용량 정밀 조정
  • 초기 용량 설정으로 콜드 스타트 시간 감소

자동 중지 기능 활용

  • 기본 15분인 자동 중지 시간을 워크로드 패턴에 맞게 조정
  • 작업 간격이 짧은 경우 중지 시간을 늘려 반복 초기화 비용 절감

작업 최적화

  • 효율적인 데이터 처리를 위한 파티셔닝 전략 사용
  • 입출력 데이터 압축으로 스토리지 및 네트워크 비용 절감
  • 작은 작업들을 병합하여 리소스 활용도 향상

스토리지 최적화

  • S3 수명 주기 정책으로 임시 데이터 자동 삭제
  • Parquet, ORC 등 컬럼 기반 데이터 포맷 사용
  • CloudWatch 지표 및 Spark UI를 통한 지속적 모니터링

긍정적 성과: Glue + EMR 비용 추이

마이데이터 플랫폼의 Glue+EMR 월 비용 합계는 1월 대비 3~5월 평균 38% 감소했습니다. (1일 평균 $693 → $426)

AWS 최신 동향 및 비용 최적화 Tips

Amazon Q Developer CLI 비용 최적화 지원

자연어 대화로 개인화된 비용 절감 제안을 제공합니다. "AWS 요금 낮추는 법 알려줘?"와 같은 질문으로 인스턴스 사이즈 조정, SP/RI 구매, 유휴 리소스 종료 기회를 찾을 수 있습니다.

자세히 보기

Compute Optimizer, Aurora I/O 최적화 지원

Aurora Standard와 I/O-Optimized 구성 간 전환 권장 사항을 제공합니다. I/O 사용량이 많은 워크로드의 경우, I/O 비용 없이 시간당 요금만 내는 I/O-Optimized로 전환하여 비용 예측성을 높이고 절감할 수 있습니다.

자세히 보기

Trusted Advisor 비용 절감 기능 개선

Cost Optimization Hub와 Compute Optimizer를 연동하여 더 구체적이고 맞춤화된 비용 최적화 권장 사항을 제공합니다. EC2, RDS, Lambda 등 다양한 서비스에 걸쳐 정확한 예상 절감액을 확인할 수 있습니다.

자세히 보기

GCP 비용/사용량 리뷰

전체 비용 추이

4월 대비 28.8% (+$31,111) 증가했습니다.

비용 증가 Top 3 Services

  • Compute Engine: +$24,654
  • Cloud Firestore: +$2,889
  • Cloud Logging: +$1,283

비용 증가 Top 3 Projects

  • cm-hea-genai-stg: +$23,023
  • cm-hea-genai-dev: +$9,286
  • kbdam-prd: +$1,287

Compute Engine (+32%)

5/8~22 기간 Nvidia A100 GPU 인스턴스 사용량 증가가 주요 원인입니다. (5/23 이후 4월 수준으로 안정화)

최적화 방안

  • A100 GPU는 SUD(지속사용할인) 적용이 불가하므로, CUD(약정사용할인) 구매를 통한 비용 절감을 권장합니다.
  • 배치 작업의 경우, 저렴한 Spot VM 사용을 고려해볼 수 있습니다.

Cloud Firestore (+727%)

4/24 이후 GenAI 관련 계정에서 벡터 저장, LangChain 연동 등 신규 사용량이 급증했습니다.

최적화 방안

Firestore는 읽기/쓰기 횟수가 비용에 직결되므로, 쿼리 최적화, 데이터 모델링 재검토, 캐싱 전략 도입이 필요합니다.

Cloud Logging (+129%)

5/3 이후 `cm-hea-genai-prd` 계정의 Log Storage 사용량이 증가했습니다.

최적화 방안

  • 로그 라우터에서 불필요한 로그를 제외하여 즉각적인 수집 비용을 절감합니다.
  • 로그 버킷을 분리하고 보관 기간을 차등 설정하여 장기적인 스토리지 비용을 관리합니다.

Azure 비용/사용량 리뷰

전체 비용 추이

4월 대비 8.7% (+$37.6K) 증가했습니다.

비용 증가 Top 3 Services

  • Virtual Machines: +$27,910
  • Cognitive Services: +$25,999
  • Azure Monitor: +$5,595

비용 증가 Top 3 계정

  • cm-hea-genai-llm: +$26,010
  • cm-hea-genai-prd: +$11,056
  • cm-hea-genai-stg: +$10,247

비용 감소 Top 3 Services

  • Storage: -$14,402
  • Event Hubs: -$5,205
  • PostgreSQL: -$3,071

Virtual Machines (+10.3%)

GenAI 관련 계정들의 Nvidia A100 GPU 및 범용 인스턴스 사용량 증가가 원인입니다. 5월 초 정점을 찍은 후 사용량은 안정적으로 유지되고 있습니다.

Azure Monitor (+119.9%)

Platform Logs 및 Basic Logs 사용량 증가가 주요 원인입니다. 특히 상세 로깅(Verbose, Debug)이 비용을 급증시킬 수 있습니다.

최적화 방안

비운영 환경에서는 로깅 수준을 'Warning', 'Error'로 조정하고, NSG 흐름 로그나 WAF 로그 수집 범위를 재검토하여 데이터 양을 줄이는 것을 권장합니다.

Virtual Network (+59%)

GenAI 관련 계정의 Private Link 사용량이 4/28 이후 다시 증가했습니다.

최적화 방안

Azure Monitor Metrics에서 Bytes In/Out 지표를 활용하여 장기간 데이터 처리량이 없는 유휴 Private Link 엔드포인트를 식별하고 정리하는 작업이 필요합니다.

기타 서비스 비용 증가

  • API Management (+592%)

    `cm-hea-genai-prd` 계정의 처리용량(Capacity) 증가가 원인입니다. 자동 크기 조정, 캐싱, 정책 최적화로 비용 효율화가 가능합니다.

  • App Service (+213%)

    `cm-hea-genai-dev` 계정의 신규 자원 생성(P3v3) 영향입니다. Azure Advisor의 Right-Sizing 권장 사항을 검토하고, 장기 사용 시 RI/SP 구매를 고려해야 합니다.