#sre

6개의 글이 있습니다.

llm
4 min read
LLM 시스템에서 재시도, 타임아웃, 폴백, 서킷브레이커를 일반 API와 다르게 설계해야 하는 이유와 운영 패턴을 정리한다.
llm
4 min read
프롬프트, 평가, 신뢰성, 비용, 보안, 관측성을 하나의 운영 시스템으로 묶는 LLM/Agent 레퍼런스 아키텍처를 제시한다.
Canary Release Metric Gate 설계 cover image
2 min read
점진 배포에서 오류율과 지연시간을 자동 판정해 승격/중단을 결정하는 운영 패턴
OpenTelemetry 관측성 베이스라인 cover image
2 min read
로그, 메트릭, 트레이스를 연결해 장애 원인 파악 시간을 줄이는 계측 기준
Incident Response Runbook 설계 cover image
2 min read
알람 수신부터 커뮤니케이션, 복구, 사후 분석까지 일관된 대응 흐름 만드는 방법
재해복구 RTO/RPO 정의와 연습 cover image
2 min read
백업만으로 끝내지 않고 복구 리허설까지 포함해 DR 신뢰도를 높이는 운영 가이드