8S
8SPACE TECH BLOG
Engineering The Future
Home
Posts
Tags
About
Privacy
RSS
Home
Posts
Tags
About
Privacy
#sre
6개의 글이 있습니다.
llm
2026년 3월 3일
·
4 min read
Part 3. 신뢰성 설계: Retry, Timeout, Fallback, Circuit Breaker
LLM 시스템에서 재시도, 타임아웃, 폴백, 서킷브레이커를 일반 API와 다르게 설계해야 하는 이유와 운영 패턴을 정리한다.
llm
agent
system-design
reliability
sre
resilience
Read article
llm
2026년 3월 3일
·
4 min read
Part 11. 레퍼런스 아키텍처: 엔드투엔드 운영 설계
프롬프트, 평가, 신뢰성, 비용, 보안, 관측성을 하나의 운영 시스템으로 묶는 LLM/Agent 레퍼런스 아키텍처를 제시한다.
llm
agent
system-design
reference-architecture
platform
sre
Read article
2026년 2월 18일
·
2 min read
Canary Release Metric Gate 설계
점진 배포에서 오류율과 지연시간을 자동 판정해 승격/중단을 결정하는 운영 패턴
Canary
Deployment
SRE
DevOps
Read article
2026년 2월 16일
·
2 min read
OpenTelemetry 관측성 베이스라인
로그, 메트릭, 트레이스를 연결해 장애 원인 파악 시간을 줄이는 계측 기준
OpenTelemetry
Observability
SRE
Monitoring
Read article
2026년 2월 15일
·
2 min read
Incident Response Runbook 설계
알람 수신부터 커뮤니케이션, 복구, 사후 분석까지 일관된 대응 흐름 만드는 방법
Incident
SRE
Runbook
Operations
Read article
2026년 2월 14일
·
2 min read
재해복구 RTO/RPO 정의와 연습
백업만으로 끝내지 않고 복구 리허설까지 포함해 DR 신뢰도를 높이는 운영 가이드
Disaster Recovery
Backup
SRE
Operations
Read article