DevOpsDay 2018 - Implementing SRE practices: SLI/SLO deep dive

학습일지/클라우드

inspirit941 2024. 9. 2. 18:32

발표자

스크린샷 2024-08-06 오후 4 37 44

Site Reliability Engineering

SRE라는 정의에서 필요한 핵심 키워드

스크린샷 2024-08-06 오후 4 48 25

스크린샷 2024-08-06 오후 5 13 38

진짜 간단하게 요약하면

Figure out your System - What do you want to measure.
- "Reliable" 판단할 수 있는 기준을 정한다. == Service Level Indicator (SLI)
SLI를 설정했다면, 목표 수치를 정한다. == Service Level Objective (SLO)
SLO 기준을 Monitoring System에 적용한다.

이게 되면, 특정 배포가 있을 때마다 Service Level에 어떤 변화가 있는지 확인하고 대응할 수 있다.

스크린샷 2024-08-06 오후 5 20 36

누구라도 이해할 수 있는 Ground Rule 역할.
- internal Developer / Stakeholders / VC 모두에게 동일한 언어와 동일한 의미 전달이 된다.
Focus on Objective Data.
virtuous cycle - 무엇을 어떤 방법으로 개선할 것인지가 명확한 채 개발 사이클 진행이 가능

cf. 이게 조직 성과를 높여주는 지표는 아니다. (not magic)

스크린샷 2024-08-06 오후 5 29 03

핵심 단어는 Reliability. 다만 이 단어는 많은 뜻을 내포하고 있다.

Availability: 서비스 떠 있나? 접근되나?
Latency: 서비스 느림
Throughput: batch processing이나 pipeline에서 중요함
Coverage: How much of the data have I processed
Correctness: Did my System Do the right thing when they process the data?
- 일반적으로 포함되는 뜻은 아니지만, 특정 도메인에서는 매우 중요함
Quality: What's the fidelity of what I've just delivered to you. (얼마나 충실한 품질의 서비스를 제공하는가)
- 예컨대 넷플릭스의 추천 엔진에 문제가 생겼다면, 서비스 내리는 게 아니라 Degraded fashion으로라도 제공하기 마련. '최신 영화' 라던가..
- 이런 형태의 서비스 품질 저하는 user experience에 얼마나 영향을 미칠 것인가? 같은.
Freshness: 실시간성이 중요한 서비스의 경우.
Durability: Database / Storage 시스템의 경우

이 중에서 뭘 고를 생각하면 안 된다. 서비스 사용자 (Customer) 와 관련된 것들을 생각해야 한다.

스크린샷 2024-08-06 오후 6 00 23 스크린샷 2024-08-06 오후 6 12 06

SLI는 Ratio / Proportion으로 정의하는 게 일반적. Metric 수집 방법도 포함하는 게 일반적이다.

스크린샷 2024-08-06 오후 6 12 21

server / client / app / monitoring & infra 등...

스크린샷 2024-08-06 오후 6 14 23

SLO는 이름에서도 알 수 있듯 Objective - 목표. 들어가야 할 세 가지 키워드.

The Thing
- Http Request? Storage Checks? Operation?
SLI proportion
- Successful 50% of the time
- can read the data 99.9% of the time
- return in 10ms 90% of the time
Time statement
- in the last 10 minutes
- during last quarter
- in the previous rolling 30 day period