공부하고 기록하는, 경제학과 출신 개발자의 노트


DevOpsDay 2018 - Implementing SRE practices: SLI/SLO deep dive

https://youtu.be/dplGoewF4DA?si=C8n-a4KMDFDa8QVh 발표자David Blank Edelman: Microsoft CloudOps Advocate - SRESite Reliability Engineering Site Reliability Engineering조직에서 운영하는 프로덕트, 비즈니스, 시스템이적절한 수준의 안정성을지속적으로 유지할 수 있도록 하는 Engineering Discipline.SRE라는 정의에서 필요한 핵심 키워드reliability: 암만 열심히 앱 만들어도, 앱이 떠 있지 않으면 쓸모가 없다. 안정적으로 앱이 떠서 서비스 유지될 수 있도록 하는 것.Appropriate: goal로 100% 설정하는 건 불가능하다. '적절한 수준'Sustainab..

SpringOne Platform 2018 - Six Simple Steps to Service Level Objectives (SLO)

https://youtu.be/953xaxqApGY?si=oyvcImAGN5UtXhrO 발표자: Marie Cosgrove-DavisGoogle Cloud PM. work on Stackdriver suite;encompassing logging, monitoring, application performance monitoring tools, incident response management tools  해결해야 할 문제System이 제대로 동작하고 있는지.의도한 기능을 사용자에게 제대로 제공하고 있는지. SLI: "Metric" whether a user is having success with a specific workflow they're trying to do with your product...

if kakao 2021 - k8s Cluster 확장, 어디까지 알아보고 오셨어요?

https://if.kakao.com/session/119 if(kakao)2021함께 나아가는 더 나은 세상if.kakao.com Multi-IDC 구축하면서 SLA 확보하기 위한 시도들.  카카오페이는 현재 800여 개 이상의 microservice를 k8s에서 운영중.장애가 날 만한 상황은 예방하기 + 안정적으로 운영 가능한 아키텍처 구축이 필요함.  k8s 운영 시 발생할 수 있는 위험요소들을 정리한 영역k8s cpu 관련 이슈 : limit / 쓰로틀링리눅스 커널 업데이트, pod 개수와 성능 보장 등istio 관련 이슈 - 카카오페이는 service mesh로 istio 쓰는가 보다프로토콜 선택 관련 이슈citadel 인증서 기한 만료envoy의 hot restart fail 이슈hot res..