Лекция: Практика работы SRE I SRE Week I ШАД

Поделиться
HTML-код
  • Опубликовано: 25 авг 2024
  • SRE Week 2024 l Лекция 5: Практика работы SRE. Чем приходится заниматься руками: SLO, capacity planning, алерты, дежурства, incident management, postmortem actions
    Спикер: Руслан Савченко, руководитель службы разработки динамических таблиц YTsaurus.
    На лекции вы узнаете о практике работы SRE: SLO, capacity planning, алерты, дежурства и не только.
    Скачать презентацию по лекции: disk.yandex.ru...
    Дополнительные материалы (статьи), о которых говорится в лекции:
    Ссылки:
    1. J. Petoff et al. Site Reliability Engineering: How Google Runs Production Systems. O'Relly Media Inc. 2016. www.oreilly.co...
    2. B. Beyer et al. The Site Reliability Workbook. O'Relly Media Inc. 2018. www.oreilly.co...
    3. Global Continuous Delivery with Spinnaker. Netflix Technology Blog. 2015. netflixtechblo...
    4. L. Quesada Torres and D. Colish. SRE Best Practices for Capacity Management. login Usenix Mag, 2020. research.googl...
    5. J. Ousterhout. 2018. Always measure one level deeper. Commun. ACM 2018. doi.org/10.114...
    6. Sloth Prometheus SLO generator sloth.dev/
    Другие лекции интенсива SRE Week:
    Лекция 1: Введение. Как ломаются большие системы. Разбираем статистику поломок сервисов: ruclips.net/user/li...
    Лекция 2: Характеристики аппаратного обеспечения: CPU, память, диски и сеть: ruclips.net/user/li...
    Лекция 3: Обзор утилит диагностики в командной строке Linux: ruclips.net/user/li...
    Лекция 4: Распределённые системы и observability. Инфраструктурные компоненты и средства диагностики распределённых систем: ruclips.net/user/li...
    Семинар 6.1: Настройка параметров ядра Linux: ruclips.net/user/li...
    Семинар 6.2: Performance troubleshooting на практике: ruclips.net/user/li...
    Узнать больше о Школе анализа данных можно на сайте: shad.yandex.ru/

Комментарии •