Лекция: Введение. Как ломаются большие системы. Разбор статистики поломок сервисов I SRE Week I ШАД

Поделиться
HTML-код
  • Опубликовано: 8 окт 2024
  • SRE Week 2024 l Лекция 1: Введение. Как ломаются большие системы. Разбираем статистику поломок сервисов
    Спикер: Руслан Савченко, руководитель службы разработки динамических таблиц YTsaurus.
    На лекции вы погрузитесь в технические детали эксплуатации высоконагруженных сервисов и узнаете, как ломаются большие IT-системы.
    Скачать презентацию по лекции: disk.yandex.ru...
    Дополнительные материалы (ссылки на лекции, о которых говорит Руслан):
    1. H.S. Gunawi et al. Why Does the Cloud Stop Computing? Lessons from Hundreds of Service Outages. SoCC '16. doi.org/10.114...
    2. S. Ghosh et al. How to fight production incidents? an empirical study on a large-scale cloud service. SoCC '22. doi.org/10.114...
    3. R.I. Cook. How Complex Systems Fail. how.complexsys...
    4. GitLab team. 2017. Postmortem of database outage of January 31. about.gitlab.c...
    Другие лекции интенсива SRE Week:
    Лекция 2: Характеристики аппаратного обеспечения: CPU, память, диски и сеть: ruclips.net/user/li...
    Лекция 3: Обзор утилит диагностики в командной строке Linux: ruclips.net/user/li...
    Лекция 4: Распределённые системы и observability. Инфраструктурные компоненты и средства диагностики распределённых систем: ruclips.net/user/li...
    Лекция 5: Практика работы SRE. Чем приходится заниматься руками: SLO, capacity planning, алерты, дежурства, incident management, postmortem actions: ruclips.net/user/li...
    Семинар 6.1: Настройка параметров ядра Linux: ruclips.net/user/li...
    Семинар 6.2: Performance troubleshooting на практике: ruclips.net/user/li...
    Узнать больше о Школе анализа данных можно на сайте: shad.yandex.ru/

Комментарии •