DATALEARN | DE - 101 | МОДУЛЬ 2-4: Модели Данных

Поделиться
HTML-код
  • Опубликовано: 8 июн 2020
  • Все что вы хотели знать про модели данных.
    📌 Что такое модель данных
    📌 Типы моделей данных
    📌 Что такое витрина данных
    📌 Что такое витрина данных
    📌 DW vs OLTP
    📌 Последовательность дизайна DW
    📌 Когда использовать модели данных
    Во 2-ом модуле нашего курса вы узнаете про Базы Данных и их применении для аналитики. Так же мы познакомимся с языком SQL и потренируемся использовать БД и SQL.
    Дмитрий обязательно расскажет про реальный кейсы использования БД и SQL из своего опыта.
    🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части
    📕 Записывайтесь и проходите курс Инженера Данных.
    ⚠️ КУРС БЕСПЛАТНЫЙ!
    🔗 Записаться вы можете на нашем портале datalearn.ru/
    👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания, отдавать их на проверку и получить сертификат прохождения курса.
    Telegram канал: t.me/rockyourdata
    Спонсировать: / dmitryanoshin или paypal.me/dmitryanoshin

Комментарии • 41

  • @mikhailkuznetsov4643
    @mikhailkuznetsov4643 4 года назад +23

    Огромное спасибо за ваш труд, очень немного качественных материалов по DE на русском

  • @antonkuzmtskiy4085
    @antonkuzmtskiy4085 Год назад +1

    Мне как начинающему DE очень полезен каждый урок в каждом модуле. Спасибо за такую возможность, с удовольствием расширяю свои познания. Кстати DBDesigher - то же удобный инструмент для создания модели

  • @smbsmn324
    @smbsmn324 6 месяцев назад

    Пару лет назад с данными для лаб к этому модулю емнип с ЕТЛ тренировался, а сейчас пригождается при изучении dbt - сразу код с гитхаба можно в модели оборачивать. Спасибо в очередной раз Дмитрий.

  • @dmitriydmitriy4538
    @dmitriydmitriy4538 Год назад

    Супер формат! Спасибо!

  • @ManticoreRoko
    @ManticoreRoko Год назад

    Супер полезный материал. Благодарю за проделанный труд, он офигенный!

  • @user-jy9eo8en8x
    @user-jy9eo8en8x 2 месяца назад

    Спасибо!!!

  • @user-xl1zq2ic5f
    @user-xl1zq2ic5f 4 года назад +2

    очень круто

  • @anton108
    @anton108 2 года назад +1

    Когда учился в универе, мы и преподы называли ERwin(Эрвин) ирвином (с ударением на второй слог)

  • @stormd2902
    @stormd2902 Год назад

    лайк и коммент для поддержки канала

  • @lagutinskiy
    @lagutinskiy 4 года назад +5

    Дмитрий, я так пару лет назад на собеседовании в один немецкий стартап сказал, что не загоняйтесь по моделированию и денормализации, а переезжайте с MS SQL на поколоночную mpp типа Vertica, потому что для аналитики быстрее, а экономить место на дисках в современных реалиях дороже за счет зарплаты инженеров. Диски дешевле обходятся. Мне отказали с формулировкой, что мои технические скилы вызывают у них вопросы ))) За ролик спасибо!

    • @datalearn4398
      @datalearn4398  4 года назад +2

      В Амазоне так же - по теории гоняют, а на практике все наоборот. Сидят матерые инженеры, и надо что-то спросить, поэтому все спрашивают про модели данных (вроде как по теме), а вот нужны они или нет, совсем другой вопрос.

    • @nikitabbrv5947
      @nikitabbrv5947 4 года назад +1

      @@datalearn4398 то есть вот эти вот все шутки про hr-ов, которые по ключевым словам скринят и книги cracking interview - не просто так)) прошел собеседования а дальше по ходу разберешься?)

    • @anton108
      @anton108 2 года назад +3

      ​@@nikitabbrv5947 прошел собеседование на алгоритмы, а дальше формочки двигаешь - классика

    • @ivani3237
      @ivani3237 Год назад

      мда-а-а

  • @user-li2ke3zp9x
    @user-li2ke3zp9x 2 года назад

    лайки заслуживает))

  • @user-yq1lz7fi7o
    @user-yq1lz7fi7o 3 года назад +2

    Дмитрий, было бы очень круто, если бы Вы выкладывали слайды под видео. Некоторые картинки трудновато прочитать в видео. Спасибо за уроки!

    • @datalearn4398
      @datalearn4398  3 года назад +2

      Потом и слайды добавим.

  • @alisherrakhimov1997
    @alisherrakhimov1997 2 года назад +1

    На 1080p все выглядело бы намного лучше(, а то ничего не видно.
    P.S. Спасибо за труд)

  • @alexandram1460
    @alexandram1460 4 года назад +1

    есть технические (машинные) уники, а есть в людях. смотря какая система (соот-но метод) подсчета используется

  • @moveablefeast1990
    @moveablefeast1990 2 года назад

    Извините, поправлю: обеспечение уникальности записей в таблицах - это 1 нормальная форма) Отрезок про последовательность дизайна DW очень понравился, материал подан супердоступным языком без лишних усложнений

    • @nikitahffthvdestggfdry
      @nikitahffthvdestggfdry 6 месяцев назад

      Уникальность это 0 НФ. А именно обеспечение реляционной модели.

  • @g3orlov
    @g3orlov 4 года назад +3

    Erwin Data MAD

  • @telephoneaccount7882
    @telephoneaccount7882 Год назад

    на 7:50 вроде как оговорка: "В чем разница между 3NF и Inmon?"... Это же одно и тоже?

  • @alexandram1460
    @alexandram1460 4 года назад +1

    кто знает разницу между big data и data lake? гугл ценных сведений не дал

    • @datalearn4398
      @datalearn4398  4 года назад +2

      Big data это класс решений, обычно связанный с Hadoop, spark. То есть не хранилище данных. Решения для вычислений и процессинга данных. А Data Lake это способ хранения и организации данных в файлах и удобный доступ к данным, часто черезь SQL. я писал подробно тут m.habr.com/ru/post/485180/

  • @nikitasimonenko8949
    @nikitasimonenko8949 4 года назад +2

    Дмитрий, вы сказали, что разнесение данных на разные таблицы (нормализация) позволяет быстрее выполнять запросы, но ведь дело обстоит совсем наоборот. Чем больше таблиц, тем более джойнов приходится делать, что затрачивает много ресурсов.
    Цитата из википедии: Денормализация (англ. denormalization) - намеренное приведение структуры базы данных в состояние, не соответствующее критериям нормализации, обычно проводимое с целью ускорения операций чтения из базы за счет добавления избыточных данных.
    Как раз таки избыточность данных (одна большая табличка) позволяет ускорить выполнение запросов, а не разнесение на разные таблицы.
    Или я не так вас понял? Поясните, пожалуйста.

    • @datalearn4398
      @datalearn4398  4 года назад

      Спасибо за комментарий. Это действительно, больше join, сложней запрос. Я не правильно выразил свои мысли. Для меня часто процесс моделирования данных в хранилище не самое главное, исторически заморачивались с моделями данных для оптимизации скорости, это быстрей чем все данные в одной таблице.

    • @nikitasimonenko8949
      @nikitasimonenko8949 4 года назад

      @@datalearn4398 "исторически заморачивались с моделями данных для оптимизации скорости, это быстрей чем все данные в одной таблице"
      Мне всегда казалось, что с моделями данных заморачивались для того, чтобы исключить избыточное дублирование данных, которое является причиной возникающих аномалий. А запихать все в одну таблицу и сделать простой селект в BI - это как раз быстро и без заморочек)
      Возможно я не прав, но хочу все же разобраться.

    • @nikitasimonenko8949
      @nikitasimonenko8949 4 года назад +1

      Вот такой вот кусок из статьи нашел по этой теме:
      "За денормализацию нужно платить. В денормализованной базе данных повышается избыточность данных, что может повысить производительность, но потребует больше усилий для контроля за связанными данными. Усложнится процесс создания приложений, поскольку данные будут повторяться и их труднее будет отслеживать. Кроме того, осуществление ссылочной целостности оказывается не простым делом - связанные данные оказываются разделенными по разным таблицам.
      К преимуществам относится более высокая производительность при выполнении запроса и возможность получить при этом более быстрый ответ. Кроме того, можно получить и другие преимущества, в том числе увеличение пропускной способности, уровня удовлетворенности клиентов и производительности, а также более эффективное использование инструментария внешних разработчиков".
      Если интересно, ссылка на хабр: habr.com/ru/post/64524/

    • @datalearn4398
      @datalearn4398  4 года назад

      Я бы сам хотел, но для этого надо реальный проект с практикой. А получается все надо быстро делать.

    • @nikitasimonenko8949
      @nikitasimonenko8949 4 года назад +1

      В любом случае спасибо за контент, пока что это лучшее из того что я видел по этой теме

  • @aleevsergey
    @aleevsergey 2 года назад

    Большое спасибо за это видео! А почему вы говорите что обычно не используете foreign key?

    • @datalearn4398
      @datalearn4398  2 года назад

      Я имел ввиду, что не парюсь про PK/FK в аналитических БД (как в модуле 6 будут), и так сойдет)

  • @vugpgu
    @vugpgu Год назад

    Претензія до комуністичного Ютубу через скриття дизлайків. Матеріал неякісний, але не можливо побачити відношення лайків і дизлайків

    • @Fox1ne1
      @Fox1ne1 5 месяцев назад

      Он в Амазоне работает дата инженером, просто человек перед камерами переживает

  • @vugpgu
    @vugpgu Год назад

    Ведучий тупо гуманітарій без жодних технічних навиків

  • @ValkateResearches
    @ValkateResearches Год назад

    Сгенерировал код sql но пишет что там ошибка
    Кто может помочь ?
    CREATE TABLE "sales_fact"
    (
    "row_id" NOT NULL,
    "order_id" NOT NULL,
    "sales_amount" NOT NULL,
    "profit" NOT NULL,
    "date" date NOT NULL,
    CONSTRAINT "PK_sales_fact" PRIMARY KEY ( "row_id" ),
    CONSTRAINT "FK_1" FOREIGN KEY ( "date" ) REFERENCES Calendar ( "date" )
    );
    CREATE INDEX "FK_2" ON "sales_fact
    (
    "date"
    );

    • @Cimarosti187
      @Cimarosti187 Год назад

      CREATE INDEX "FK_2" ON "sales_fact - может тут скобка пропущена?

    • @ruslandubchak6415
      @ruslandubchak6415 Год назад

      @@Cimarosti187
      sales _fact полностью в кавычки,. Одна отсутствует