Полный Пайплайн (Pipeline) || Машинное Обучение

Поделиться
HTML-код
  • Опубликовано: 6 фев 2025
  • Войти в IT: Вся Необходимая База. 3 Уровня Объяснения Материала
    stepik.org/a/1... Если не можешь напрямую покупать со Stepik, заказывай отсюда:
    avecoders.gith... Введение в Искусственный Интеллект с Python для Начинающих: stepik.org/a/1... Введение в Искусственный Интеллект с Python для Начинающих: stepik.org/a/1... Курс: "Поколение Трансформеров": Нейросети для Естественного Языка (NLP)
    Вне Свифта (Россия, Беларусь): stepik.org/a/1...
    Свифт (Все остальные): avecademy.teac...
    Практический Курс по Python:
    Stepik: stepik.org/a/1...
    Udemy: www.udemy.com/...
    Аве Кодер!
    Пришло время использовать весь арсенал полученных знаний и построить пайплайн (pipeline) целиком. Мы подгрузим данные, почистим их, разделим на тренировочный, валидационный и тестовый наборы, сохраним их для дальнейшего использования, а затем возьмем модель Случайного Леса (Random Forest) и проведем к-кратную перекрестную валидацию (k-fold cross-validation) на тренировочном наборе, затем используя GridSearchCV мы выберем три набора гиперпараметров показавших лучший результат. Далее, мы испытаем три модели с выбранными гиперпараметрами на валидационном наборе и используя метрики accuracy, precision, recall мы отберем модель с лучшими показателями. И в финале - прогонем ее на тестовом наборе, чтобы получить окончательные результаты.
    Код (GoogleCollab): colab.research...
    Разведочный анализ данных: • Разведочный Анализ Дан...
    Категориальные признаки: • КАТЕГОРИАЛЬНЫЕ ПРИЗНАК...
    Метрики и Кросс-Валидация: • Разделение Данных и Ме...
    Переобучение, Недообучение: • Необходимая Теория (Ча...
    Гиперпараметры, Регуляризация: • Необходимая Теория (Ча...
    #авекодер #машинноеобучение #datascience
    Telegram: t.me/avecoder_ru
    VK: avecoder
    Instagram: / avemundi
    Поддержи проект:
    www.donational...
    paypal.me/avecoder
    / avecoder
    BTC: 1BmLvUFiJaVpCAwhzW3ZwKzMGWoQRfxsn4
    ETH: 0x6f1A488c9b12E782AEF74634a40A79b1631237aB
    История Технологий:
    / АвеТех
    ______________________
    Аве Кодер!
    Меня зовут V и я магистр Искусственного Интеллекта из Великобритании. Здесь на канале ты найдешь только качественные туториалы, подкасты, советы и все такое прочее, а на соседнем канале Аве Тех, есть еще и истории из мира технологий, путешествия по интересным местам и интервью с специалистами из разных тех областей.
    Так что ставь императорский палец вверх, подписывайся и бей в колокол!

Комментарии • 32

  • @avecoder
    @avecoder  Год назад +1

    Практический Курс по Python:
    Stepik: stepik.org/a/126242
    Udemy: www.udemy.com/course/avecoder-advanced-python/?referralCode=270C5D0661A966B53743

  • @rr1k
    @rr1k Год назад +2

    понятно и очень наглядно, спасибо. и шутейки между строк очень ок))

  • @stroganova_irina
    @stroganova_irina 11 месяцев назад +1

    спасибо! объясняете доступным языком, это помогает лучше понять тему

  • @parvizyuldashev4668
    @parvizyuldashev4668 2 года назад +1

    Наконец-то нормальный видос о пайплайне. 10 из 10

  • @РоманРадинДорожныезаметки

    Ты красавец. У тебя стальные нервы. Аве кодер.

  • @rodionkholodaev4104
    @rodionkholodaev4104 4 месяца назад

    спасибо большое за видео

  • @sergeyly5438
    @sergeyly5438 2 года назад +1

    Жаль раньше не смотрел, великолепный видос

  • @farid5347
    @farid5347 2 года назад +1

    Огромное спасибо! понятно, доступно и просто замечательно.

  • @ambassadornox1919
    @ambassadornox1919 2 года назад +2

    Спасибо ВАМ огромное!!! Я прохожу курс по машинному обучению и у нас такой же датасет Титаник и сделали мы как попало, потом нам дали решение, такие вещи как inplace и все такое - ничего не объясняют. Курсы прохожу онлайн в Германии. Очень нравится эта отрасль и хочу в этом развиваться и работать, но когда курс интенсивный и сто вопросы остаются неотвечаны, то недовольно чувствуешь себя дураком. Спасибо ещё раз, и пожалуйста продолжайте делать видео. Я ещё не добралась до гиперпараметров и их изменений, но хотелось это тоже узнать детально

    • @andreika6681
      @andreika6681 2 года назад

      на буткампах лучше такие вещи изучать а не на мооках. wagon в берлине есть, у них отлично сделан вводный курс data science (я прошел и всё что дядя здесь рассказывает у них разбирается в деталях и на практ работах тебе железно вбивается в голову, методы мл даже даются ~ в 3 раза шире) . и в принципе wagon не дорог (или вообще задарма если без работы оказался, государство заплатит).

  • @zoompartyru
    @zoompartyru 2 года назад +1

    Спасибо, Отличный материал!

  • @muskat9012
    @muskat9012 Год назад +1

    Круто! Скажите пожалуйста если не секрет, картинки в на аватаре в видео чем создавали? Искусственным интеллектом?

  • @ivan_inanych
    @ivan_inanych 2 года назад +1

    Спасибо, очень доступно

  • @АлёнаСавельева-ы7ю

    Эх, а я думала тут прям пайплайн собираться будет. С преобразователями и прочими приколюхами
    Еще мне странно наблюдать использование format(). Разве использование f-строки не будет более читаемым, когда все нужные переменные в нужном месте, а не после списком перечислены?
    Но это так, душню
    Для новичков видос самое то, 10 из 10

  • @los_pollos_hermanos27
    @los_pollos_hermanos27 5 месяцев назад

    Длинну и количество можно через shape получить.

  • @Химыч
    @Химыч 2 года назад +1

    Аве Кодер!

  • @osvab000
    @osvab000 2 года назад

    Как всегда лайкос! У меня вопрос: почему все-таки на тесте результаты получились ниже - чем на валидации& Ведь по сути, что те , что другие были взяты из сплита, а именно из X_test, y_test

    • @avecoder
      @avecoder  2 года назад

      Именно. Это данные, которые наша модель ещё не видела. Возможно, что выборка в валидационном сете была лучше классифицирована, чем в тестовом. Попробуй перезапустить эксперимент с нуля и посмотреть результаты.

  • @ДмитрийКоролев-ч8ь
    @ДмитрийКоролев-ч8ь 2 года назад +1

    Спасибо! а будут видео о выводе моделей в продакшн?

    • @avecoder
      @avecoder  2 года назад

      Да, мы постепенно двигаемся в эту сторону - подготовку AI приложений и сервисов.

  • @farid5347
    @farid5347 2 года назад

    Помимо RandomForestClassifier() в будущих видео будут рассмотрены другие алгоритмы на примере датасета титаника?

    • @avecoder
      @avecoder  2 года назад +1

      конечно

  • @alexanderez6115
    @alexanderez6115 2 года назад

    скажи пожалуйста, почему ты пол закодировал как 0 и 1, а не использовал one hot encoder?

    • @avecoder
      @avecoder  2 года назад

      ибо у нас всего два категориальных значения. Зачем фигачить вектор там, где можно обойтись скаляром? Если бы полов было скажем 7, то это оправдывало бы использование, ибо использование порядковых числительных не есть гуд, когда у нас нет категориальной связи между значениями.

    • @alexanderez6115
      @alexanderez6115 2 года назад

      @@avecoder а алгоритм может подумать, что 1 лучше чем 0, потому что больше?

    • @andreika6681
      @andreika6681 2 года назад

      если тебе вдруг жутко опостылила возня с фичами ты конечно можешь просто зафигачить ohe на всех catеgorical в columntransformer-е и хай pipe ишачит, ну тут разбор задачи для чайников и им полезно показать как всё ручками прописыватся

  • @naradamyan1678
    @naradamyan1678 2 года назад +2

    в следующий раз когда меня спросят чем я занимаюсь я гордо отвечу
    Бинарный секс
    12:25

  • @ghebodne2644
    @ghebodne2644 2 года назад +1

    Аве V

  • @vladimirmanikhin7918
    @vladimirmanikhin7918 2 года назад

    А вот зря Name дропнули. Видел статью, где визуализировали корреляцию между выживаемостью и длиной букоф в имени на данном датасете. 1) Сам не проверял =D и 2) Первое, что приходит на ум, скорее всего объясняется большим количеством букоф в женских Неймах, т.е. та же коллинеарность с, извинити, сексом (mrs вместо mr как минимум уже по-дефолту нам даёт +1)

    • @avecoder
      @avecoder  2 года назад +3

      Я тоже видел такую теорию, что мол людям более высокого происхождения давали более длинные имена, но а) это всего лишь теория и даже если есть корреляция, то это скорее побочка (то есть корабль Салтыковых-Щедринов и Маминых-Сибиряков должен быть просто непотопляем) б) иностранные имена могут быть априори длинней в) датасет не учитывает вообще команду, предполагая, что она утонула вся, как и скорость с которой команда оказывала эвакуацию (у меня есть второй канал Аве Тех, где я специально поехал в Саутгемптон, чтоб отыскать некоторые могилы затонувших и сравнить с датасетом, там много сюрпризов. Крч сам датасет настолько кукольный, что не учитывает ещё множество немаловажных факторов и уж имя последний из них.

    • @vladimirmanikhin7918
      @vladimirmanikhin7918 2 года назад

      @@avecoder благодарю за пояснения !

  • @mpakoc4722
    @mpakoc4722 2 года назад

    Accuracy вроде как "качество".