Полный Пайплайн (Pipeline) || Машинное Обучение
HTML-код
- Опубликовано: 6 фев 2025
- Войти в IT: Вся Необходимая База. 3 Уровня Объяснения Материала
stepik.org/a/1... Если не можешь напрямую покупать со Stepik, заказывай отсюда:
avecoders.gith... Введение в Искусственный Интеллект с Python для Начинающих: stepik.org/a/1... Введение в Искусственный Интеллект с Python для Начинающих: stepik.org/a/1... Курс: "Поколение Трансформеров": Нейросети для Естественного Языка (NLP)
Вне Свифта (Россия, Беларусь): stepik.org/a/1...
Свифт (Все остальные): avecademy.teac...
Практический Курс по Python:
Stepik: stepik.org/a/1...
Udemy: www.udemy.com/...
Аве Кодер!
Пришло время использовать весь арсенал полученных знаний и построить пайплайн (pipeline) целиком. Мы подгрузим данные, почистим их, разделим на тренировочный, валидационный и тестовый наборы, сохраним их для дальнейшего использования, а затем возьмем модель Случайного Леса (Random Forest) и проведем к-кратную перекрестную валидацию (k-fold cross-validation) на тренировочном наборе, затем используя GridSearchCV мы выберем три набора гиперпараметров показавших лучший результат. Далее, мы испытаем три модели с выбранными гиперпараметрами на валидационном наборе и используя метрики accuracy, precision, recall мы отберем модель с лучшими показателями. И в финале - прогонем ее на тестовом наборе, чтобы получить окончательные результаты.
Код (GoogleCollab): colab.research...
Разведочный анализ данных: • Разведочный Анализ Дан...
Категориальные признаки: • КАТЕГОРИАЛЬНЫЕ ПРИЗНАК...
Метрики и Кросс-Валидация: • Разделение Данных и Ме...
Переобучение, Недообучение: • Необходимая Теория (Ча...
Гиперпараметры, Регуляризация: • Необходимая Теория (Ча...
#авекодер #машинноеобучение #datascience
Telegram: t.me/avecoder_ru
VK: avecoder
Instagram: / avemundi
Поддержи проект:
www.donational...
paypal.me/avecoder
/ avecoder
BTC: 1BmLvUFiJaVpCAwhzW3ZwKzMGWoQRfxsn4
ETH: 0x6f1A488c9b12E782AEF74634a40A79b1631237aB
История Технологий:
/ АвеТех
______________________
Аве Кодер!
Меня зовут V и я магистр Искусственного Интеллекта из Великобритании. Здесь на канале ты найдешь только качественные туториалы, подкасты, советы и все такое прочее, а на соседнем канале Аве Тех, есть еще и истории из мира технологий, путешествия по интересным местам и интервью с специалистами из разных тех областей.
Так что ставь императорский палец вверх, подписывайся и бей в колокол!
Практический Курс по Python:
Stepik: stepik.org/a/126242
Udemy: www.udemy.com/course/avecoder-advanced-python/?referralCode=270C5D0661A966B53743
понятно и очень наглядно, спасибо. и шутейки между строк очень ок))
спасибо! объясняете доступным языком, это помогает лучше понять тему
Наконец-то нормальный видос о пайплайне. 10 из 10
Ты красавец. У тебя стальные нервы. Аве кодер.
спасибо большое за видео
Жаль раньше не смотрел, великолепный видос
Огромное спасибо! понятно, доступно и просто замечательно.
Спасибо ВАМ огромное!!! Я прохожу курс по машинному обучению и у нас такой же датасет Титаник и сделали мы как попало, потом нам дали решение, такие вещи как inplace и все такое - ничего не объясняют. Курсы прохожу онлайн в Германии. Очень нравится эта отрасль и хочу в этом развиваться и работать, но когда курс интенсивный и сто вопросы остаются неотвечаны, то недовольно чувствуешь себя дураком. Спасибо ещё раз, и пожалуйста продолжайте делать видео. Я ещё не добралась до гиперпараметров и их изменений, но хотелось это тоже узнать детально
на буткампах лучше такие вещи изучать а не на мооках. wagon в берлине есть, у них отлично сделан вводный курс data science (я прошел и всё что дядя здесь рассказывает у них разбирается в деталях и на практ работах тебе железно вбивается в голову, методы мл даже даются ~ в 3 раза шире) . и в принципе wagon не дорог (или вообще задарма если без работы оказался, государство заплатит).
Спасибо, Отличный материал!
Круто! Скажите пожалуйста если не секрет, картинки в на аватаре в видео чем создавали? Искусственным интеллектом?
Спасибо, очень доступно
Эх, а я думала тут прям пайплайн собираться будет. С преобразователями и прочими приколюхами
Еще мне странно наблюдать использование format(). Разве использование f-строки не будет более читаемым, когда все нужные переменные в нужном месте, а не после списком перечислены?
Но это так, душню
Для новичков видос самое то, 10 из 10
Длинну и количество можно через shape получить.
Аве Кодер!
Как всегда лайкос! У меня вопрос: почему все-таки на тесте результаты получились ниже - чем на валидации& Ведь по сути, что те , что другие были взяты из сплита, а именно из X_test, y_test
Именно. Это данные, которые наша модель ещё не видела. Возможно, что выборка в валидационном сете была лучше классифицирована, чем в тестовом. Попробуй перезапустить эксперимент с нуля и посмотреть результаты.
Спасибо! а будут видео о выводе моделей в продакшн?
Да, мы постепенно двигаемся в эту сторону - подготовку AI приложений и сервисов.
Помимо RandomForestClassifier() в будущих видео будут рассмотрены другие алгоритмы на примере датасета титаника?
конечно
скажи пожалуйста, почему ты пол закодировал как 0 и 1, а не использовал one hot encoder?
ибо у нас всего два категориальных значения. Зачем фигачить вектор там, где можно обойтись скаляром? Если бы полов было скажем 7, то это оправдывало бы использование, ибо использование порядковых числительных не есть гуд, когда у нас нет категориальной связи между значениями.
@@avecoder а алгоритм может подумать, что 1 лучше чем 0, потому что больше?
если тебе вдруг жутко опостылила возня с фичами ты конечно можешь просто зафигачить ohe на всех catеgorical в columntransformer-е и хай pipe ишачит, ну тут разбор задачи для чайников и им полезно показать как всё ручками прописыватся
в следующий раз когда меня спросят чем я занимаюсь я гордо отвечу
Бинарный секс
12:25
Аве V
А вот зря Name дропнули. Видел статью, где визуализировали корреляцию между выживаемостью и длиной букоф в имени на данном датасете. 1) Сам не проверял =D и 2) Первое, что приходит на ум, скорее всего объясняется большим количеством букоф в женских Неймах, т.е. та же коллинеарность с, извинити, сексом (mrs вместо mr как минимум уже по-дефолту нам даёт +1)
Я тоже видел такую теорию, что мол людям более высокого происхождения давали более длинные имена, но а) это всего лишь теория и даже если есть корреляция, то это скорее побочка (то есть корабль Салтыковых-Щедринов и Маминых-Сибиряков должен быть просто непотопляем) б) иностранные имена могут быть априори длинней в) датасет не учитывает вообще команду, предполагая, что она утонула вся, как и скорость с которой команда оказывала эвакуацию (у меня есть второй канал Аве Тех, где я специально поехал в Саутгемптон, чтоб отыскать некоторые могилы затонувших и сравнить с датасетом, там много сюрпризов. Крч сам датасет настолько кукольный, что не учитывает ещё множество немаловажных факторов и уж имя последний из них.
@@avecoder благодарю за пояснения !
Accuracy вроде как "качество".