Очень уж он дефолтный получился. Превзойти результаты параметров по умолчанию крайне сложно на вменяемых данных. С одной стороны это хорошо. С другой получается, что катбустом затестил датасет, оценил приблизительно и пошел дальше учить другие модельки. Впрочем и XGB не далеко ушел. Может так и задумывалось разрабами конкретной реализации, а может сам бустинг "устойчив" к подбору гиперпараметров )
У меня такое ощущение, что катбуст в Яндексе написали "шоб було" или по юридическим причинам. Честно говоря, преимущества пред хгбуст и лайтгбм не очевидны.
Почему, в сравнении же выигрывает. API CatBoost намного приятнее того же XGBoost. Еще плюсом является, что не надо отдельно обрабатывать категориальные фичи, он сам обработает. Очень удобно, что выводит график в реальном времени
CatBoost лучше некоторых. Уступает в точности Random Forest - сам проверил на сложных датасетах. Да и то, что с шумами и выбросами не борется делает его заурядным алгоритмом. Есть куда более перспективные направления в ML.
Классный туториал, спасибо. Печально, что я пришел сюда только в 2024.
Почему печально ?
30:18 Cross-validation
1:06:03 tunning
Отличная лекция, много полезной информации. Ждем многопоточные вычисления на cpu. Хорошо бы еще добавить примеров на официальном сайте.
Для тех, кто хочет поиграться с параметрами -мотайте на 1:06:00
а по какой ссылке ноутбуки лежат?
43:20 roc-curve
34:16 Почему нет AUC для train?
А нет, тут есть. Но у меня почему-то не показывает
На XGBoost я получаю ROC AUC = 0.87
На CatBoost ROC AUC = 0.74.
В чем же причина
А есть подобное видео для задачи регрессии?
таймкод для себя 54:32
Почему он всё время чавкает ?
оче приятно
спасибо! очень полезно
Мы получили число-границу принятия решений при помощи Trashhold. Как ее передать в модель?
Как вариант - после predict_proba руками сделать итоговые предсказания
Где ноутбук взять? В репозитории CatBost не правильный лежит
github.com/catboost/catboost/blob/master/catboost/tutorials/events/pydata_moscow_oct_13_2018.ipynb
Очень уж он дефолтный получился. Превзойти результаты параметров по умолчанию крайне сложно на вменяемых данных. С одной стороны это хорошо. С другой получается, что катбустом затестил датасет, оценил приблизительно и пошел дальше учить другие модельки. Впрочем и XGB не далеко ушел. Может так и задумывалось разрабами конкретной реализации, а может сам бустинг "устойчив" к подбору гиперпараметров )
Респект.
у сотрудника Яндекса стоит адблок - как это показательно...
А почему не Анна рассказывает? Это же ее ребёночек)
Брак по звуку, Яндекс ну ты чего 😮
что у него за ноутбук ?
jupyter
Макбук конечно же, как у любого приличного программиста
Если учить модели на локальном GPU, то Макбук не вариант. Любой игровой ноут с картой rtx будет считать сильно лучше.
Первый Нах! :)
Спасибо !
было очень интересно!
У меня такое ощущение, что катбуст в Яндексе написали "шоб було" или по юридическим причинам. Честно говоря, преимущества пред хгбуст и лайтгбм не очевидны.
Почему, в сравнении же выигрывает. API CatBoost намного приятнее того же XGBoost. Еще плюсом является, что не надо отдельно обрабатывать категориальные фичи, он сам обработает. Очень удобно, что выводит график в реальном времени
CatBoost лучше некоторых. Уступает в точности Random Forest - сам проверил на сложных датасетах. Да и то, что с шумами и выбросами не борется делает его заурядным алгоритмом. Есть куда более перспективные направления в ML.
Как рэндом форест может быть лучше бустинга?) шо вы придумываете ей богу