Семинар 1. Введение в машинное обучение.

Поделиться
HTML-код
  • Опубликовано: 4 окт 2024
  • Занятие ведёт Григорий Лелейтнер.
    Ссылка на материалы семинара drive.google.c....
    ---
    Deep Learning School при ФПМИ МФТИ
    Каждые полгода мы запускаем новую итерацию нашего двухсеместрового практического онлайн-курса по глубокому обучению. Наборы проводятся в августе-сентябре и январе-феврале.
    За нашими новостями можно следить здесь:
    Наш канал в TG: t.me/deep_lear...
    Официальный сайт: dls.samcs.ru/ru/
    Официальная группа ВК: dlschoo...
    Github-репозиторий: github.com/DLS...
    Поддержать канал можно на Boosty: boosty.to/deep...
    ФПМИ МФТИ
    Официальный сайт: mipt.ru/educat...
    Магистратура: mipt.ru/educat...
    Онлайн-магистратура "Современная комбинаторика": omscmipt.ru/
    Онлайн-магистратура "Цифровая экономика": digec.online/
    Лаборатории ФПМИ: mipt.ru/educat...
    Другие записи курсов от Лектория ФИВТ вы можете найти на канале / @stfpmi

Комментарии • 35

  • @Ca1vema
    @Ca1vema 7 месяцев назад +10

    31:20
    Кто работает с новыми версиями pandas, нужно исправить код в ячейке на:
    data.corr(numeric_only=True).style.background_gradient(cmap='coolwarm').format(precision=2)
    Иначе получите ошибку.

  • @MikhailKatulin
    @MikhailKatulin 3 года назад +46

    Мне кажется пропущенные значения лучше смотреть не через среднее а через сумму: `data.isna().sum()` - так сразу видно сколько значений кривых.
    Чтобы не выводило абракадабру после построения графиков, можно просто добавить в конце `;`

  • @nikpere1020
    @nikpere1020 3 года назад +1

    процесс изучения всегда прям приятней когда используются реальные дата сеты ) спасибо

  • @lmao8338
    @lmao8338 3 года назад +5

    Действительно отличный лектор. Спасибо.

  • @ГлебГлебов-ф4с
    @ГлебГлебов-ф4с 4 года назад +8

    Классно объясняете! Спасибо.

  • @Irades
    @Irades Год назад

    Большое спасибо, Григорий :)

  • @it_ru
    @it_ru 3 года назад +10

    Добавлю, что вместо None можно в конце последней строчки поставить точку с запятой

    • @ТётяСвета-б5х
      @ТётяСвета-б5х 7 месяцев назад

      Спасибо, реально работает. Буду пользоваться.

  • @amipigeon
    @amipigeon 2 года назад +6

    В GridSearchSV перепутали параметр: вместо error_score должен быть scoring. См. документацию GridSearchCV(...)

  • @Torino-o2x
    @Torino-o2x Год назад +1

    Григорий хороший лектор.

  • @MT-xb3ts
    @MT-xb3ts 3 года назад +7

    "Джупа́йтер" должно коробить иностранных коллег, и говорит о некой изоляции от международного сообщества. /ˈdʒuːpɪtər/
    Больше спасибо за прекрасную лекцию!

    • @mikatshow3932
      @mikatshow3932 2 года назад

      может это коламбур) как пайтон+джупитер=джупайтер)

    • @Олег-л4ф3е
      @Олег-л4ф3е 2 года назад +1

      @@mikatshow3932 Нет, к сожалению. Я смотрел другие лекции на этом канале и в них тоже неверно произносились даже русские термины (примеры: в лекции numpy неверно называется numpy 2) в лекции "векторы" неверно называются векторы).

    • @AnarNasirov
      @AnarNasirov Год назад

      Называешь юпитер или джупитер и все ок

  • @ГлебДильман-б8щ
    @ГлебДильман-б8щ 11 месяцев назад

    на 33 минуте, где лектор объясняет, что отрицательная и большая по модулю корреляция - это хорошо, достаточно сказать, что можно просто поменять знак у фичи и корреляция поменяет знак

  • @vova_vozniak
    @vova_vozniak 3 года назад +4

    Вопрос к 1:10:08, разве не аргумент scoring отвечает за выбранную нами метрику в GridSearchCV? По такому примеру кода, как мы видим, GridSearchCV будет бежать с дефолтной метрикой для заданной модели (т.е. R^2 для KNeighborsRegressor) и всегда искать модель с максимумом метрики, которую мы передали, т.е. передавать метрику mean_squared_error нельзя, так как GridSearchCV вернет модель с максимумом для этой метрики, что вообщем-то неверно, поскольку mean_squered_error мы хотим минимизировать.

  • @БелыйИноходец
    @БелыйИноходец 3 года назад +1

    спасибо за урок и за лайфхаки с notebook'ом

  • @cvvs6419
    @cvvs6419 Год назад +1

    Всё супер, но меня коробит один момент.
    Стандартизация (z-оценка) точно не приводит признак к нормальному распределению. Признак распределен либо нормально, либо нет изначально.

  • @eugene1965
    @eugene1965 3 года назад +7

    По старинке ссылки больше не работают.
    Используйте:
    # Загрузим данные и посмотрим на небольшую часть
    url = 'drive.google.com/file/d/1c_MIKc6zm5lazzgbNMCSsim48Pde3A0c/view?usp=sharing' #ссылка на просмотр
    path = 'drive.google.com/uc?export=download&id='+url.split('/')[-2] #ссылка на скачивание
    data = pd.read_csv(path) #загружаем

  • @alexanderskusnov5119
    @alexanderskusnov5119 Год назад +1

    GridSearchCV выдаёт ошибку

  • @bekhzodortikov421
    @bekhzodortikov421 Год назад

    У меня gridsearch fit дает ошибку ValueError: error_score must be the string 'raise' or a numeric value. (Hint: if using 'raise', please make sure that it has been spelled correctly.). Как исправить?

  • @livasan6529
    @livasan6529 2 года назад +1

    39:05 n(n-1)/2

  • @mikatshow3932
    @mikatshow3932 2 года назад +1

    R может быть меньше нуля. R squared НЕ может. оговорочка, кажется

  • @Anonymous00754
    @Anonymous00754 3 года назад

    у меня вопросы! спасибо за лекцию молодец крут орёл!) 1й не понял после коррел графики как читать чето какая то фигня там или я просто не вникал особо или там так и есть фигня))?
    про новые признаки там это типо пца принципал компонент анал) и тому подобное для снижения размерности (такой подход может быть если да то подробнее в каких случаях и какие вобще сниж разм бывают и для чего? опыт применения и тд подробнее если можно)?

  • @Anonymous00754
    @Anonymous00754 3 года назад

    а загнать в сигмоиду это масштабирование признаков?

  • @Anonymous00754
    @Anonymous00754 3 года назад

    не люблю хэдом пользоваться срезает shape df а потом потерять что то легко просмотрев эту инфу...

  • @Олег-л5ю2п
    @Олег-л5ю2п Год назад

    32:30

  • @Anonymous00754
    @Anonymous00754 3 года назад +1

    жаль про лес ничего(

    • @Anonymous00754
      @Anonymous00754 3 года назад

      ну и логистику вобщем все сразу что бы и сравнить потом интересно было

  • @tedarcher9120
    @tedarcher9120 Год назад +3

    Жупайтер

    • @alexanderskusnov5119
      @alexanderskusnov5119 Год назад

      У молодых всегда так: Джава (Ява), Джамайка (Ямайка), Жупитер (Юпитер).
      Единственно, согласен с астрономом Сурдиным: Альфа Центавра -> Альфа [созвездия] Кентавра.

    • @tedarcher9120
      @tedarcher9120 Год назад +1

      @@alexanderskusnov5119 ну джава она хотя бы в английском джава, а что такое жупАйтер вообще хз. В английском есть ДжУпитер с ударением на первый слог и без всяких ай

    • @tedarcher9120
      @tedarcher9120 Год назад

      @@aligatorpe ну тем более произносится как Джупитер а не джупайтер

  • @denfnc3025
    @denfnc3025 3 месяца назад

    Корреляцию очень удобно отслеживать с помощью seaborn
    sns.heatmap(df.corr())

  • @Ogilouk
    @Ogilouk 2 года назад +3

    Как же бесит когда он тянет гласные.