Data Science. Чем отличается новичок от эксперта.

Anton Maltsev

Просмотров 3,6 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 20 окт 2024

Комментарии • 28

@dnav5041 3 месяца назад ⁺³
Спасибо! Антон, с каждым роликом у вас всё круче и круче получается кратко и ёмко формулировать мысли!
@AntonMaltsev 3 месяца назад ⁺¹
Спасибо!
@КаменскийСергей-э5у 3 месяца назад ⁺²
Спасибо, что снимаешь видео в том числе дня новичков
@blackbigdeath 3 месяца назад ⁺¹
Спасибо, смотрим, слушаем ❤
@fait0n 3 месяца назад ⁺¹
Спасибо, полезно было взглянуть на свои навыки с этой стороны.
@Yetishkin_Pistolet 3 месяца назад ⁺¹
В формате стартапа можно и в ноутбуках позапускать ячейки, и данные собирать/чистить, размечать, и обучать, и инференс писать, и архитектуру бэкенда разрабатывать, и драйвера с кудой обновлять, и в докер всё что можно заворачивать. Единственное, что фронтенд мимо - и это сильно радует.
@3100500 3 месяца назад ⁺³
К открытости к новому, так же нужно добавить открытость к старому 😅
@sb9185 2 месяца назад
Антон, привет. Ты как то делал видео про зарплаты на позицию CV инженера, можешь сделать еще одно видео на эту тему - только уже для нынешних реалий.
@aidynabirov7728 3 месяца назад ⁺¹
Супер!
@steelrat7678 3 месяца назад ⁺²
Здравствуйте, Антон! Приветствую, коллеги! Пожалуйста, помогите вот в какой задаче- стартую на новом месте в несвойственной для себя роли (всегда был сисадмином и нач айти отдела, а теперь придется строить отдел дс и мл). Есть масса данных (телеметрия, числовые ряды) и нужно наладить пайплайн обработки данных с результатом в виде предсказания событий. С чего начать? Какая структура отдела должна быть - роли, обязанности), кто в отделе должен быть обязательно, а кто нет? Какое оборудование нужно - есть два сервера с восьмью гпу а5000 на каждом - как понять какую нагрузку они смогут потянуть в терминах обучения на числовых рядах. Буду крайне признателен за советы по существу (кроме советов "иди и найми за 100500 тыщ мильенов крутых профи). Для себя вижу так- сначала надо разобраться с источниками и форматами хранения, потом наладить непрерывную процедуру нормализации всех сериальных поступающих данных, пока все. Дальше наверное нужно определяться с моделями и начинать туда все это скармливать? Заранее всем большое спасибо за советы!
@AntonMaltsev 3 месяца назад
Я бы всегда отталкивался от задачи. Какие для неё алгоритмы используются, какие ресурсы нужны, и.т.д.
Обычно цикл "сделать прототип" -> "определить инфру". Если инфру надо раньше MVP, тогда надо привлекать эксперта в домене который может оценить.
@hopelesssuprem1867 3 месяца назад ⁺¹
Антон, здравствуйте. У меня 3 вопроса:
1) Встречали ли вы ml позиции на стыке ресерча и разработки? То есть человек принимает участие в разработке нейронки, но также и в прод может затащить.
2) Используете ли вы Rust всесто C++ и какие на ваш взгляд у него перспективы в ML?
3) Как вам технотекст в этом году, особенно сеньорные статьи? Что вам из этого понравилось больше всего?
@AntonMaltsev 3 месяца назад ⁺¹
1) Такое бывает часто, но оно не эффективно в масштабе. Проще найти человека с небольшим стеком чем с большим. Для стартапа норм, для большой компании где хочется иметь возможность менять людей - лучше такого не допускать
2) Очень редко. Обычно нет смысла. с++ нужен для того чтобы делать какую-то минимальную обработку (так что я бы сказал что чаще не плюсы, а чистый с по факту), часто он завязан на куду, где и так с.
Большие куски кода в ML (там где было бы эффективно раст подтаскивать) редко пишут на плюсах.
3) Я у себя на канале более-менее писал - t.me/CVML_team/260 . Более подробно уже плохо помню, сложно сформулировать.
@hopelesssuprem1867 3 месяца назад
@@AntonMaltsev Дело в том, что я сейчас присматриваюсь к rust, поскольку на одном питоне далеко не уедешь. Насколько я понял, изучение rust имеет смысл, чтобы заменять его в ml-ных задачах, где применяются плюсы. Верно?
@AntonMaltsev 3 месяца назад
@@hopelesssuprem1867 вроде я написал обратное?
Задач ML где плюсы не очень много. Да и то не плюсы а си. И в целом если и есть - там обычно пару строчек кода. Не очень понятно зачем тащить в прод +1 тех. Сложнее найти разрабов, сложнее поддерживать.
@hopelesssuprem1867 3 месяца назад
@@AntonMaltsev понял. Спасибо за ответ
@vladdolzhenko3843 3 месяца назад
Антон, огромное спасибо за ваш труд и видео по делу. Не знаете, где можно почитать или обучиться MLOps? Обучать нейросети, понимать принципы их работы научился, но с разворачиванием и созданием полноценных сервисов на чистой архитектуре беда. И какой-то целевой литературы на эту тему найти не смог (на английском в т.ч.). Только точечные статьи, которых и близко не хватает, чтобы в полном объёме понять процесс работы. Не знаете ли вы какой-то источник, где можно полноценно ознакомиться с пайплайном построения архитектуры для разворачивания нейросети или (ещё лучше) встраивания в бОльший сервис коллег с собственным сервисом нейросети. Ещё раз спасибо!
@AntonMaltsev 3 месяца назад
Боюсь что не знаю. Есть отдельные статьи/лекции/выступления.
Есть всякие онлайн школы которые специализируются на повышении квалификации, но я вообще бывают ли именно по этой теме курсы.
Но, вообще, ML опс разный в разных компаниях всегда:)
@rnj20000 3 месяца назад
MLOps и production в DS исследованиях 3.0
Курс от OpenDataScience
@VladimirS-h9o 20 дней назад
Уточните название эффекта про сопровождение сложных объектов: "Калмановский эффект"? Не получается сходу нагуглить.
@AntonMaltsev 20 дней назад
"эффект"?
А где это в видео было? Нужен контекст.
@doubleslash8070 16 дней назад
Калмановский Фильтр :)
@NickCapitan 3 месяца назад
Привет! Можешь немного раскрыть мысль про статистику в CV? Ты сказал что статистика это база и что не стоит бояться ошибаться и эксперименты лучше валидировать статистикой, но я немного не понимаю как статистику можно натянуть на CV. Ну, вот есть метрики, но как уйти от этого в сторону статистики?
@AntonMaltsev 3 месяца назад
1) Чтобы обучать любую CV модель надо хорошо понимать что такое ошибки первого и второго рода. Как оценивать качество/целевое качество. Понять эффективность того что обучилось, какую метрику надо взять чтобы лучше всего оценить модель на проде.
2) Ну и в целом, базовая статистика хороша много где:
а) Понимать как сделать правильный даталоадер
б) Понимать как сделать правильную аугментацию
в) Понимать как сделать правильную балансировку если несколько моделей
Но и вообще при любой работе с данными полезно.
@NickCapitan 3 месяца назад
@@AntonMaltsev супер, спасибо за ответ! А не подскажешь где можно поглядеть/почитать про вышесказанное тобой?
@dicloniusN35 3 месяца назад
надо уметь читать формулы с работ из архива)
@ua420 3 месяца назад
Страны где JIRA ушла? что это за страны такие
@скриптослав 3 месяца назад
А если я ботяра

Следующие

Автовоспроизведение

Имеет ли смысл идти в Computer Vision и ML в 2024?