В формате стартапа можно и в ноутбуках позапускать ячейки, и данные собирать/чистить, размечать, и обучать, и инференс писать, и архитектуру бэкенда разрабатывать, и драйвера с кудой обновлять, и в докер всё что можно заворачивать. Единственное, что фронтенд мимо - и это сильно радует.
Здравствуйте, Антон! Приветствую, коллеги! Пожалуйста, помогите вот в какой задаче- стартую на новом месте в несвойственной для себя роли (всегда был сисадмином и нач айти отдела, а теперь придется строить отдел дс и мл). Есть масса данных (телеметрия, числовые ряды) и нужно наладить пайплайн обработки данных с результатом в виде предсказания событий. С чего начать? Какая структура отдела должна быть - роли, обязанности), кто в отделе должен быть обязательно, а кто нет? Какое оборудование нужно - есть два сервера с восьмью гпу а5000 на каждом - как понять какую нагрузку они смогут потянуть в терминах обучения на числовых рядах. Буду крайне признателен за советы по существу (кроме советов "иди и найми за 100500 тыщ мильенов крутых профи). Для себя вижу так- сначала надо разобраться с источниками и форматами хранения, потом наладить непрерывную процедуру нормализации всех сериальных поступающих данных, пока все. Дальше наверное нужно определяться с моделями и начинать туда все это скармливать? Заранее всем большое спасибо за советы!
Я бы всегда отталкивался от задачи. Какие для неё алгоритмы используются, какие ресурсы нужны, и.т.д. Обычно цикл "сделать прототип" -> "определить инфру". Если инфру надо раньше MVP, тогда надо привлекать эксперта в домене который может оценить.
Антон, здравствуйте. У меня 3 вопроса: 1) Встречали ли вы ml позиции на стыке ресерча и разработки? То есть человек принимает участие в разработке нейронки, но также и в прод может затащить. 2) Используете ли вы Rust всесто C++ и какие на ваш взгляд у него перспективы в ML? 3) Как вам технотекст в этом году, особенно сеньорные статьи? Что вам из этого понравилось больше всего?
1) Такое бывает часто, но оно не эффективно в масштабе. Проще найти человека с небольшим стеком чем с большим. Для стартапа норм, для большой компании где хочется иметь возможность менять людей - лучше такого не допускать 2) Очень редко. Обычно нет смысла. с++ нужен для того чтобы делать какую-то минимальную обработку (так что я бы сказал что чаще не плюсы, а чистый с по факту), часто он завязан на куду, где и так с. Большие куски кода в ML (там где было бы эффективно раст подтаскивать) редко пишут на плюсах. 3) Я у себя на канале более-менее писал - t.me/CVML_team/260 . Более подробно уже плохо помню, сложно сформулировать.
@@AntonMaltsev Дело в том, что я сейчас присматриваюсь к rust, поскольку на одном питоне далеко не уедешь. Насколько я понял, изучение rust имеет смысл, чтобы заменять его в ml-ных задачах, где применяются плюсы. Верно?
@@hopelesssuprem1867 вроде я написал обратное? Задач ML где плюсы не очень много. Да и то не плюсы а си. И в целом если и есть - там обычно пару строчек кода. Не очень понятно зачем тащить в прод +1 тех. Сложнее найти разрабов, сложнее поддерживать.
Антон, огромное спасибо за ваш труд и видео по делу. Не знаете, где можно почитать или обучиться MLOps? Обучать нейросети, понимать принципы их работы научился, но с разворачиванием и созданием полноценных сервисов на чистой архитектуре беда. И какой-то целевой литературы на эту тему найти не смог (на английском в т.ч.). Только точечные статьи, которых и близко не хватает, чтобы в полном объёме понять процесс работы. Не знаете ли вы какой-то источник, где можно полноценно ознакомиться с пайплайном построения архитектуры для разворачивания нейросети или (ещё лучше) встраивания в бОльший сервис коллег с собственным сервисом нейросети. Ещё раз спасибо!
Боюсь что не знаю. Есть отдельные статьи/лекции/выступления. Есть всякие онлайн школы которые специализируются на повышении квалификации, но я вообще бывают ли именно по этой теме курсы. Но, вообще, ML опс разный в разных компаниях всегда:)
Привет! Можешь немного раскрыть мысль про статистику в CV? Ты сказал что статистика это база и что не стоит бояться ошибаться и эксперименты лучше валидировать статистикой, но я немного не понимаю как статистику можно натянуть на CV. Ну, вот есть метрики, но как уйти от этого в сторону статистики?
1) Чтобы обучать любую CV модель надо хорошо понимать что такое ошибки первого и второго рода. Как оценивать качество/целевое качество. Понять эффективность того что обучилось, какую метрику надо взять чтобы лучше всего оценить модель на проде. 2) Ну и в целом, базовая статистика хороша много где: а) Понимать как сделать правильный даталоадер б) Понимать как сделать правильную аугментацию в) Понимать как сделать правильную балансировку если несколько моделей Но и вообще при любой работе с данными полезно.
Спасибо! Антон, с каждым роликом у вас всё круче и круче получается кратко и ёмко формулировать мысли!
Спасибо!
Спасибо, что снимаешь видео в том числе дня новичков
Спасибо, смотрим, слушаем ❤
Спасибо, полезно было взглянуть на свои навыки с этой стороны.
В формате стартапа можно и в ноутбуках позапускать ячейки, и данные собирать/чистить, размечать, и обучать, и инференс писать, и архитектуру бэкенда разрабатывать, и драйвера с кудой обновлять, и в докер всё что можно заворачивать. Единственное, что фронтенд мимо - и это сильно радует.
К открытости к новому, так же нужно добавить открытость к старому 😅
Антон, привет. Ты как то делал видео про зарплаты на позицию CV инженера, можешь сделать еще одно видео на эту тему - только уже для нынешних реалий.
Супер!
Здравствуйте, Антон! Приветствую, коллеги! Пожалуйста, помогите вот в какой задаче- стартую на новом месте в несвойственной для себя роли (всегда был сисадмином и нач айти отдела, а теперь придется строить отдел дс и мл). Есть масса данных (телеметрия, числовые ряды) и нужно наладить пайплайн обработки данных с результатом в виде предсказания событий. С чего начать? Какая структура отдела должна быть - роли, обязанности), кто в отделе должен быть обязательно, а кто нет? Какое оборудование нужно - есть два сервера с восьмью гпу а5000 на каждом - как понять какую нагрузку они смогут потянуть в терминах обучения на числовых рядах. Буду крайне признателен за советы по существу (кроме советов "иди и найми за 100500 тыщ мильенов крутых профи). Для себя вижу так- сначала надо разобраться с источниками и форматами хранения, потом наладить непрерывную процедуру нормализации всех сериальных поступающих данных, пока все. Дальше наверное нужно определяться с моделями и начинать туда все это скармливать? Заранее всем большое спасибо за советы!
Я бы всегда отталкивался от задачи. Какие для неё алгоритмы используются, какие ресурсы нужны, и.т.д.
Обычно цикл "сделать прототип" -> "определить инфру". Если инфру надо раньше MVP, тогда надо привлекать эксперта в домене который может оценить.
Антон, здравствуйте. У меня 3 вопроса:
1) Встречали ли вы ml позиции на стыке ресерча и разработки? То есть человек принимает участие в разработке нейронки, но также и в прод может затащить.
2) Используете ли вы Rust всесто C++ и какие на ваш взгляд у него перспективы в ML?
3) Как вам технотекст в этом году, особенно сеньорные статьи? Что вам из этого понравилось больше всего?
1) Такое бывает часто, но оно не эффективно в масштабе. Проще найти человека с небольшим стеком чем с большим. Для стартапа норм, для большой компании где хочется иметь возможность менять людей - лучше такого не допускать
2) Очень редко. Обычно нет смысла. с++ нужен для того чтобы делать какую-то минимальную обработку (так что я бы сказал что чаще не плюсы, а чистый с по факту), часто он завязан на куду, где и так с.
Большие куски кода в ML (там где было бы эффективно раст подтаскивать) редко пишут на плюсах.
3) Я у себя на канале более-менее писал - t.me/CVML_team/260 . Более подробно уже плохо помню, сложно сформулировать.
@@AntonMaltsev Дело в том, что я сейчас присматриваюсь к rust, поскольку на одном питоне далеко не уедешь. Насколько я понял, изучение rust имеет смысл, чтобы заменять его в ml-ных задачах, где применяются плюсы. Верно?
@@hopelesssuprem1867 вроде я написал обратное?
Задач ML где плюсы не очень много. Да и то не плюсы а си. И в целом если и есть - там обычно пару строчек кода. Не очень понятно зачем тащить в прод +1 тех. Сложнее найти разрабов, сложнее поддерживать.
@@AntonMaltsev понял. Спасибо за ответ
Антон, огромное спасибо за ваш труд и видео по делу. Не знаете, где можно почитать или обучиться MLOps? Обучать нейросети, понимать принципы их работы научился, но с разворачиванием и созданием полноценных сервисов на чистой архитектуре беда. И какой-то целевой литературы на эту тему найти не смог (на английском в т.ч.). Только точечные статьи, которых и близко не хватает, чтобы в полном объёме понять процесс работы. Не знаете ли вы какой-то источник, где можно полноценно ознакомиться с пайплайном построения архитектуры для разворачивания нейросети или (ещё лучше) встраивания в бОльший сервис коллег с собственным сервисом нейросети. Ещё раз спасибо!
Боюсь что не знаю. Есть отдельные статьи/лекции/выступления.
Есть всякие онлайн школы которые специализируются на повышении квалификации, но я вообще бывают ли именно по этой теме курсы.
Но, вообще, ML опс разный в разных компаниях всегда:)
MLOps и production в DS исследованиях 3.0
Курс от OpenDataScience
Уточните название эффекта про сопровождение сложных объектов: "Калмановский эффект"? Не получается сходу нагуглить.
"эффект"?
А где это в видео было? Нужен контекст.
Калмановский Фильтр :)
Привет! Можешь немного раскрыть мысль про статистику в CV? Ты сказал что статистика это база и что не стоит бояться ошибаться и эксперименты лучше валидировать статистикой, но я немного не понимаю как статистику можно натянуть на CV. Ну, вот есть метрики, но как уйти от этого в сторону статистики?
1) Чтобы обучать любую CV модель надо хорошо понимать что такое ошибки первого и второго рода. Как оценивать качество/целевое качество. Понять эффективность того что обучилось, какую метрику надо взять чтобы лучше всего оценить модель на проде.
2) Ну и в целом, базовая статистика хороша много где:
а) Понимать как сделать правильный даталоадер
б) Понимать как сделать правильную аугментацию
в) Понимать как сделать правильную балансировку если несколько моделей
Но и вообще при любой работе с данными полезно.
@@AntonMaltsev супер, спасибо за ответ! А не подскажешь где можно поглядеть/почитать про вышесказанное тобой?
надо уметь читать формулы с работ из архива)
Страны где JIRA ушла? что это за страны такие
А если я ботяра