Этой ночью мне приснился первый за долгое время кошмарный сон. В нем я проходил такое же интервью с Валерием Бабушкиным и дико лажал. После часа мучений и позора Валерий дал мне перерыв, в который я использовал, чтобы яростно гуглить и опоздал на вторую часть на 5 минут. В результате Валерий не стал меня дожидаться, решив, что я слился, и сказал по этому поводу что-то пассивно-агрессивное. Потом я проснулся в холодном поту.
@@ValeriiBabushkin бесспорно, но я не имел в виду конкретно этот выпуск, т.к. его еще не посмотрел. Вчера посмотрел только предыдущий выпуск из серии. После него почему-то такой сон приснился, хоть в том выпуске ничего страшного и не было.
Моя любимая рубрика. Спасибо Руслану, Стасу, Валере и Игорю за уникальный контент. Каждый выпуск узнаю что-то новое. Прекрасная реклама курсов и огромный вклад для русской аудитории в сфере мл Вопрос оргам. Планируются ли собесы на дата инженера?
несколько мыслей: 1) в качестве офлайн метрики в первом приближении подошел бы подход максимизировать recall при заданном precision (99% например) 2) можно как-то попытаться перевести эту метрику в деньги, принимая во внимание тот факт, что у карточки моделей больше конверсия + происходит дедупликация на поисковой выдаче 3) все равно нужна нормальная разметка, теми же толокерами размечать пары модель-оффер выше какого-то порога (иначе будет оооочень много нулей) 4) те же энкодеры картинок-текста можно валидировать на разметке из п.3 5) все же для более нормальной модели нужно что-то серьезней кнн, например бустинг 6) можно было заметить, что для парсинга цен конкурентов действующая модель может быть неоптимальной, так как на других площадках могут быть другие требования к загрузке офферов от поставщиков
"Обсудим возможность существования неограниченного множества оферов на послеобеденной тренировке по борьбе" )) Если честно, я до ~45й минуты не понимал, чему собираются обучаться. Потом понял, что это вроде бы бинарная классификация, относится ли офер к заданному sku или нет. Я как-то изначально думал о модели, являются ли 2 оффера одним и тем же sku.И последующем итеративном применении ее к кластеризованным оферам. Еще из своего скромного опыта, интересной фичОй может быть не только картинка продукта, но и OCR картинки продукта, ибо продавцы часто туда зашивают текстовую инфу, которой может не быть в текстовом описании и наименовании.
@@ValeriiBabushkin Да, хорошо фильтровать ближайшими соседями, наверное, как предложил Руслан. Опять же, есть смутные сомнения, что можно так просто сконкатить вектора от данных разной природы (текстов, цен и картинок) в вектор бОльшей размерности... Хотя наверняка есть какая-то строго доказанная теорема, что можно )
у вас какое то творчество больше - очень творческая работа получается... у нас проще работа заключается в том чтобы успеть разгрузить фуру пока не подьедет новая фура, вся суть автоматизации тестирования. У вас реально какое то творчество.
как это можно было бы сделать относительно просто и на коленке. берём в начале делаем эмбэдинги с картинок куском сети резнета или VGG или там что-нибудь такое, потом вот эти вот отдельные параметры допустим название товара там, характеристики, просто вычисляем расстояние Левенштейна между там парами товаров. Итоге мы получаем два вектора: один это картинки вот а второй вектор расстояний Левенштейна, ранжируем и получаем паровоз товаров, который расположен в порядке там убывания похожести на наш. Если сделать порог, то часть товаров будет попадать в категорию с нашим- матчится, часть будет отсекаться.
Походу это профдеформация, условие поставлено плохо и куча времени (считай все) потрачена напрасно, более того, еще и идет обсуждение, мол, что-то там не спросил или не предположил...
Этой ночью мне приснился первый за долгое время кошмарный сон. В нем я проходил такое же интервью с Валерием Бабушкиным и дико лажал. После часа мучений и позора Валерий дал мне перерыв, в который я использовал, чтобы яростно гуглить и опоздал на вторую часть на 5 минут. В результате Валерий не стал меня дожидаться, решив, что я слился, и сказал по этому поводу что-то пассивно-агрессивное. Потом я проснулся в холодном поту.
Придти на такое интервью дорого стоит, нужно много мужества
@@ValeriiBabushkin бесспорно, но я не имел в виду конкретно этот выпуск, т.к. его еще не посмотрел. Вчера посмотрел только предыдущий выпуск из серии. После него почему-то такой сон приснился, хоть в том выпуске ничего страшного и не было.
@@ValeriiBabushkin прийти!)
Моя любимая рубрика. Спасибо Руслану, Стасу, Валере и Игорю за уникальный контент. Каждый выпуск узнаю что-то новое. Прекрасная реклама курсов и огромный вклад для русской аудитории в сфере мл
Вопрос оргам. Планируются ли собесы на дата инженера?
Планируем)!
отличная рубрика. желаю удачи и побольше таких выпусков!
несколько мыслей:
1) в качестве офлайн метрики в первом приближении подошел бы подход максимизировать recall при заданном precision (99% например)
2) можно как-то попытаться перевести эту метрику в деньги, принимая во внимание тот факт, что у карточки моделей больше конверсия + происходит дедупликация на поисковой выдаче
3) все равно нужна нормальная разметка, теми же толокерами размечать пары модель-оффер выше какого-то порога (иначе будет оооочень много нулей)
4) те же энкодеры картинок-текста можно валидировать на разметке из п.3
5) все же для более нормальной модели нужно что-то серьезней кнн, например бустинг
6) можно было заметить, что для парсинга цен конкурентов действующая модель может быть неоптимальной, так как на других площадках могут быть другие требования к загрузке офферов от поставщиков
Валера очень крут! Элементы гениальности присутствуют.
Ну лучше уж приглашать людей которые понимают тему собеседование. Но и таким видео рады. Спасибо.
У Руслана была задача поучиться - он поучился. Кандидаты были разные и собеседования получились разные
@@ValeriiBabushkin понял спасибо. Вы отличный интервьюер.
@@VakaramGolang Спасибо!
Эээ, так, чё, короче, это, ну окей, как-бы типа посмотрел это интервью. Понравилось. Пойду следующее посмотрю.
Руслан молодец! Желаю тебе успехов!
Когда на первом интервью понял все, на втором почти все, а на третьем что пора сделать чаек))
Решение задачи закончилось на переписывании "дано".
Было бы интересно глянуть, как сам Валера Бабушкин проходит подобное интервью
Согласен, но свои интервью такого рода и на английском я уже прошел, когда собеседовался в фейсбук
хорошее видео, хоть я и новичок, но немножко понял
@@ValeriiBabushkin выкладывай видео на свой канал, на 1000000% я уверен, что он взлетит
Игорь просто машина машинного убечения, как бы это плохо ни звучало.
"Обсудим возможность существования неограниченного множества оферов на послеобеденной тренировке по борьбе" )) Если честно, я до ~45й минуты не понимал, чему собираются обучаться. Потом понял, что это вроде бы бинарная классификация, относится ли офер к заданному sku или нет. Я как-то изначально думал о модели, являются ли 2 оффера одним и тем же sku.И последующем итеративном применении ее к кластеризованным оферам. Еще из своего скромного опыта, интересной фичОй может быть не только картинка продукта, но и OCR картинки продукта, ибо продавцы часто туда зашивают текстовую инфу, которой может не быть в текстовом описании и наименовании.
Да, такие фичи взлетают. В матчинге нужно делать каскад моделей - фильтровать кандидатов, так как изначально их десятки милионов
@@ValeriiBabushkin Да, хорошо фильтровать ближайшими соседями, наверное, как предложил Руслан. Опять же, есть смутные сомнения, что можно так просто сконкатить вектора от данных разной природы (текстов, цен и картинок) в вектор бОльшей размерности... Хотя наверняка есть какая-то строго доказанная теорема, что можно )
у вас какое то творчество больше - очень творческая работа получается... у нас проще работа заключается в том чтобы успеть разгрузить фуру пока не подьедет новая фура, вся суть автоматизации тестирования. У вас реально какое то творчество.
как это можно было бы сделать относительно просто и на коленке. берём в начале делаем эмбэдинги с картинок куском сети резнета или VGG или там что-нибудь такое, потом вот эти вот отдельные параметры допустим название товара там, характеристики, просто вычисляем расстояние Левенштейна между там парами товаров. Итоге мы получаем два вектора: один это картинки вот а второй вектор расстояний Левенштейна, ранжируем и получаем паровоз товаров, который расположен в порядке там убывания похожести на наш. Если сделать порог, то часть товаров будет попадать в категорию с нашим- матчится, часть будет отсекаться.
До сих пор не знаю что такое симпл димпл
Это такая модель ML.
А он в Снап попал на какой левел?
Просто слабая структуризация проблемы в голове ( так-то там года 2 опыта было всего у него?)
Я запутался: что он имеет в виду под моделью?
А где колаб с мастерклассом? Хотя бы примерно поглядеть бы как эту задачу решили вы сами. :)
Походу это профдеформация, условие поставлено плохо и куча времени (считай все) потрачена напрасно, более того, еще и идет обсуждение, мол, что-то там не спросил или не предположил...
Хороший дуэт, мне кажется Валере нужно хантить
Активно этим занимался работая в Х5
А парень то не прошел...