SmartData
SmartData
  • Видео 196
  • Просмотров 152 524
Закрытие конференции SmartData 2023
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва + трансляция).
Подробности и билеты: jrg.su/KFFBS7
- -
Подводим итоги конференции, вспоминаем яркие моменты и рассказываем о дальнейших планах.
Ведущие: Максим Стаценко, Михаил Марюфич.
Просмотров: 8

Видео

Игра «Своя пирамида»
Просмотров 174 часа назад
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Интеллектуальная игра от Программного комитета. В каждом раунде представлены вопросы общей тематики, связанные с программированием и инженерией данных, а также вопросы на темы, выбранные самими участниками, отражающие их сферу интересов. Цель каждого игрока - к...
Викторина и подведение итогов online-части конференции SmartData 2023
Просмотров 104 часа назад
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - В завершении онлайн-части SmartData 2023 мы провели викторину про Data Engineering. А в конце подвели итоги, вспомнили яркие моменты и рассказали о дальнейших планах. Ведущие: Максим Стаценко, Михаил Лукин, Мария Лаврова. #dataengineering
Открытие второго дня SmartData 2023
Просмотров 84 часа назад
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Говорим о расписании, сессиях и активностях. Ведущие: Максим Стаценко, Михаил Лукин.
Александр Плавин - Телескопы XXI века: от железа и софта к данным и результатам
Просмотров 234 часа назад
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Скачать презентацию с сайта SmartData - jrg.su/LSWT7p Современные астрономические инструменты - телескопы - выглядят далеко не так, как сотни и даже десятки лет назад. Наблюдательные данные быстро растут в объеме и скорости получения, сокращается требуемое врем...
Открытие конференции SmartData 2023
Просмотров 274 часа назад
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Говорим о расписании, сессиях и активностях. Ведущие: Максим Стаценко, Андрей Кузнецов.
Владимир Сурдин - Внеатмосферная астрономия и новый космический телескоп «Джеймс Уэбб»
Просмотров 944 часа назад
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Астрономам тесно на Земле: мешает атмосфера, мешают спутники Илона Маска, маловат размер планеты. Теперь космос для астрономов стал не только объектом исследования, но и рабочей площадкой. Что нового узнали ученые с помощью космических телескопов и каковы персп...
Открытие офлайн-части конференции SmartData 2023
Просмотров 74 часа назад
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Говорим о расписании, сессиях и делимся информацией. Ведущие: Михаил Марюфич, Алексей Федоров.
Бронислав Житников - Как сделать так, чтобы вашему Apache NiFi было плохо
Просмотров 14421 час назад
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Скачать презентацию с сайта SmartData - jrg.su/AWPHir NiFi - очень мощный инструмент, и им можно закрыть очень широкий спектр задач. Однако есть задачи, которые заставляют NiFi чувствовать себя не очень хорошо. Спикер рассказывает про свой взгляд на такие задач...
DataFrame - настоящее и будущее
Просмотров 26921 час назад
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Какие библиотеки существуют для работы с DataFrame? Какие исследования и разработки сейчас ведутся в этой области? Обсуждаем интеграцию с базами данных, хранилищами данных и data science-решениями. Спикеры: Александр Боргардт, Евгений Селиверстов, Николай Марко...
Виталий Бодренков - Визуализация для ELT-процессов в DWH
Просмотров 58521 час назад
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Скачать презентацию с сайта SmartData - jrg.su/smVTLi Об использовании dbt. Как применяли у себя, как кастомизировали. О написании материализаций, DDL-генераторе и проблемах с временными таблицами.
Тимофей Брунько - CDC. От баззворда к реализации в Data Transfer
Просмотров 42614 дней назад
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Скачать презентацию с сайта SmartData - jrg.su/aioagg CDC (Change Data Capture) - подход для решения задач интеграции данных. Спикер рассказывает про его особенности, рассматривает рыночные решения и говорит о том, с какими вызовами они столкнулись при его реал...
Юрий Гусев - От потоков данных до ML-моделей. Секрет конструирования и тестирования признаков
Просмотров 7914 дней назад
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Скачать презентацию с сайта SmartData - jrg.su/vfqgGS Юрий рассказывает, как Serverless, Kappa architecture и Python могут помочь в создании простой, но эффективной платформы для конструирования признаков и обучения моделей. Используя простые концепции, такие к...
Евгений Ненахов - Spark Streaming: брать или не брать?
Просмотров 25214 дней назад
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Скачать презентацию с сайта SmartData - jrg.su/993g53 Все чаще продуктовым командам приходится решать задачи потоковой обработки данных в связи с потребностью бизнеса обрабатывать данные в режиме реального времени или близком к реальному. Инструментов для решен...
Валентина Предтеченская - Apache Flink под капотом: distributed, stateful, realtime
Просмотров 20214 дней назад
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Скачать презентацию с сайта SmartData - jrg.su/rDYWGB Apache Flink - фреймворк и движок для распределенной stateful-обработки потоков данных. В Авито его используют для realtime-обработки потока событий. Поскольку у них довольно высокая нагрузка, производительн...
Даниэл Рачич - Kafka Connect: что за зверь этот ваш Single Message Transform?
Просмотров 10814 дней назад
Даниэл Рачич - Kafka Connect: что за зверь этот ваш Single Message Transform?
Александр Бобряков - Apache Flink на примере задачи дедупликации
Просмотров 15414 дней назад
Александр Бобряков - Apache Flink на примере задачи дедупликации
Сергей Космос - Создание группы сервисов по анализу космических снимков с помощью машинного обучения
Просмотров 5221 день назад
Сергей Космос - Создание группы сервисов по анализу космических снимков с помощью машинного обучения
Алексей Даньшин - Методы обезличивания данных
Просмотров 37521 день назад
Алексей Даньшин - Методы обезличивания данных
Василий Мельник - Streaming Data Integration - ETL-инструмент для создания near realtime-процессов
Просмотров 50121 день назад
Василий Мельник - Streaming Data Integration - ETL-инструмент для создания near realtime-процессов
Павел Филонов, Аркадий Василенко - ML System Design Interview
Просмотров 29221 день назад
Павел Филонов, Аркадий Василенко - ML System Design Interview
Наджим Мохаммад, Дмитрий Бодин, Максим Бартенев - Платформа как продукт
Просмотров 26621 день назад
Наджим Мохаммад, Дмитрий Бодин, Максим Бартенев - Платформа как продукт
Владимир Верстов - Платформа управления данными вокруг YTsaurus
Просмотров 18721 день назад
Владимир Верстов - Платформа управления данными вокруг YTsaurus
Алексей Озерицкий - Архитектура распределенного SQL-движка для аналитических запросов
Просмотров 29528 дней назад
Алексей Озерицкий - Архитектура распределенного SQL-движка для аналитических запросов
Кузьма Лешаков - Разгоним запросы: как быстро готовить ClickHouse
Просмотров 66928 дней назад
Кузьма Лешаков - Разгоним запросы: как быстро готовить ClickHouse
Алексей Дмитриев - Движение к универсальности: гибридная OLTP-база с поддержкой OLAP-запросов
Просмотров 18728 дней назад
Алексей Дмитриев - Движение к универсальности: гибридная OLTP-база с поддержкой OLAP-запросов
Максим Бабенко - Как мы адаптировали динамические таблицы YTsaurus для хранения блобов
Просмотров 17228 дней назад
Максим Бабенко - Как мы адаптировали динамические таблицы YTsaurus для хранения блобов
Петр Зайцев - Глубокое погружение в производительность запросов
Просмотров 25828 дней назад
Петр Зайцев - Глубокое погружение в производительность запросов
Игнат Колесниченко - Планирование миллиардов задач каждый день
Просмотров 16928 дней назад
Игнат Колесниченко - Планирование миллиардов задач каждый день
Владимир Озеров - Быстрая обработка данных в Data Lake с помощью Trino
Просмотров 26128 дней назад
Владимир Озеров - Быстрая обработка данных в Data Lake с помощью Trino

Комментарии

  • @matt-zt1ky
    @matt-zt1ky 20 часов назад

    Отличный доклад, спасибо)

  • @Влад-о5щ
    @Влад-о5щ 2 дня назад

    Уффф, офигенно вышло Ты лучший, без шууток Я тҽбҽ 𝓬дҽлαю ρҽƙ1лαᙏყ Ԩα 𝓬ßσҽᙏ 𝓬тρиᙏҽ бҽ𝓬плαтԨσ, Ԋαбҽρҽ1ᙏ тҽбҽ пσдпи𝓬чиƙσß! 3αйди Ԋα этσт ƙαԨαл ყßидиɯƄ ᙏσи дßα ƙαԨαлα - пσдпиɯи𝓬Ƅ Ԩα Ԋиχ! А я тебе пожелаю удачи! :)

  • @valeriymogilnitskiy9692
    @valeriymogilnitskiy9692 6 дней назад

    18 минут из 30 не про маге

  • @pavelgalkin8565
    @pavelgalkin8565 9 дней назад

    Отличный доклад!

  • @SergeyTarabara
    @SergeyTarabara 13 дней назад

    Такое ощущение, что на Flink написали NiFi)

  • @vladaleshin5028
    @vladaleshin5028 14 дней назад

    Является ли CDC/Debezium альтернативным решением в случае с небольшим количеством сообщений и несложными трансформациями?

  • @DAJakaRedAries
    @DAJakaRedAries 17 дней назад

    Жаль, что цель доклада - реклама форка, который уже заброшен 😢

  • @user-rt4uy1dn6u
    @user-rt4uy1dn6u 20 дней назад

    И ещё какая тварь RUclips замедляет, руки бы обломать...

  • @pavlovi4100
    @pavlovi4100 21 день назад

    Отличный доклад

  • @alesyuzefovich115
    @alesyuzefovich115 23 дня назад

    Спасибо Владимиру за отличный рассказ

  • @bananasba
    @bananasba 29 дней назад

    бэ, мэ, ненужный выпендреж и шуточки, по существу не много

  • @alexcoast9102
    @alexcoast9102 Месяц назад

    есть русское слово - применить, зачем долгое имплементировать ? )))))

  • @eletenkov
    @eletenkov Месяц назад

    очень много воды

  • @alexzir
    @alexzir Месяц назад

    Много не по теме. А так очень интересно Спасибо

  • @levkolosovikb-9363
    @levkolosovikb-9363 Месяц назад

    Да блин, запускаю тот же самый код и работает иначе всё

  • @thghtfl
    @thghtfl Месяц назад

    Понравилась первая часть выступления, которая не относилась к Mage, вот эта рефлексия с позиции менеджера. Как только перешли к демо по непосредственной теме, все стало очень скомканно, что-то в streamlit показал, запустил пайплайн в mage, что получил, для чего - непонятно. Может быть, стоило строить доклад не вокруг конкретного тула, а до конца описать преобразования, которые с командой удалось осуществить. От себя скажу про Mage. Он расширяет возможности оркестратора, позволяя смотреть на результаты трансформаций в jupyter-like интерфейсе и даже передавать датасеты между тасками. Также он ест меньше памяти в сравнении с Airflow, особенно в idle state. Но! В прод мы так и не решились с ним идти - он все-таки еще очень сырой, какие-то нечитаемые ошибки, баги и т.п.

  • @evevideo100
    @evevideo100 Месяц назад

    ЭЭ а как же запрет работы из-за границы ?

  • @emild579
    @emild579 Месяц назад

    Интересно, ожидал, что на Data Lens перейдут

  • @dataengineer735
    @dataengineer735 Месяц назад

    Добрый день. А мне, как кандидату, не понравилось интервью. Создалось впечатление, что нанимающие менеджеры живут в своей придуманной ими реальности. Что нужно сделать чтобы % был больше: перестать искать сферического коня в вакууме, идеала(с нереальными скилами), а опираться на реальных людей, которые приходят на рынок. И речь идет не о том, что нужно брать не грамотных, а о том, чтобы опираться на опыт людей+потребности компании. Если нанимающий менеджер даже резюме не читает - по мне это говорит о том, что он не заинтересован в человеке, а хочет найти функцию. Позиция соискателя: 1. Все знать невозможно, по причине огромного количества информации и технологий, тем более, что они устаревают. 2. за свою карьеру я работал в разных компаниях, и удивительно: то, что меня спрашивали на собесах по технологиям, в реальных проектах было не более 20% 3. считаю, что умение осваивать и учиться новому гораздо более важно, чем знания на текущий момент, однако не все компании это понимают. 4. лайф-кодинг по python на собесах для DE считаю бесполезной штукой, поскольку сейчас очень много информации по python, для написания дагов airflow не нужно сверхзнаний, а если пишешь на nifi, там вообще nocode. Гораздо важнее понимание процессов, как работает та или иная технология, принципы проектирования БД, обработка данных, знание нюансов конкретной СУБД, в которой работаешь. У меня в опыте по DE и даже когда я был разработчиком, ни разу не было задач по алгоритмам. Разве что в институте. Зачем это спрашивают - я не понимаю. 5. Софт-скиллы важны, это да. Однако когда нанимающий менеджер даже резюме не читает, это занавес. Мне скажут, что он очень занят, это отговорки, поскольку если нанимают по месяцам(то на это время, конечно же есть). Найм - это обоюдный процесс. 6. Мне очень понравилась идея спрашивать человека об его опыте. Это честно и вызывает уважение. И по сути верно. О чужом опыте гораздо труднее разговаривать. А про знания - я написал выше. Вывод: маленький % по найму на мой взгляд из-за того, что компании хотят найти идеального под себя кандидата. Идеалы недостижимы, они есть, но только в наших головах, а реальность другая.

  • @alieszhar8163
    @alieszhar8163 Месяц назад

    Здравствуйте, а видео из дискуссионной зоны пишется?

    • @SmartDataConf
      @SmartDataConf Месяц назад

      Здравствуйте! Дискуссии после активностей не записываются, принять в них участие можно только непосредственно во время проведения конференции 🙃

  • @Jealosy-fu3kj
    @Jealosy-fu3kj Месяц назад

    А embedded остается такой же? У суперсет насколько я понимаю embeded достаточно ограничен

  • @Jealosy-fu3kj
    @Jealosy-fu3kj Месяц назад

    Уже вторая половина 2024, где open source))

  • @maximsenin2641
    @maximsenin2641 Месяц назад

    Суперсет - огонь!

  • @gabordugov
    @gabordugov Месяц назад

    послушал, сложилось впечатление, что все по сути озвучили, что проблемой найма является дефицит высококвалифицированных низкооплачиваемых специалистов. Но выходы почему то все пытаются найти где-то в нематериальной стороне

  • @mikhaillermontov8228
    @mikhaillermontov8228 Месяц назад

    что за журнал ВАК в части DE ?

  • @ivansimkin1380
    @ivansimkin1380 Месяц назад

    Катя молодчина, в цель с правдой в резюме. Реально нет гиперсложных технологий, но поняв как хорошо кандидат знает то, что он написал в резюме, получается полный портрет. Кажется, что только с помощью резюме можно максимально быстро понять когнитивный потенциал и мотивацию.

  • @alexeyandreevich4115
    @alexeyandreevich4115 Месяц назад

    HR неприятное впечатление оставляет, понты понтами с "международной компанией" и из релокантов-соевиков в Грузии и Армении

    • @AntonBukreev
      @AntonBukreev Месяц назад

      так а многие так выглядят "международные компании"

    • @alesyuzefovich115
      @alesyuzefovich115 Месяц назад

      Если кто то, видя слова "международная компания", сам для себя читает это как "транснациональная корпорация", то что ж тут скажешь, кроме как читать внимательнее и не домысливать

  • @bananasba
    @bananasba Месяц назад

    Ниочем

  • @alesyuzefovich115
    @alesyuzefovich115 Месяц назад

    Отличный доклад! Ну, первая половина, за что спасибо Александру! Ну а вторая - ммм, больше про хохотнуть с метафор) ну и самый первый довод, где с гордостью было заявлено про то, что человек мыслит бинарно... Ох, спасибо, но нет 😅

  • @drillman86
    @drillman86 Месяц назад

    2023?

  • @illiakaltovich
    @illiakaltovich Месяц назад

    Презентация отдает 404. Поправьте, пожалуйста

    • @SmartDataConf
      @SmartDataConf Месяц назад

      Здравствуйте, спасибо, что сообщили! Поправили ссылку на презентацию 🙃

  • @sshks10
    @sshks10 Месяц назад

    Все четко !

  • @olegrozum4630
    @olegrozum4630 2 месяца назад

    elt on spark ? did you hear about informatica or similar products?

  • @olegrozum4630
    @olegrozum4630 2 месяца назад

    It's stupid to write etl with select * from table and then with a wise face prove different life hacks of consequences resolution 😂

  • @alesyuzefovich115
    @alesyuzefovich115 2 месяца назад

    Спасибо! Классный доклад

  • @user-pv8dx4kb6n
    @user-pv8dx4kb6n 2 месяца назад

    Крутейший проект, странно что так мало интереса

  • @user-hs2qu9hz9c
    @user-hs2qu9hz9c 2 месяца назад

    Интересно почему всё не на YTsaurus сделали вместо ГП? И можно ли сейчас делать детальный слой на YTsaurus

  • @paulfunigga
    @paulfunigga 2 месяца назад

    Я предпочитаю spark+trino+iceberg для data lakehouse

  • @map3uk
    @map3uk 2 месяца назад

    спасибо за доклад, а чем библиотека astronomer cosmos для связки Airflow + dbt не подошла?)

    • @ilsaffff
      @ilsaffff 2 месяца назад

      ты про то что они использовали BashOperator вместо DbtOperator из либы cosmos?

  • @eugenebazhin8204
    @eugenebazhin8204 2 месяца назад

    Господи, какая ужасная не поставленная речь. Друзья вы хоть консультантов нанимайте, филологов.

  • @thghtfl
    @thghtfl 2 месяца назад

    Метрики не усложнились, они всегда были сложными. Как ты оценишь эффективность наружной рекламы, которая существует уже очень давно? Люди будут ходить мимо нее и сегодня, завтра, и через год. И бизнес понимает это и допускает в подобного рода данных какой-то уровень неопределенности. Но он точно не будет сидеть 50 лет и ждать, когда к нему дойдут все события, он подпишется на какой-то контракт, как ты и сам сказал. Поэтому график с завершением джобы все еще нагляднее, чем график прихода событий, поскольку он дает тебе понять, что в рамках твоего контракта он до тебя данные довел.

  • @denismasalsky6798
    @denismasalsky6798 2 месяца назад

    крч данные могут меняться, а в особенности продуктовые метрики, которые меняются долго. Поэтому нужно вводить на данные контракты. Нужно для того чтобы не вызывать иллюзии полноты данных у аналитиков и топ менеджмента

  • @gzhegow
    @gzhegow 2 месяца назад

    Как вы заебали со своей метафизикой. Полчаса искал что-то что перевернет мой взгляд, нашел только трепло которое наплело контекстов и выступило на сцене. Хочешь преподавать - преподавай лично. Хочешь заработать - выходи на сцену.

  • @Ptfndr_brz
    @Ptfndr_brz 2 месяца назад

    Максим - прекрасный рассказчик, спасибо за доклад. Первые 10 минут не перематывайте - весьма занимательно и позволяет целиком окунуться в проблематику

  • @SergiusBfg
    @SergiusBfg 2 месяца назад

    Первые 10 минут ни о чем... Перематываем

    • @thghtfl
      @thghtfl 2 месяца назад

      точно, собрал какую-то солянку из посторонних тем

  • @sql-ninja
    @sql-ninja 2 месяца назад

    шикааарно! спасибо ^__^

  • @prosto7586
    @prosto7586 3 месяца назад

    фирменное "ихние"😄

  • @glebbondarenko67
    @glebbondarenko67 3 месяца назад

    я не понял причину следственную связь: нет транзакций == теряются данные я представляю что транзакции нужны если ты записываешь несколько связанных сущностей одной операцией. Я так понимаю это не тот случай тогда остается вариант что может репликация там несинхронная Поясните пожалуйста что имело ввиду.

  • @user-fv2qi7ce5w
    @user-fv2qi7ce5w 3 месяца назад

    Классный доклад, с множеством технических деталей и честностью/откровенностью!

  • @JIJI-zv1qp
    @JIJI-zv1qp 3 месяца назад

    а перенос данных из вашего postgres в greenplum делаете через airbyte?