Бизнес на Парсинге Данных: Подробное Руководство. 47 советов из опыта.

Поделиться
HTML-код
  • Опубликовано: 4 июн 2024
  • Еще больше и чаще пишу в канал t.me/bezsmuzi - подписывайтесь.
    Рассказываю о том, как можно зарабатывать 5 млн. в месяц на парсинге сайтов и как построить на этом свой бизнес. Делюсь нашим опытом.
    00:00:00 Введение в парсинг
    • Автор рассказывает о своем опыте в парсинге, начиная с 2019 года, когда он и его команда начали заниматься этим бизнесом.
    • Они зарабатывают на этом около 40-60 миллионов рублей в год, обслуживая клиентов из России, Беларуси и Казахстана.
    00:04:48 Инструменты и источники данных
    • Парсинг выполняется на стеке дотнет, питоне и других языках программирования.
    • Основные источники данных - интернет-магазины, маркет-плейсы, ЦИАН, ДомКлик и другие.
    00:09:38 Подводные камни парсинга
    • Защита сайтов от парсинга, капчи и другие сложности.
    • Парсинг не дешев, но обеспечивает качество данных.
    00:10:38 Архитектура парсера
    • Парсер пишется с чистого листа, без шаблонов и решений.
    • Поддержка парсера осуществляется командой программистов, которые адаптируются к новым задачам и изменениям на сайтах.
    00:11:18 Хранение и выгрузка данных
    • Парсеры собирают данные, выгружают их на облако, где клиенты могут забрать их вручную или через API.
    • Парсеры не хранят данные, так как это физически невозможно для тысяч сайтов в день.
    00:12:54 Оценка качества работы и блокировка ботов
    • Отчеты о работе парсеров приходят на почту, команда поддержки следит за количеством собираемых данных.
    • Парсеры обходят блокировки ботов, используя прокси-серверы.
    00:13:50 Автоматизация и обучение
    • Парсеры автоматизируют мониторинг цен и сбор контента, но не занимаются аналитикой или оценкой правомерности действий.
    • Для парсинга достаточно базовых навыков программирования.
    00:14:45 Ускорение работы и оптимизация хранения данных
    • Парсеры оптимизируют хранение данных, чтобы избежать перегрузки базы данных.
    • Обучение парсингу: начать парсить и учиться на практике.
    00:18:04 Успешные коммерческие проекты
    • Бренд-монитор с выручкой около миллиарда рублей занимается аналитикой тональности и упоминаемости.
    • Парсеры продают данные, а не сам парсинг.
    00:19:31 Тестирование и языки программирования
    • Парсеры тестируют работу парсеров через техническую поддержку и визуальные инструменты.
    • Для парсинга подходят языки программирования, такие как Python.
    00:22:22 Парсинг и его использование
    • Парсинг - это сбор данных с сайтов, не считается незаконным, если не нарушает авторские права.
    • Парсинг может быть использован для анализа данных и создания продуктов на их основе.
    00:24:12 Выбор прокси и задачи парсинга
    • Используются мобильные прокси для обхода защиты сайтов.
    • Задачи парсинга связаны с топовыми ресурсами в каждой сфере (маркетплейсы, строительные магазины, автомобильные сайты).
    00:25:24 Потенциал парсинга для бизнеса
    • Парсинг может приносить регулярный доход для бизнеса.
    • Важно получать регулярные платежи от клиентов.
    00:26:53 Рекомендации по парсингу
    • Не пытайтесь решать задачи за клиента, пусть клиент приходит к вам.
    • Используйте библиотеки для упрощения парсинга, но не делайте его ключевым моментом.
    • Важно не навредить сайту при парсинге и не нарушать авторские права.
    00:29:47 Защита парсера от блокировки
    • Обходить защиту сайта и не нарушать авторские права.
    • Не давать гарантий на качество парсинга.
    00:33:26 Правовые претензии и парсинг
    • Автор рассказывает о том, как компания столкнулась с правовыми претензиями из-за использования товарного знака "Эльдорадо" на своем сайте.
    • Он решил проблему, просто изменив название на "Парсинг Эльдорадо".
    00:34:28 Книги для парсинга и обучение
    • Автор утверждает, что для обучения парсингу достаточно использовать готовые библиотеки и начать парсить сайты.
    • Он также отмечает, что в индустрии парсинга растет конкуренция, но объем рынка остается колоссальным.
    00:35:27 Будущее парсинга
    • Автор считает, что парсинг будет востребован в различных отраслях, и его навыки будут востребованы.
    • Он также упоминает о необходимости нанимать команду программистов и поддерживать серверы для выполнения заказов на парсинг.
    00:36:19 Заключение
    • Автор считает парсинг вечной темой и надеется, что она не станет вне закона в России.
    • Он также отмечает, что зарубежные заказчики продолжают обращаться к его компании, несмотря на ограничения в их странах.
    Наши проекты:
    Защита от скликивания рекламы clickfraud.ru
    Мониторинг цен конкурентов xmldatafeed.com/
    Разработка мобильных приложений notissimus.com/
    Мне можно писать вопросы здесь: t.me/maximkulgin

Комментарии • 34

  • @pafnuteus
    @pafnuteus 21 день назад

    ох, помню, в 2010м году написал парсер для "Бюллютень недвижимости", когда покупал первую квартиру. Новые объявления появлялись каждый день, и нужно было успеть вперед риэлторов. Страшно подумать, писал парсер на Visual Basic Script без всяких регэкспов) Потом делал бота для мамбы (в этот раз на пхп), чтоб вместо меня ходил по женским анкетам. В итоге, нашел жену) точнее, она меня как-бы получается нашла. Inversion of control получился). Эх, чтоб мне тогда не подумать, что из этого можно сколотить бизнес...

  • @Lukaviskys
    @Lukaviskys 4 месяца назад

    Спасибо!

  • @AlexShataev
    @AlexShataev 4 месяца назад +5

    "Библиотеки сами поищете, прокси команда закупает, сервис для решения капчи не помню как называется" 😂 спасибо, очень информативное видео 😂

    • @MaximKulgin
      @MaximKulgin  4 месяца назад +9

      Ну извините - надо жопу оторвать и поработать тоже

    • @user-bw7cn3gu1k
      @user-bw7cn3gu1k 4 месяца назад

      По его мнению вы должны были просто отдать свой бизнес ему ) в благодарность за просмотр.

  • @NikolayServakov
    @NikolayServakov 4 месяца назад

    Самый известный, наверное, успешный коммерческий проект - авиасейлз)

  • @johnconnor632
    @johnconnor632 4 месяца назад

    Вы в защитах акамай забыли упомянуть)

  • @AlexShataev
    @AlexShataev 4 месяца назад

    Подскажите, хороший объём для специалиста, это сколько товаров в сутки на том же я.маркете например? На что ориентироваться примерно?

    • @MaximKulgin
      @MaximKulgin  4 месяца назад

      Ну например 100к в сутки

  • @albor7599
    @albor7599 4 месяца назад +3

    Осталось только курсы на Udemy выложить😊

  • @pafnuteus
    @pafnuteus 21 день назад

    18:10 есть компания Медиалогия (мониторинг эмоциональной оценки). Работал на них одно время, жирные у них клиенты

  • @DreamingDolphing
    @DreamingDolphing 4 месяца назад

    Вот вы говорите нет нейронных сетей, а как вы будете обходить защиту, когда некоторые данные на странице генерируются картинкой или как-то через js генерируются в canvas?

    • @vr29645
      @vr29645 4 месяца назад +1

      а никак. таких заказчиков еще надо поискать, а с учетом того что их мало - смысла инвестировать в сложный мл, полагаю, нет

    • @MaximKulgin
      @MaximKulgin  4 месяца назад

      Верно

    • @MagicMightNew
      @MagicMightNew 4 месяца назад

      Был какой-то зарубежный сайт, где они карточки (чего-то похожего на товары) рендерили в канвас. Вот только у них данные для рендера можно было перехватить)

    • @email9092
      @email9092 4 месяца назад

      такие сайты никто парсить не будет - вывод - в итоге и клиенты с ними полноценно не смогут работать и уйдут. в итоге через время эту защиту сами снимут, так как сами себе делают хуже!

  • @RaleXx85
    @RaleXx85 4 месяца назад +1

    Парсинг - штука неоднозначная.
    Вы в курсе, что многие сайты (напр., торгвые сети) периодически ставят блокировки от парсинга на свои сайты?
    И то, что работало вчера - сегодня работать перестает и никому не нужно (приходится переписывать код заново, обходя блокировки).
    Так что больших денег на этом не заработать. Если покажете хоть один достойный пример - можете кинуть в меня камень.

  • @user-pe8ew9tq8z
    @user-pe8ew9tq8z 4 месяца назад

    У вас есть франч? Я бы купил ваш код парсинга и переписал под 1С ))

  • @SergeyBagretsov
    @SergeyBagretsov 4 месяца назад

    С какой скоростью желательно парсить ап-ру и все-ин?

    • @cherkasA
      @cherkasA 4 месяца назад

      когда то парсил все инструментыру
      было у них тогда около 800 000 товаров
      что бы не банилипарсил в один поток. с применением 100-200 прокси - почти месяц ушел
      выкачивал всё
      характеристики, фото. описания и т.д.

    • @mustizeo760
      @mustizeo760 4 месяца назад

      ​@@cherkasAна каком яп выполнил задачу ?

  • @TheDoartLos
    @TheDoartLos 3 месяца назад

    Можно ли устроиться к вам в компанию? Стек: python

  • @johnconnor632
    @johnconnor632 4 месяца назад

    2gis через мобильное API парсится, прилу снифать надо

  • @ypohut1673
    @ypohut1673 3 месяца назад

    Этот еще надо заказчиков искать чтобы парсинг продать?

  • @vyacheslavs5642
    @vyacheslavs5642 4 месяца назад

    NextCloud?

  • @your-hater
    @your-hater 4 месяца назад

    Снова один и тот же ролик с посылом обо всём и ни о чём.
    Как вообще можно воспринимать человека всерьёз, когда в прошлых роликах он сначала говорит, что контекстная реклама умерла, а потом идёт эту контекстную рекламу размещать. 🤦🏻‍♂️

    • @MaximKulgin
      @MaximKulgin  4 месяца назад

      у нас нет рекламы