Мне всегда интересно продолжение. Ваши уроки помогают решить некоторые мои задачки по парсенгу. Вот и сейчас я смог применить ваш пример в своем коде. Спасибо за огромный труд!!!
Благодарю, очень хороший ролик. Много твоих видео помогли мне в работе с написанием кода на python. Крепкого здоровья и ждем как всегда новых роликов уважаемый!
идеи для видео 1) виды блокировок вас сервером при парсинге 2) как парсить на домашнем пк, чтобы не быть забаненым? 3) как бюджетно парсить с сервера? как выбрать сервер, позволяющий парсить (конторы которых парсят будут жаловаться) 4) где взять халявные прокси и как этим пользоваться
На ютубе есть канал конторы, которая зарабатывает исключительно на парсинге. Они говорят, что если нужно качество и стабильность результата, то всегда обратятся к ним, а не левому фрилансеру, который не знает как использовать прокси и выделенный сервер.
Вместо того чтобы искать товары и затем руками выставлять фильтры, можно использовать Selenium, чтобы автоматически щёлкать на нужные фильтры, как это делает обычный пользователь Для нахождения нужных элементов фильтра можно использовать соответствующий XPath, class или id элемента, чтобы Selenium мог их найти
Для product_name можно попробовать использовать метод get_text(strip=True). Для параметра сортировки можно использовать либу urllib и с помощью нее сразу передавать название товара и порядок сортировки
я бы предложил искать толькл через xpath локаторы. например лучше искать ссылки не просто через указание клаасса в аттрибутах, а еще и передать, что это должен быть тег "а". избавит от лишних данных и мусора
какой именно тип парсинга? Не очень понятно, что вы имеете ввиду. Если забирать данные о первых 10 товарах из выдачи озон? То там все просто - это нужно сейлерам ( продавцам ), что бы понимать есть ли в выдаче их товары, или о том, какие товары в топе выдачи и с какой ценной, или ориентироваться на их цену, выставляя свою и т.д.
Первое: вам надо добавить в пакеты setuptools. Ну и заодно добавить его в команду пип инсталл начиная с python 3.12 distutils удалили из стандартной библиотеки и у пользователей будет вылетать ошибка Module Not Found Error No module named distutils
Четвертое: вы весь проект делаете в venv. А пользователям про это ничего не сказали. Там всего 2 команды для этого, но некоторые могут запутаться. Пятое, оно же последнее: вы бы в конце показали пользователям, как убрать появление браузера и как перевести его в полностью невидимый режим (headless). Окно браузера с самодвигающейся мышкой - для тестов очень даже неплохо и часто нужно. Но для реальной работы - скрипт должен в фоне там шуршать незаметно, а пользователь сидит за компом и занимается своими делами. А в этом варианте пользователь будет сидеть и грустно смотреть на занятый скриптом комп. Смысл ему от такой автоматизации? Но даже несмотря на всё вышеперечисленное - видео, повторюсь, полезное. Многим новичкам и не только - зайдет на ура. И мне зашло ) Спасибо. Жду новых видео про парсинг.
каждый раз когда слышу средствАми"", кажеться, чсто сейчас будут говорить про смену финансового номера и заблокированные карты))))) А так хорошее видео))
стесняюсь спросить ...а сколько времени понадобилось чтобы стянуть 10 товаров? Не меньше минуты... Минута! бро! на 10 карточек! а ресов селениум при этом жранул не хило так
Недавно смотрел видео где схожую задачу на мегамаркете решали через реверс апи запросов, то есть скрипт опирался на api, почему делается именно через GUI скрипты?
У меня уже пол года - год как не работает undetected_chromedriver. Выдает ошибку, у всех все впорядке с ним? Без него не могу запустить хром со своим профилем и расширениями, что создает проблему при парсинге. 1) Подскажите у всех ли работает эта библиотека? 2) может есть другой способ запустить хром драйвер чтобы открывался хром с моим профилем и установленными активными расширениями хром
Пару лет назад, когда начал интересоваться Пайтоном, начал писать парсер комментариев с озона для одной своей идейки, но пока писал необходимость отпала. Так и не дописал((
Я совершенно ничего не понимаю в веб, объясните, почему используются полные версии страниц, а не их html? Можно ли с такой программой фоном работать, чтобы несколько скриптов одновременно работали?
не понял про полную версию страниц. есть несколько вариантов рендеринга информации на странице: client-side и server-side. в случае сервер сайд рендеринга страница подностью формируется и наполняется данными на стороне сервера и когда клиент делает запрос на страницу, то получает ее полностью, включая все данные. в случае клиенского рендеринга, на сервере формируется шаблон страницы с базовой структурой, после этого отправляется этот полу пустой шаблон и пачка джава скрипт файлов. когда юзер запрашивает страницу, то получает и шаблон и начинают выполняться скрипты по загрузке данных. если при парсинге делать только гет запрос на html, то в случае клиент сайд рендеринга получишь страницу без данных. для этого и используется селениум, который запускает отдельную версию браузера, чтобы тот все отрендерил и уже после рендера достал данные. фоном можно, зависит от ресурсов железа, на котором запускается скрипт. каждый инстанс браузера жрет допустим 300мб. вообще хз зачем я это пишу, когда любые вопросы можно задать чату жпт. больше не буду)
Проблема такой реализации - тебя настигнет капча, неприменно. Я бы на твоем месте как минимум парсил каждый отдельный товар, загрузив страницу через requests. А вообще по красоте было бы действительно разобраться в том как формируется поисковая строка (можно ручками открыть сразу несколько результатов поиска и посмотреть что общего у этих запросовв ссылке)
наверно глупая проблема, но все же. пробую написать кое что с помощью selenium и chrome, но при запуске кода он ничего не делает, т.е. не открывается браузер, ничего. с настройкой selenium это вроде не связано, т.к. драйвер есть, путь до него указан верно и все остальное правильно. может кто знает в чем проблема, пробовал искать в инете, ничего не помогло
Не представляешь как ты вовремя. У меня через пару дней будет тестовое задания для устройства на работу парсер для маркетплейсов. А тут ты с роликом. Я голову ломал как работать с динамично изменяющимися тегами и класами
потому что работать в дальнейшем удобнее либо с json либо с xls файлом, в большинстве случаев данные идут дальше для вывода где-то в дашборде или анализе цен, например. Тут больше от задачи, можно и в ворд и картинкой
Подобная регулярка разве не сработает? r"\s*" Или r"\b\[w+ !?.,]\b" с добавлением нужных символов. По факту должен найти слова с пробелом и остальными символами, от пробела до пробела
Тоже теряюсь в догадках. У меня одно объяснение, что парсить озон это просто как пример. Больше чем для курсовых работ студентам или для тестирования при приеме на работу я не нахожу в этом пользы.
Почему все программисты делают ударения не там, где нужно? Меня давно интересует этот вопрос. Они все говорят "стрОку", вместо "строкУ". А в этом видео автор пошел дальше. Вместо "удобной средЫ" у него "удобная срЕда"
@@МишокЧинил я не совсем понимаю, на какой вопрос нужно дать ответ. Почему маркетплейсы так делают или почему нет смысла парсить 100 разных ценников на один и тот же товар?
аналитика продавца, судя по тому что тут требуется именно выда из поисковой строки, и первые десять, ценик нужен что бы сопаставить со своим, если такие товары у продавца есть.
тоже столкнулся с такой ошибкой. Она возникает, потому что в Python 3.10 и выше данную библиотеку удалили из стандартных библиотек. Попробуй обновить или установить setuptools мне помогло.
Боже. Я думал почему у меня завершался сам по себе скрипт на селениуме, когда я автоматизировал отработку проект. Работал в авг около 4 часов в худшем случае и падал, а автор говорит, что у него с ожиданием от селениума тоже падает. ХМ
потому что в браузерном апи, тебя блокнут по tls-fingerprint, и обычному фингерпринту. топовые парсеры озонов и прочих, работают с мобильным апи, но как писать такие парсеры, никто никогда не раскажет, ибо это и есть самый прибыльный хлеб разработчиков.
Вы серьезно? я вам оставил развернутый комент про 5 ошибок в вашем скрипте и вы его сразу снесли? Вы ж сами просите - "помогите. исправьте. напишите в коментах"
@@PythonToday не, это нереально. я уже полчаса сижу пытаюсь это отправить - оно сразу моментально удаляется. я уже и цитаты кода максимально заменил и сократил - всё равно. Ну ил ладно. Странно. Под видео о коде нельзя писать код... Вот это они перегнули с защитой.
Цена до скидки не имеет значения, там ставится цифра от болды лиж бы была выше цены для покупателя. Тупо маркетинг. Говорю как продавец на ОЗОН ))) Все данные можно было собрать на странице товаров, цена, название, рейтинг, кол-во отзывов и не подгружать отдельно каждый товар. Ваши уроки всегда интересны и познавательны, смотрю уже несколько лет.
чей заработок? Если автора, - то в выполнении заказа по написанию скрипта для парсинга. ЕСли заказчика, то скорее всего он продавец, и ему нужно вытягивать информацию для каких-то своих целей. В ручную он тратит на это кучу времени, проще автоматизировать. И да топовые и быстрые парсеры макретплейсов стоят дофига и пользуются достаточно большим спросом.
озон, как и яндекс, а теперь как и вайлдериз - подконтрольные государству площадки и заработать там не удастся, т.к. где государство наложило свою руку - там будет деградация. Почему спустя годы, автор всё так и остался на уровне парсеров страниц в интернете? Где мотивирующие ролики по обходу блокировок, создание чего-то уникального....у вас же и так уже куча роликов про парсеры и боты вк...пора расти дальше, а не питаться постоянно молоком. дизлайк.
Не хочется токсичить но соглашусь, парсеры это не так то и уровень программирования, собирать инфу... Ну такое. Вот создать сервис какой то полезный, объяснить простыми словами, вот дело
Подскажите, пожалуйста, а как это можно исправить? Писал парсер для сайта "зоозавр" такая же проблема была, что названия элементов часто менялись, чуть ли не каждый день
кстати не понял прикола, что многие парсеры маскируются под запросы с моб приложения. единственное что приходит на ум - там нет куки и проще авторизация
@@_test_test в 90% случаев там открытое API, т.е данные получаешь в JSON. Если не отдает данные, запускаешь frid'у, обходишь ssl pinning и получаешь желанный доступ к api
Нельзя так скачать библиотеку, запустить скрипт пойти попить чайку, а по приходу обнаружить: что взял все виды импотек, продал всю недвижку, и задонатил все бабки ВСУ и оформил заказ на прекурсы на свой домашний адрес? 😂
Мне всегда интересно продолжение. Ваши уроки помогают решить некоторые мои задачки по парсенгу. Вот и сейчас я смог применить ваш пример в своем коде. Спасибо за огромный труд!!!
Человечище, спасибо!! Очень ждал данную тематику! Спасибо что ты так здорово подаешь инфу!
Большое спасибо за поддержку!
Благодарю, очень хороший ролик. Много твоих видео помогли мне в работе с написанием кода на python. Крепкого здоровья и ждем как всегда новых роликов уважаемый!
вот прям недавно вспоминал про твои старые видосы про парсинг и тож думал про озон, а тут видос целый, спасибо!
Всегда с удовольствием смотрю твои ролики, очень интересно, а главное понятно объясняешь. Спасибо тебе за труд!
Большое спасибо за твой труд и что делишься своим опытом. Будь здоров!
Ждём продолжения. И успехов в делах!
Умный человек это делал. Мне до его навыков далеко... Благодарю за видео и за вашу работу!
идеи для видео
1) виды блокировок вас сервером при парсинге
2) как парсить на домашнем пк, чтобы не быть забаненым?
3) как бюджетно парсить с сервера? как выбрать сервер, позволяющий парсить (конторы которых парсят будут жаловаться)
4) где взять халявные прокси и как этим пользоваться
На ютубе есть канал конторы, которая зарабатывает исключительно на парсинге. Они говорят, что если нужно качество и стабильность результата, то всегда обратятся к ним, а не левому фрилансеру, который не знает как использовать прокси и выделенный сервер.
Огромное спасибо сенсей, благодаря тебе научился парсить!
Конечно ждем продолжения видео про Парсинг🤠
благодарю за труд и что помогаешь в ознакомлении с питоном
Очень интересное видео! Конечно же жду продолжение!))
Вместо того чтобы искать товары и затем руками выставлять фильтры, можно использовать Selenium, чтобы автоматически щёлкать на нужные фильтры, как это делает обычный пользователь
Для нахождения нужных элементов фильтра можно использовать соответствующий XPath, class или id элемента, чтобы Selenium мог их найти
Продолжайте, как раз нужная тема!
Подскажи пожалуйста, почему сайт при проверке на бота не банит тебя и не подсовывает капчу? это из-за библиотеки undetected chromedriver?
Круто, жду продолжения!=))
Как в тему это видео!! Как раз хотел решить задачу по парсингу отзывов с определенной карточки, у меня упорно через селениум не выходило)
спасибо! тема конечно интересна! ждем продолжения!
Хочу и жду продолжения!)
Зачем вы используете селениум для озона, если у них есть api?
Ссылку на апи пожалуйста. Нашел только АПИ для селлеров.
А зачем парить артикул из страницы, если его можно из url-товара гораздо проще достать?
Как вариант развития, параллельно парсить несколько вкладок, чтобы снизить время работы
И улететь в бан по ip за частые запросы)
ждем продолжение)
Спасибо за интерес!
Для product_name можно попробовать использовать метод get_text(strip=True). Для параметра сортировки можно использовать либу urllib и с помощью нее сразу передавать название товара и порядок сортировки
Отличный урок👍🏻
я бы предложил искать толькл через xpath локаторы. например лучше искать ссылки не просто через указание клаасса в аттрибутах, а еще и передать, что это должен быть тег "а". избавит от лишних данных и мусора
Автор начал использовать рефакторинг 👍👍👍👍
Прошу обновить плейлист по парсингу! По requests ещё более-менее, а вот по selenium очень сильно устарела информация.
Спасибо за интересное видео!
Круто, очень интересно 👍
Поздравляю , вы написали самый медленный парсер.
Можно написать на Delphi (или C++), с многопоточностью и прокси. Кому надо - тот додумается)
Рекомендую попросить налоговую, хорошее развлечение :) хотя у них есть API но стоит оно неадекватно
Очень круто, спасибо! Асинхронная версия будет?
А для каких конкретных целей нужен данный тип парсинга?
Скидки искать на определённый товар. Можно отстук в телегу сделать, когда найдёт.
какой именно тип парсинга? Не очень понятно, что вы имеете ввиду.
Если забирать данные о первых 10 товарах из выдачи озон? То там все просто - это нужно сейлерам ( продавцам ), что бы понимать есть ли в выдаче их товары, или о том, какие товары в топе выдачи и с какой ценной, или ориентироваться на их цену, выставляя свою и т.д.
@@darktmdarkness6952 у продавцов ОЗОН в личном кабинете есть возможность проверять на какой позиции их товар
Ребята, спасибо за ваше видео. Очень интересное.
Есть пару замечаний, тем более, вы сами попросили - кто знает - помогайте, оставляйте коменты.
Первое: вам надо добавить в пакеты setuptools. Ну и заодно добавить его в команду пип инсталл
начиная с python 3.12 distutils удалили из стандартной библиотеки и у пользователей будет вылетать ошибка
Module Not Found Error No module named distutils
вобщем, я вам 3 пул реквеста добавил на гитхабе. тут постить код бесполезно. они сносят его за секунду.
Четвертое: вы весь проект делаете в venv. А пользователям про это ничего не сказали. Там всего 2 команды для этого, но некоторые могут запутаться.
Пятое, оно же последнее: вы бы в конце показали пользователям, как убрать появление браузера и как перевести его в полностью невидимый режим (headless). Окно браузера с самодвигающейся мышкой - для тестов очень даже неплохо и часто нужно. Но для реальной работы - скрипт должен в фоне там шуршать незаметно, а пользователь сидит за компом и занимается своими делами. А в этом варианте пользователь будет сидеть и грустно смотреть на занятый скриптом комп. Смысл ему от такой автоматизации?
Но даже несмотря на всё вышеперечисленное - видео, повторюсь, полезное. Многим новичкам и не только - зайдет на ура.
И мне зашло )
Спасибо. Жду новых видео про парсинг.
каждый раз когда слышу средствАми"", кажеться, чсто сейчас будут говорить про смену финансового номера и заблокированные карты))))) А так хорошее видео))
стесняюсь спросить ...а сколько времени понадобилось чтобы стянуть 10 товаров? Не меньше минуты... Минута! бро! на 10 карточек! а ресов селениум при этом жранул не хило так
Для чего это может пригодиться?
Ага, вот и я посмотрел тоже и сижу такой
🗿
@@leitonk23 если тебе это не надо, то не значит, что никому не надо)
Недавно смотрел видео где схожую задачу на мегамаркете решали через реверс апи запросов, то есть скрипт опирался на api, почему делается именно через GUI скрипты?
Спасибо очень полезно!
Непонятно, в чем заработок?
Лучше курс по анализу данных на степике за 3 рубля 😊
Я, честно, не понимаю, почему, при существовании такой удобной библиотеки, как Playwright, люди продолжают использовать Selenium.
Как минимум потому, что озон блокирует последний месяц Playwright, во всякой случае мои парсеры. Вы пробовали сами?
Я даже и не знал о такой библиотеке, селениум надежен и проверен временем 👍
Думал как раз пересмотреть свой код на playwright
Дружище, как я тебя понимаю.
Использовать до сих пор селениум, это быть позорником в it
Обойти подобные блокировки не составляет особого труда. Слава богу fingerprint с этим помогает
у меня как то странно работает, запускаю 1 раз находит 10 ссылок, запускаю 2 раз находит 8 ссылок, 3 раз 12 ссылок и каждый раз по разному
У меня уже пол года - год как не работает undetected_chromedriver. Выдает ошибку, у всех все впорядке с ним? Без него не могу запустить хром со своим профилем и расширениями, что создает проблему при парсинге. 1) Подскажите у всех ли работает эта библиотека? 2) может есть другой способ запустить хром драйвер чтобы открывался хром с моим профилем и установленными активными расширениями хром
почему когда открываю файл с данными там просто скобочки
Пару лет назад, когда начал интересоваться Пайтоном, начал писать парсер комментариев с озона для одной своей идейки, но пока писал необходимость отпала. Так и не дописал((
У меня другой вопрос. Как питон может быть связано с пентестом?
Скажи фразу с которой понятно что ты айтишник:
скрайпер перегрузил мой самый быстрый ноут.
Я совершенно ничего не понимаю в веб, объясните, почему используются полные версии страниц, а не их html? Можно ли с такой программой фоном работать, чтобы несколько скриптов одновременно работали?
не понял про полную версию страниц. есть несколько вариантов рендеринга информации на странице: client-side и server-side. в случае сервер сайд рендеринга страница подностью формируется и наполняется данными на стороне сервера и когда клиент делает запрос на страницу, то получает ее полностью, включая все данные. в случае клиенского рендеринга, на сервере формируется шаблон страницы с базовой структурой, после этого отправляется этот полу пустой шаблон и пачка джава скрипт файлов. когда юзер запрашивает страницу, то получает и шаблон и начинают выполняться скрипты по загрузке данных. если при парсинге делать только гет запрос на html, то в случае клиент сайд рендеринга получишь страницу без данных. для этого и используется селениум, который запускает отдельную версию браузера, чтобы тот все отрендерил и уже после рендера достал данные. фоном можно, зависит от ресурсов железа, на котором запускается скрипт. каждый инстанс браузера жрет допустим 300мб. вообще хз зачем я это пишу, когда любые вопросы можно задать чату жпт. больше не буду)
Очень хороший код
Проблема такой реализации - тебя настигнет капча, неприменно.
Я бы на твоем месте как минимум парсил каждый отдельный товар, загрузив страницу через requests. А вообще по красоте было бы действительно разобраться в том как формируется поисковая строка (можно ручками открыть сразу несколько результатов поиска и посмотреть что общего у этих запросовв ссылке)
у меня такая ошибка при запуске TypeError: Binary Location Must be a String, видимо не видит где хром установлен
эту победил а вот эту не могу UnboundLocalError: cannot access local variable 'products_urls' where it is not associated with a value
наверно глупая проблема, но все же. пробую написать кое что с помощью selenium и chrome, но при запуске кода он ничего не делает, т.е. не открывается браузер, ничего. с настройкой selenium это вроде не связано, т.к. драйвер есть, путь до него указан верно и все остальное правильно. может кто знает в чем проблема, пробовал искать в инете, ничего не помогло
Не представляешь как ты вовремя. У меня через пару дней будет тестовое задания для устройства на работу парсер для маркетплейсов. А тут ты с роликом. Я голову ломал как работать с динамично изменяющимися тегами и класами
нейросети просто существуют
Знаете нейросети которые решают такие задачи?)
Я просил Llama 3.1 написать парсер
Сделала, но косячно как-то
Пришлось в ютубе искать
И ваше видео как вовремя)
@@PythonToday ChatGPT не смог собрать отзывы)
Вот так всегда, пишешь проги и знаешь как это делается - нет клиентов, а тут у чела уже есть работа почти а он хз с какого края подойти...
У меня не работает Undetect_chromedriver, может из-за версии пайтона 3.12? P.S. За скрипт скроллинга отдельный респект.
Подскажите, пожалуйста, кому может понадобится этот парсер на пайтоне?
тому, кто готов за это платить
Почему в json файл? А можно в обычный вордовский док. записать данные?
потому что работать в дальнейшем удобнее либо с json либо с xls файлом, в большинстве случаев данные идут дальше для вывода где-то в дашборде или анализе цен, например. Тут больше от задачи, можно и в ворд и картинкой
да хоть в мп3 лол
Подобная регулярка разве не сработает? r"\s*"
Или r"\b\[w+ !?.,]\b" с добавлением нужных символов. По факту должен найти слова с пробелом и остальными символами, от пробела до пробела
А есть парсер Яндекс маркета?
Python знаю, как написать парсер - знаю, не знаю главного - нахрена? 😅 Хоть не в тему программирования, но как на этом можно заработать?
Вот мне тоже это интересно. Гуру программирования, подскажите, как вы зарабатываете на этом?
Тоже теряюсь в догадках. У меня одно объяснение, что парсить озон это просто как пример. Больше чем для курсовых работ студентам или для тестирования при приеме на работу я не нахожу в этом пользы.
Действительно, зачем это всё нужно? Если хочу что-то купить подешевле то есть фильтры, если продать то теги.
Например одни продавцы мониторят цены других продавцов, что бы вовремя скорректировать свои )
@@SeoLemma это можно штатными фильтрами делать
Можете подсказать как можно сделать на vscode такой же терминал как у автора
У автора тоже vscode))
Ты же можешь любой терминал поставить и настроить его дефолтным
Скорее всего это кастомизированный zsh
ozon отдает json прямо в html странице, нужно просто указать куки и хедерсы. зачем для этого использовать драйвер?
можно по подробнее ?
Numpy произносится "нам-пай".
а где ты получаешь заказы ?
какая платформа ?
Не проще api заюзать?
Почему все программисты делают ударения не там, где нужно? Меня давно интересует этот вопрос. Они все говорят "стрОку", вместо "строкУ". А в этом видео автор пошел дальше. Вместо "удобной средЫ" у него "удобная срЕда"
Братан я за тебя
На коком языке написано приложение озон для андроида ? Кто знает?
не совсем понимаю, какой смысл парсить озон(и другие маркетплейсы), если на один и тот же товар для нескольких аккаунтов цифры будут различаться?
это почему?
@@МишокЧинил я не совсем понимаю, на какой вопрос нужно дать ответ.
Почему маркетплейсы так делают или почему нет смысла парсить 100 разных ценников на один и тот же товар?
аналитика продавца, судя по тому что тут требуется именно выда из поисковой строки, и первые десять, ценик нужен что бы сопаставить со своим, если такие товары у продавца есть.
Я конешно не знаю но как меня учили работать с селениумом ты все обворачивпешь в трай экзепт и в файнали пишишь драйвер клос
Может автор создаст дс серв кстати?
Как устранить оишбку?
ModuleNotFoundError: No module named 'distutils'
тоже столкнулся с такой ошибкой. Она возникает, потому что в Python 3.10 и выше данную библиотеку удалили из стандартных библиотек. Попробуй обновить или установить setuptools мне помогло.
А установить её никак самостоятельно?
Она входит в setuptools, поэтому достаточно просто установить/обновить setuptools.
Друг, у тебя в описании написано "пупулярный"
все правильно. "популярный" - от "попа", "пупулярный" - от "пуп".
@@yagohush7414😂
Привет, можешь помочь нам? Разработать автоподнятие на сайте Фарпост( доска объявлений). Как можно с вами связаться через соц. Сети?
Напишите мне, помогу
Боже. Я думал почему у меня завершался сам по себе скрипт на селениуме, когда я автоматизировал отработку проект. Работал в авг около 4 часов в худшем случае и падал, а автор говорит, что у него с ожиданием от селениума тоже падает. ХМ
Последнее условие можно не писать. И так будет работать
здесь RPA очень бы пригодился
Зачем это все ? Когда есть гпт !
Чет медленно, а что можно использовать для более быстрого парсинга?
предполагаю - многопоточность
Не пойму для чего вообще нужны парсеры, если на самом сайте существует поиск товаров и то, что нужно можно быстро найти?
Чтобы можно было создать таблицу с инфой по товарам, с чем дальше можно работать, формируя свое предложение
мне нужен такой же только для яндекс маркет
лайк если орнул с юзера "kali"
Как отзывы выттягивать?
Так же само.
@@СергейШульга-ю5ю Есть "так же", есть "то же самоЕ". А то, что вы все в одно смешали - это ужас
@@СергейШульга-ю5ю дай ссылку на свой github с кодом
@@СергейШульга-ю5юне получилось
Что такое парсинг?
После 2 ой минуты я устал ржать и ушел
мне не хватило в начале контекста, почему не забрать данные по апи
потому что в браузерном апи, тебя блокнут по tls-fingerprint, и обычному фингерпринту.
топовые парсеры озонов и прочих, работают с мобильным апи, но как писать такие парсеры, никто никогда не раскажет, ибо это и есть самый прибыльный хлеб разработчиков.
@@darktmdarkness6952а в чем проблема? Вытащить из андроид приложения апи?
Вы серьезно? я вам оставил развернутый комент про 5 ошибок в вашем скрипте и вы его сразу снесли?
Вы ж сами просите - "помогите. исправьте. напишите в коментах"
Комменты не удаляю, у ютуба ведь свой фильтр. Видимо что-то не понравилось :/
@@PythonToday может быть. там были куски с кодом - может вирусом посчитал...
попробую тогда еще раз )
@@PythonToday не, это нереально. я уже полчаса сижу пытаюсь это отправить - оно сразу моментально удаляется. я уже и цитаты кода максимально заменил и сократил - всё равно. Ну ил ладно. Странно. Под видео о коде нельзя писать код... Вот это они перегнули с защитой.
@@PythonToday Я вам 3 пул реквеста на гитхабе отправил. посмотрите, что я имел в виду.
Вроде Ютуб трет комменты где хеш есть похожий на id видео Ютуба. По крайней мере сам это замечал
Почему в видео, как заработать миллион, рекламируют курсы за 1т.р.? Хотя, о чем это я.. 😅
Диверсификация
Комментарий под видео
Цена до скидки не имеет значения, там ставится цифра от болды лиж бы была выше цены для покупателя. Тупо маркетинг. Говорю как продавец на ОЗОН )))
Все данные можно было собрать на странице товаров, цена, название, рейтинг, кол-во отзывов и не подгружать отдельно каждый товар.
Ваши уроки всегда интересны и познавательны, смотрю уже несколько лет.
А для чего вообще нужно парсить маркетплейс? Может кто рассказать в чём тут заработок? 🙄
чей заработок? Если автора, - то в выполнении заказа по написанию скрипта для парсинга. ЕСли заказчика, то скорее всего он продавец, и ему нужно вытягивать информацию для каких-то своих целей. В ручную он тратит на это кучу времени, проще автоматизировать. И да топовые и быстрые парсеры макретплейсов стоят дофига и пользуются достаточно большим спросом.
озон, как и яндекс, а теперь как и вайлдериз - подконтрольные государству площадки и заработать там не удастся, т.к. где государство наложило свою руку - там будет деградация. Почему спустя годы, автор всё так и остался на уровне парсеров страниц в интернете? Где мотивирующие ролики по обходу блокировок, создание чего-то уникального....у вас же и так уже куча роликов про парсеры и боты вк...пора расти дальше, а не питаться постоянно молоком. дизлайк.
Не хочется токсичить но соглашусь, парсеры это не так то и уровень программирования, собирать инфу... Ну такое. Вот создать сервис какой то полезный, объяснить простыми словами, вот дело
все изучите на курсе яндекса, но работу не найдете))
Бесполезный парсер, быстро перестанет работать потому что озон часто меняет структуру и названия html элементов, + очень медленный
Подскажите, пожалуйста, а как это можно исправить? Писал парсер для сайта "зоозавр" такая же проблема была, что названия элементов часто менялись, чуть ли не каждый день
@@NHL4по элементу в массиве а не по имени его вызывать и все
аттрибуты динамичные - это да, но вот структура то та же самая) можно использовать xpath и идти по индексам вглубь
А с приложения api не даёт?
Чекнул. Там apk, над поковырять, разобрать генерации заголовков
кстати не понял прикола, что многие парсеры маскируются под запросы с моб приложения. единственное что приходит на ум - там нет куки и проще авторизация
@@_test_test в 90% случаев там открытое API, т.е данные получаешь в JSON. Если не отдает данные, запускаешь frid'у, обходишь ssl pinning и получаешь желанный доступ к api
На озоне столько роботов...и выкупают кучу всего...плохо что магазин не борется против роботов..им плевать..
Если плкупают - хорошо, остальное плевать. Я б также глаза закрыл на это, выгодно ж)
зачем нам это нужно не подскажите?
парсинг товаров
Вместо print лучше используй logging
Разницы почти никакой, но это хороший тон, и показывает твой профессионализм
Нельзя так скачать библиотеку, запустить скрипт пойти попить чайку, а по приходу обнаружить: что взял все виды импотек, продал всю недвижку, и задонатил все бабки ВСУ и оформил заказ на прекурсы на свой домашний адрес? 😂