Я заметил ещё одну вещь. Нету смысла делать эмуляцию с телефона. Я получил бан по IP и вот что интересного узнал. Если заходить с браузера телефона, то бан также будет действовать, но вот если с приложения Авито зайти, то бана нет. Можно попробовать узнать, какие данные отправляет Авито приложение, если оттуда скопировать все важные headers, то мы сможем реже обходиться сменой IP
Есть 2 типа эмуляции телефона: 1) Простой - парсить мобильную версию сайта m.avito 2) Сложный - парсить api мобильной версии Первый неинтересно, второй хороший и позволит увеличить скорость в некоторых местах, но увеличит баны по IP + сложнее в реализации и чаще нужно будет чинить. Так что пока будет по-старому
Огромное спасибо!!! Стало лучше,хотя и раньше было хорошо. Кстати на мобильном прокси Авито интересно работает, иногда вообще нет банов,а иногда бан каждую минуты. Мобильный прокси конечно в этом прям спасает
Благодарю. Любопытное решение. Если будет следующая версия (и/или не столь затруднительно) было бы полезно иметь excel (того что нашлось с гиперссылками)
Кстати, а интересно с чем быстрее парсер работает? С базой данной или открытие txt file. Если с txt file, то мы бы могли вместе с id добавлять цену (id + '' + price). Тогда тоже учитывает цену
БД должна работать быстрее. Но там всё равно счет идет на доли секунды, а учитывая длительность других операций - на это можно вообще забить. Хранить что-то сложное в txt - такой себе путь, когда есть БД
Парсер присылает объявление в телегу, только когда получил всю нужную информацию - этот момент зависит от настроек. Например стоит настройка "макс. просмотров = 300", парсер должен будет открыть саму страницу с объявлением (хотя у него уже есть ссылка, название, описание данного объявления), чтобы удостовериться, что просмотров меньше 300шт. Я думаю принцип понятен. Прокси с самим фактом отправки в телегу не связан, т.к. это происходит без участия прокси (даже если работа идет через него)
@@the_parse_hub __main__:__parse_page:124 - Вижу 82 объявлений на странице а как он умудряется столько обьявлений на странице увидеть ? и можно ли сократить хотя бы до 10? Иначе начинает цеплять всякую дичь вообще не относящуюся к url запроса, предыдущая версия кстати лучше имена целпяла и описание а теперь прям 1 к 10 только , цепляется только цена и ссылка в тг
@@the_parse_hub спасибо, а можно ли сделать что бы парсер брал только 10-15 обьявлений сверху страницы, а остальные не трогал, тк интересны только свежие обьявления? + почему то лезет всякая чушь которой и на заданной странице в сеттингс никогда не было если начинает проверять всю открытую страницу..
Можно. Строка 119 в parser_cls.py, сделать так: for title in titles[:15]: Хотя есть же кол-во просмотров, ключи, стоп-слова, настройки на самом авито и прочее. При желании с данными настройками можно фильтроваться как угодно
Да поставьте себе уже впн и все, нас принудительно сажают на фсб-шные сервисы и все это хавают.я год назад арендовал сервер настроил впн и смотрю видео хоть в 4к без проблем
Выпусти видео, как работать с результатами, кейсы применения, в общем как получить пользу. Занимаюсь посуткой, авито раздражает, конкуренты пытаются слить, как бороться с фейковыми заявками
Главная цель - получить как можно быстрее информацию о новом объявлении, дальше цели расходятся. - забрать что-то бесплатно - выгодно купить и перепродать - скупка необходимого по подходящей цене, например как комплектующие для ремонта тех же телефонов - аналитика на основании кол-ва данных по какому-то запросу, например для решения выходить/не выходить на рынок с каким-то товаров + узнать конкурентов - риэлторы - мошенники и т.д.
@the_parse_hub спасибо за развёрнутый ответ, приму к сведению, интересно, а можно включить парсинг в цикл, пока не получишь нужный результат, и по достижению, уведомление. Возможно с нейросетями как то скрестить и т.д...
А еще заметил, коода смотрел версию 2.0 парсера, у тебя при первом открытие url написано self.driver.open, а разве не self.driver.uc_open должен быть. Мы же используем uc
В теории это возможно, если прикрутить какую нибудь библиотеку с OCR для чтения номеров. Но это лишняя настройка и может требовать от обычных пользователей дополнительных манипуляций. Ну и конечно увеличивает нагрузку на систему.
Про vps и запуск парсера Авито нужно. Очень интересно!
Про vps хотелось бы отдельное видео! Спасибо за то, что делаете! 👍👍👍
Спасибо огромное! Про vps нужно.
Я заметил ещё одну вещь. Нету смысла делать эмуляцию с телефона. Я получил бан по IP и вот что интересного узнал. Если заходить с браузера телефона, то бан также будет действовать, но вот если с приложения Авито зайти, то бана нет. Можно попробовать узнать, какие данные отправляет Авито приложение, если оттуда скопировать все важные headers, то мы сможем реже обходиться сменой IP
Есть 2 типа эмуляции телефона:
1) Простой - парсить мобильную версию сайта m.avito
2) Сложный - парсить api мобильной версии
Первый неинтересно, второй хороший и позволит увеличить скорость в некоторых местах, но увеличит баны по IP + сложнее в реализации и чаще нужно будет чинить. Так что пока будет по-старому
Огромное спасибо!!! Стало лучше,хотя и раньше было хорошо. Кстати на мобильном прокси Авито интересно работает, иногда вообще нет банов,а иногда бан каждую минуты. Мобильный прокси конечно в этом прям спасает
Спасибо!
Именно для обхода таких блокировок и нужен мобильный прокси
9:00 сделай видос как это запускать, пожалуйста. Благодарю за такой интересный инструмент для парсинга и сбора информации ; )))
Есть возможность работать с циан например? Как с Вами связаться? Хотел бы заказать работу тг zonchan
Благодарю. Любопытное решение. Если будет следующая версия (и/или не столь затруднительно) было бы полезно иметь excel (того что нашлось с гиперссылками)
7:38 Эксель с гиперссылками
есть же такой excel
Есть ли возможность добавить парсер номера?
Планируется ли запихивание этой штуки в докер? С целью парсинга находясь на VDS
наверное. но можно же прям сейчас без всяких докеров запустить
Сними про запуск на сервере если не трудно. Хотелось бы наглядно увидеть как это делать. Щас закину мотивационный донат
Спасибо) лучшая мотивация!
Я удивляюсь, тем что ты очень полезный контент снимаешь, но смотрят тебя единцы. Я бы честно на твоем месте забросил давно ютуб
Ну образовательный контент в просмотрах явно будет проигрывать развлекательному, так что это ожидаемо
Кстати, а интересно с чем быстрее парсер работает? С базой данной или открытие txt file. Если с txt file, то мы бы могли вместе с id добавлять цену (id + '' + price). Тогда тоже учитывает цену
БД должна работать быстрее. Но там всё равно счет идет на доли секунды, а учитывая длительность других операций - на это можно вообще забить.
Хранить что-то сложное в txt - такой себе путь, когда есть БД
@the_parse_hub, нормально но тут надо замерять. Не сказал бы, что у нас хранятся большие данные. А насчёт того, что особой роли не играет - я согласен
Привет,можно ли как-то сделать парсинг по расписанию/таймеру(каждые 5/10/30 и т.д. минут)?
Там уже есть такое. Устанавливаешь паузу в секундах между повторами и всё
Было бы кстати неплохо добавлять несколько ссылок с каждыми собственными параметрами
я уже думал об этом, потом передумал, сейчас опять думаю)
Поддержу. про VPS ждем видео
Привет, объявления приходят не сразу в тг, может ли быть это связано с прокси?
Парсер присылает объявление в телегу, только когда получил всю нужную информацию - этот момент зависит от настроек. Например стоит настройка "макс. просмотров = 300", парсер должен будет открыть саму страницу с объявлением (хотя у него уже есть ссылка, название, описание данного объявления), чтобы удостовериться, что просмотров меньше 300шт. Я думаю принцип понятен.
Прокси с самим фактом отправки в телегу не связан, т.к. это происходит без участия прокси (даже если работа идет через него)
в rutube не планируете переехать?
ни в коем случае
@@the_parse_hubтройной лайк за данную позицию;)
@@the_parse_hub это плохо 😢
бан по айпи? на сколько по времени ? если нужен так изредко запускать
@@НкрхНкрха минут на 5,но это неточно
@@the_parse_hub ну просто интересно в целом... парсер наверное нужная штука
Хотелось бы парсер, работающий на локальной машине с ubuntu 22.04
Так есть же исходный код, как раз для этого случая
на какое время банит авито?
точной цифры нет, обычно от 1-й до 5 минут. Но бывает по разному
@@the_parse_hub а если залогиниться в селениум в свой профиль авито, так же будут банить?
да
почему то в эксель всегда пишет все данные по ячейкам а в ТГ часто даже имя просто не отдает
насчет имени продавца да, сейчас пишет просто "компания". Нужно подправить этот момент
@@the_parse_hub __main__:__parse_page:124 - Вижу 82 объявлений на странице а как он умудряется столько обьявлений на странице увидеть ? и можно ли сократить хотя бы до 10? Иначе начинает цеплять всякую дичь вообще не относящуюся к url запроса, предыдущая версия кстати лучше имена целпяла и описание а теперь прям 1 к 10 только , цепляется только цена и ссылка в тг
В этом месте никаких изменений не было.
Описание сейчас в тг не присылается, только в excel сохраняется
@@the_parse_hub спасибо, а можно ли сделать что бы парсер брал только 10-15 обьявлений сверху страницы, а остальные не трогал, тк интересны только свежие обьявления? + почему то лезет всякая чушь которой и на заданной странице в сеттингс никогда не было если начинает проверять всю открытую страницу..
Можно. Строка 119 в parser_cls.py, сделать так:
for title in titles[:15]:
Хотя есть же кол-во просмотров, ключи, стоп-слова, настройки на самом авито и прочее. При желании с данными настройками можно фильтроваться как угодно
спасибо но ютуб эт теперь боль/мучение для многих, может можно где то в телеграмм или еще где сделать зеркало ваших видео?
понимаю. нужно подумать
Да поставьте себе уже впн и все, нас принудительно сажают на фсб-шные сервисы и все это хавают.я год назад арендовал сервер настроил впн и смотрю видео хоть в 4к без проблем
@@rebuilderowner78673 рад за вас но я как то за развитие отечественного сервиса ....
Выпусти видео, как работать с результатами, кейсы применения, в общем как получить пользу. Занимаюсь посуткой, авито раздражает, конкуренты пытаются слить, как бороться с фейковыми заявками
Главная цель - получить как можно быстрее информацию о новом объявлении, дальше цели расходятся.
- забрать что-то бесплатно
- выгодно купить и перепродать
- скупка необходимого по подходящей цене, например как комплектующие для ремонта тех же телефонов
- аналитика на основании кол-ва данных по какому-то запросу, например для решения выходить/не выходить на рынок с каким-то товаров + узнать конкурентов
- риэлторы
- мошенники и т.д.
@the_parse_hub спасибо за развёрнутый ответ, приму к сведению, интересно, а можно включить парсинг в цикл, пока не получишь нужный результат, и по достижению, уведомление. Возможно с нейросетями как то скрестить и т.д...
так он и работает бесконечно. Проверил всё, сделал паузу (если нужно), повторил
Так нейросети же кайф это хайп😂 их не хватает 😂@@the_parse_hub
Да, сейчас прям мода их использовать даже там, где это совсем не нужно. Время такое)
А еще заметил, коода смотрел версию 2.0 парсера, у тебя при первом открытие url написано self.driver.open, а разве не self.driver.uc_open должен быть. Мы же используем uc
Там вроде бы всё равно
Есть ли возможность добавить парсер номера?
пока нет, в будущем может быть
В теории это возможно, если прикрутить какую нибудь библиотеку с OCR для чтения номеров. Но это лишняя настройка и может требовать от обычных пользователей дополнительных манипуляций. Ну и конечно увеличивает нагрузку на систему.