Вместо XPath в scrapy можно использовать CSS. Это намного удобнее) Также, scrapy легко комбинируется с selenium, что может упростить парсинг некоторых сайтов
Попробую выразить мысль....) Т.е если паук уйдет по ссылкам далеко(например на 10М) в глубь ресурса и далее остановиться по X/Y причине, он автоматом 'поднимется' до самой верхней(в самое начало) возьмет следующую ссылку и пойдет дальше? Т.е Он тупо не остановится пока не обойдет все дерево целиком?
Привет, треугольник! Хотел бы спросить у тебя, планируется ролик о создании собственной электронной почты? Конечно, с chatgpt и прочими это сделать не составляет особого труда, но хотелось бы послушать тебя)
Сам по себе никакой не программист, но потратил 3 дня, что б запустить свой почтовый сервер, настроить домен и подобную чепуху, а все ради того что б наебать ейрбиэнби на 50 баксов
Привет. Случилось такое что парсер почему то дублирует товары с страницы. Я так вижу что это не редкие случаи. Парсю с помощью Web Scraper, может кто знает в чём проблема?
А как можно спросить таблицу с сайта, но проблема в том, что таблица грузиться после перехода по ссылке. Пытался использовать selenium и ждать появления таблицы, но он парсит только заголовок таблицы, как я понимаю, потому он подгрущился первым, а остальное тело нет
здорово, а нельзя ли на сервере vps ubuntu делать не только парсинг, но и совершать действия через гет и пост запросы с имитацией на нажатие кнопок на гугл-коллаборации? очень нужно для работы. В любом случае спасибо большое за труд, вложенный в это видео!
Я не понимаю python разработчиков - вот зачем тут наследование класса? Для работы скраппера надо изменить всего один параметр и одну функцию, неужели нельзя было сделать обычную функцию, которая принимает функцию парсинга и список ссылок? Почему каждая вторая библиотека говорит "смотри как я могу" и лезет в интерналы питона. Надоело.
Scrapy является полноценным фреймворком, по типу Django, то есть можно создать проект командой "scrapy startproject" - с готовой файловой структурой, конфигурацией и с инструментами для отладки. А по поводу изменить только один параметр и одну функцию - на деле далеко не так, показанный в видео пример ну прям очень простой. К примеру чтобы спарсить какой нибудь сайт с товарами, тебе будет необходимо написать как минимум 3 фукнции: 1. Функция которая парсит все ссылки на категории товаров. 2. Фукнция которая парсит все страницы каждой категории и получает ссылку на каждый товар. 3. Функция которая парсит все характеристики, описание и другие подробности товаров. И каждая функция вызывается из предыдущей в качестве аргумента(колбэк функция).
@@hehe2390 Ну и в итоге у тебя получается одна функция, которая работает как мост между scrapy и двумя другими, которые являются обыкновенными функциями. Да и в конце концов, это просто очень странный паттерн. Ни в одном другом языке код не исполняется сам по себе только потому, что он был наследован от другого кода. Можно ведь просто сделать функцию, которая будет принимать наш класс, это куда логичнее и удобнее.
Ааа, не помню что там в видео, но парсер запускает объект CrawlerProcess, у которого есть метод crawl, который принимает аргументом наш спайдер, это все происходит автоматически, когда мы пишем scrapy crawl. Если я правильно понял, ты думал, что парсер запускается без передачи класса куда либо?@@c4llv07e
Музон из космических рейнджеров топчик! Спасибо за ролик!
Тоже зашёл в комменты написать это.))) Как раз недавно перепроходил.)
Треугольнику лайк не глядя.
Треугольник, привет! Лайк сейчас, но видео посмотрю после работы))
не знал что есть такой фреймворк , КРУТО
Чесно , вчера пересматривал ролик с селеум и думал уже использовать , телепатия не как иначе😂
а как насчет с сайтами-приложениями на js?
Js зло
За музло из готики лайк не глядя!
Красавчик, 👍 за группу инэкстремо из старого лагеря 😂
Вместо XPath в scrapy можно использовать CSS. Это намного удобнее) Также, scrapy легко комбинируется с selenium, что может упростить парсинг некоторых сайтов
Легко комбинируется? А Подробнее можно?
Музыка из готики))) Обожаю)
Попробую выразить мысль....)
Т.е если паук уйдет по ссылкам далеко(например на 10М) в глубь ресурса и далее остановиться по X/Y причине, он автоматом 'поднимется' до самой верхней(в самое начало) возьмет следующую ссылку и пойдет дальше? Т.е Он тупо не остановится пока не обойдет все дерево целиком?
там цикл внутри цикла, если шаришь пайтон то сразу поймешь но по сути да
Кто-то от лола тащится, Камилла на обоине
Камилла 😍
Привет, треугольник! Хотел бы спросить у тебя, планируется ролик о создании собственной электронной почты? Конечно, с chatgpt и прочими это сделать не составляет особого труда, но хотелось бы послушать тебя)
сервак почты на сокетах то?)))
Сам по себе никакой не программист, но потратил 3 дня, что б запустить свой почтовый сервер, настроить домен и подобную чепуху, а все ради того что б наебать ейрбиэнби на 50 баксов
А как можно спарсить контакты любых YT каналов?
Да, хороший фреймворк, давно использую. Но для парсинга уже есть более мощные штуки с фейк юзер агентами, прокси и прочими плюшками.
Годные видосы👍
Скинь ссылки плз
И мне если можно, спасибо
raise NotImplementedError
@@verh010m2 ссылку дать не могу, ибо подобные штуки используют спецслужбы. Но кто знает где искать, тот использует🤐
@@ПищащийГолландец А где искать?
*antibot system like this video*
Надо копать дальше, парсинг через Selenium
Seleniumbase имхо поинтереснее
Зашёл чтобы пет-проект сделать, а по факту в рейнджеров пошёл играть
О, пробував цей фреймворк:) Гарне відео:)👍
А как написать паука с учетом пагинации, чтобы условное имя и прайс собирались не только с первой страницы?
А как у него обстоят дела с обходом защиты?
Привет. Случилось такое что парсер почему то дублирует товары с страницы. Я так вижу что это не редкие случаи. Парсю с помощью Web Scraper, может кто знает в чём проблема?
А как можно спросить таблицу с сайта, но проблема в том, что таблица грузиться после перехода по ссылке. Пытался использовать selenium и ждать появления таблицы, но он парсит только заголовок таблицы, как я понимаю, потому он подгрущился первым, а остальное тело нет
Дайте команду на прокрутку страницы вниз после ее загрузки.
import time, sleep (5) ??? И попробуй seleniumbase, меньше кода писать
здорово, а нельзя ли на сервере vps ubuntu делать не только парсинг, но и совершать действия через гет и пост запросы с имитацией на нажатие кнопок на гугл-коллаборации? очень нужно для работы. В любом случае спасибо большое за труд, вложенный в это видео!
selenium?
@@montecristo31 чтобы войти в гугл колаборацию, нужно залогиниться под гугл аккаунтом, а в селениуме он не пускает
@@densaface selenium-stelthe
playwright
@@Рисенко-э1з спасибо, интересная штука, буду пробовать
Полезная штука.
Почему нету ни слова про программу Scrapy GUI?
потому что только хардкор)
Здоров, треугольный!
Ролик, конечно интересный, но я слушал музыку из Космических Рейнджеров на заднем плане
лучше быть депутатом госдумы не нужно ничего знать и получать от 400К или для девушек женой(гражданской) президента
Вчера первый раз использовал, супер либа
Офк круто, но надо понимать, что scrapy только на linux-подобных системах
Наконец то чтото кроме chat gpt и его свободных аналогов
Класс, ни чего нового конечно. Но музыка из рейджеров.. А-х-х-х-х-х-х-х-х-х
Парсинг чего? Сайтов? тю
space rangers 4ever
Замечательно 👍
zero hour gang
Спасибо
Готика лайк
Прервью топ
▲
👍🏻
Как это возможно 3 просмотра и уже 10 лайков😅
Да он святой, чёрт возьми 🎉🎉🎉😊
Я не понимаю python разработчиков - вот зачем тут наследование класса? Для работы скраппера надо изменить всего один параметр и одну функцию, неужели нельзя было сделать обычную функцию, которая принимает функцию парсинга и список ссылок? Почему каждая вторая библиотека говорит "смотри как я могу" и лезет в интерналы питона. Надоело.
хз, я такую муть только на скрапи видел
@@narcomann1646 да тот же стандартный unittest, который даже про декораторы не знает и ищет функции по окончанию названия.
Scrapy является полноценным фреймворком, по типу Django, то есть можно создать проект командой "scrapy startproject" - с готовой файловой структурой, конфигурацией и с инструментами для отладки.
А по поводу изменить только один параметр и одну функцию - на деле далеко не так, показанный в видео пример ну прям очень простой.
К примеру чтобы спарсить какой нибудь сайт с товарами, тебе будет необходимо написать как минимум 3 фукнции:
1. Функция которая парсит все ссылки на категории товаров.
2. Фукнция которая парсит все страницы каждой категории и получает ссылку на каждый товар.
3. Функция которая парсит все характеристики, описание и другие подробности товаров.
И каждая функция вызывается из предыдущей в качестве аргумента(колбэк функция).
@@hehe2390 Ну и в итоге у тебя получается одна функция, которая работает как мост между scrapy и двумя другими, которые являются обыкновенными функциями.
Да и в конце концов, это просто очень странный паттерн. Ни в одном другом языке код не исполняется сам по себе только потому, что он был наследован от другого кода.
Можно ведь просто сделать функцию, которая будет принимать наш класс, это куда логичнее и удобнее.
Ааа, не помню что там в видео, но парсер запускает объект CrawlerProcess, у которого есть метод crawl, который принимает аргументом наш спайдер, это все происходит автоматически, когда мы пишем scrapy crawl. Если я правильно понял, ты думал, что парсер запускается без передачи класса куда либо?@@c4llv07e
Можешь показать способ, как пересылать посты из телеграмм канала в телеграмм канал ?
что насчет robots.txt