Скрапинг с Goutte (crawler). Парсинг сайтов с использованием библиотеки Goutte.
HTML-код
- Опубликовано: 3 апр 2022
- В новом видео я вам покажу как работать с библиотекой для парсинга - Goutte (crawler). Я вам покажу как забирать информацию со стороннего сайта, переходить по ссылкам и автоматически отправлять формы на сайте.
ВАЖНЫЕ МОМЕНТЫ:
01:20 - Подключение библиотеки
03:00 - Парсинг текстовой информации
04:40 - Парсинг ссылок
05:00 - Парсинг изображений
05:40 - Парсинг нескольких элементов и работа в цикле
07:50 - Спарсить конкретный элемент
09:00 - Получение первого и последнего в выборке
09:50 - Спарсить соседний элемент в дереве DOM
11:10 - Получение ссылки как объекта
13:50 - Получение изображений как как объекта
14:45 - Получение дочерних элементов
16:00 - Работа с формами с помощью Goutte
ВАЖНЫЕ ССЫЛКИ:
Ссылка на запись - prog-time.ru/skraping-s-goutt...
Prog-Time - prog-time.ru/
Telegram - t.me/prog_time_bot
ВКонтакте - progtime
НАШИ ПРОЕКТЫ:
One-Chat - one-chat.ru/
Техническая поддержка One-Chat - t.me/one_chat_manager_bot
Спасибо за просмотр! Пишите, буду рад помочь!
Ссылка на запись - prog-time.ru/skraping-s-goutte-crawler-parsing-sajtov-s-ispolzovaniem-biblioteki-goutte/
Prog-Time - prog-time.ru/
Telegram - t.me/prog_time_bot
ВКонтакте - vk.com/progtime
НАШИ ПРОЕКТЫ:
One-Chat - one-chat.ru/
Техническая поддержка One-Chat - t.me/one_chat_manager_bot
nice, Спасибо за видео!
Спасибо за видео!
Вот только % это деление по модулю. Т.е. при делении на отрицательное число, в случае остатка - он будет положительный.
Было бы хорошо так же сделать обзор про BrowserKit
Хочется узнать, как парсить блоки на сайте, которые динамически подгружаются js. Если создадите такой ролик, буду признателен.
Попробую что-нибудь придумать. На данный момент я занимаюсь записью курса "Разработка ботов для Telegram"
Dev workout глнянь канал, видео парсинг ajax
Сняли что-нибудь про PHP + Selenium или Webdriver? Совсем нет роликов. Это была бы бомба.
Какая у вас версия php?
Взлом?
Что ты имел ввиду?
@@ProgTime ты можешь сделать ботнет