Parsing sites PYTHON - # 1 REQUESTS REQUESTS (GET / POST)
HTML-код
- Опубликовано: 26 сен 2024
- Parsing sites PYTHON - # 1 REQUESTS REQUESTS (GET / POST)
📗 All links to useful materials are below 📗
We will analyze the parsing of python sites, examine the modules
requests, bs4 (BeautifulSoup), fake-useragent, multiprocessing.
Let's write a lot of parsers in python, learn how to find the elements we need
on the page, we will analyze the structure of requests requests, learn how to transfer
your headers and your data to the site.
During the course, we will write a program to download files
from the site, we will learn how to transfer proxies and user agents to the request.
Let's take a look at how to parse the site using the ones we have already studied.
tools. Towards the end of the course, we will also explore multiprocessing for accelerated parsing. In the course of this video, we will go over the basics of python GET / POST requests and learn how you can use it to get data from the site.
⭐ Free version of Kite: bit.ly/3cKz97C
⭐ PyQt5 Python Course: pyqt5.ru
⭐ Channel with useful material: t.me/codeblog8
📁 Website scraping course: bit.ly/394VKtG
📁 Selenium Python Course: bit.ly/3p669ef
📁 Contact me: zproger777@gmail.com
📁 Support channel: www.donational...
Libraries used:
requests, bs4
lxml, fake-useragent
multiprocessing
#ParsingSites #ParsingSitesPython #ParsingPython
⭐Курс ООП и Приват канал: zproger-school.com/
⭐Телеграм канал: t.me/+ltjhP8CCll80NTAx
Не забывайте оставлять свои идеи для следующих видео в комментариях,
большинство из них реализовывается на канале. Также подписывайтесь
на канал, так как именно у нас публикуется отборный материал, который позволит
вам изучать программирование и другие технологии в разы быстрее.
Столько всяких тонкостей так подробно и без воды, спасибо!
Рад что понравилось :)
Спасибо за видео, всё понятно и без воды)
Рад что вам понравилось
Отличный курс, подача информации на запредельном уровне!
Спасибо!
Ооо, как же по кайфу было записать первый спарсенный html код в html файлик, после кучи написания базового теоретического кода из курса pythontutor. Я не думал, что будет так легко. Благодара!
хах у меня также)
mission accomplished
respect+
like+
subscribe+
правильное решение использовать линукс для python (не каждый линукс будет походить). Python на минте гораздо лучше работает чем на винде. Кстати да и само видео вроде неплохо. Кстати быстро тему начал, в многих видео (даже популярных) три часа говорят и две строчки кода объяснили.
Крутой коммент, спасибо :)
По-поводу линукс согласен, очень удобно работать
Просто супер. Спасибо большое. Достаточно наглядно все разжевано!!!
Спасибо за поддержку :)
Большое спасибо. Хоть вы обьеснили понятным языком
Рад что помогло
Спасибо за полезную информацию !!!
Рад помочь :)
Я очень скупой на лайки, но это видео заслуживает 100000000000 лайков я считаю
Спасибо за поддержку, буду стараться :)
блин, крутой парень =) СПАСИБО!!!!
Благодарю :)
Спасибо за отлично поданную инфу!
Пожалуйста :)
чел, это прям круто
Может я чего-то не понимаю, но при выгрузке в HTML-файл ответа с сайта там НЕ тоже самое, что в ответе в браузере. Ведь ответом в браузере по тому же полю User-agent является сам браузер, но python-запросом и выгрузкой в файл мы получаем, что User-agent является python-request
К тому же цель - распарсить страницу этого сайта, как оно там есть, но мы не получаем ни версии браузера, ни плагинов и прочей информации на момент обращения к GET-запросу данного сайта - это же не парсинг)
Тут либо пример плохой, либо я даже не знаю. Поправьте, пожалуйста, если где-то ошибаюсь
Цель была показать принцип работы запросов, а не собрать данные, так как это мы делаем в следующих видео.
@@zproger Поняла Вас, видимо немного поторопилась с итогами)
А где про POST запрос???
Подскажите как вы vs code на минте завели?
Почему-то или мне кажется что для работы с библиотекой request все пользуюся Linux-ом?
Можно пользоваться где угодно =)
круто и меня мучает вопрос как музята на фоне называется?))))))))
Мой первый файл получился с абраказябрами вместо кириллицы. Я так и не понял почему у меня все записалось в utf-16, попробовал второй раз и все уже в utf-8.
Помогите, пожалуйста. Делаю всё как указано, но в итоге получаю AttributeError: partially initialized module 'requests' has no attribute 'get' (most likely due to a circular import)
Не могу помочь, так как не вижу код
возможно у тебя файл имеет название как библиотека.
Помогите, при парсе сайта выдаёт непонятные символы типо иврита хотя кодинг стоит utf-8 и сайт русский
Отличный контен, подскажите пожалуйста что за тема у вашего редактора. Мне понравился зелёный цвет у методов.
Благодарю, это Dracula
@@zproger Darcula*)
Я вот не понимаю, есть встроенный терминал в ВС код, зачем использовать сторонний и где его вообще брать? Я искал курс с нуля, чтобы узнать эти основы. Ответьте, знающие люди, пожалуйста
Так удобнее, лично я также использую. Дело привычки.
не могу найти свой запрос во вкладке сеть
так-с. когда 2 часть выйдет?)
Всего их будет 6 штук, вторая часть 15 августа, далее 19, и так каждые 4 дня :)
@@zproger понял. Буду ждать с нетерпением.
а что делать если нажимаешь иследовать елемент а там все на англ и подругому как у тебя?
что делать когда на гет запрос в терменале пишет: 429 Too Many Requests
Too Many Requests - Переводится как "слишком много запросов".
В итоге нужно думать, как сайт идентифицирует, что все запросы идут
от одного клиента, это могут быть: заголовки, IP адрес, фингерпринты
а если хочу получить json ?
а не байт или html
ку, а что за операционка?
Linux Mint
Спс
Я единственный который благодаря информации выкачиваю html страницы?😂
как сделать такой же красивый ВС код как у тебя ?
status_code не работает или не существует
что делать ?
Случайно не помнишь, находил ли решение этой ошибки? Полгода прошло всё-таки
Ошибка в вашем коде связана с тем, что вы пытаетесь получить статус код и текстовое содержимое ответа неправильным способом. Метод requests.get не возвращает status_code и text непосредственно из объекта ответа.
Ммм, Linux. Люблю его, какой дистр у тебя?
Linux Mint :)
Что такое парсинг?
сбор данных
Как сделать чтобы сервер принимал наши изменённые запросы?? Например взломать какую то игру на функцию привилегии
Взломать игру таким способом достаточно трудно, так как помимо значений которые передаются на сервер, ещё и генерируются временные токены которые этому значению соответствуют, если они не будут иметь между собой связь, сервер просто проигнорирует запрос. Кроме того запрос ещё проходит дополнительную фильтрацию, не скажу что это сделать невозможно, но необходимо очень хорошо понимать то, как устроена фильтрация текущего сервера и проверка значений на валидность.
@@zproger можешь об этом снимать видео?
Не могу, это слишком сложная тема
@@zproger значит не знаешь
@@NONAME-ko5zn не знает, и что. Он хакер по твоему? Да и тебе не обязан
Чувак ты что хакр?
да, только никому не говори 😆
Не добавляй музыку в видео с объяснением плиззззззз,очень отвлекает!😢
А поч такое изображение ужасное,ничего не разобрать!!
@ZProger [ IT ] вписал код, в Пайчарме пишет : Process finished with exit code 0
прогоняю через СВкод пишет: ModuleNotFoundError: No module named 'requests'
Нужно установить модуль requests
line 248, in __init__
raise FeatureNotFound(
bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?
При установке xmlx выдает: Defaulting to user installation because normal site-packages is not writeable
Requirement already satisfied: lxml in c:
А на какой проге писать код? Типа просто питон или пайчарм?
Где угодно, главное чтобы удобно было :)
Отличный курс, подача информации на запредельном уровне!
Огромное спасибо за поддержку
Очень интересно, но не понятно)
Всё что Вы делаете у меня НЕ получается)