Пишем парсер на JavaScript | QA

Campfire School | Ivan Petrychenko

Просмотров 68 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 22 сен 2024
В этом ролике я отвечу на один из вопросов подписчиков и мы создадим свой небольшой парсер html-страниц. Все полученные данные мы будем отправлять на сервер при помощи fetch API.
Ссылки:
JSONPlaceholder - jsonplaceholde...
Одни из лучших и доступных курсов по JavaScript, верстке (html/css), React, Wordpress и многому другому вы найдете на campfire-schoo...
Ссылки:
Мой инстаграм - / petrychenko_ivan
Телеграм-канал: t.me/petrychen...
Телеграм-канал с общением: t.me/+U1yEc5iG...

Комментарии • 109

@kotikvacia9970 4 года назад ⁺¹⁹
Спасибо вам за ваши курсы !
@aleksandrstaetskiy5687 4 года назад ⁺⁹
Просто топовейший видос. И отличный пример использования рекурсии :)
@sonopro9920 3 года назад ⁺³
Как всегда магия)) магия с безграничными возможностями!!!👏
@windcrack8404 Год назад ⁺¹
Спасибо большое. Видео очень сильно помогло. Мой учитель по js опять выручил!
@Интернетобразование-о1и 3 года назад ⁺³
Офигенное объяснение!!!
@placid3495 4 года назад ⁺⁴⁴
А я думал парсеры сложно)
@Maxim9575 6 месяцев назад
потому что это не парсер, а обход DOM дерева, ничего общего с настоящими парсерами тут нет
@DenisK-to8lf 11 дней назад
@@Maxim9575 А как по Вашему можно спарсить данные с сайта?
@Maxim9575 11 дней назад
@@DenisK-to8lf разберитесь с определением что такое парсер.
Ну а так парсинг подразумевает получение исходного кода и затем его анализ, который приведет к конкретному результату.
Браузер по вашему как вам отображает страницу? Правильно, использовав DOM-дерево для визуализации содержимого. А перед этим он получает исходный код страницы, а затем производит разбор в 2 этапа: лексический анализ исходного текста, а затем синтаксический анализ. И результатом этих двух этапов будет DOM-дерево.
@gennadyga2257 4 года назад ⁺³
Иван спасибо за объяснение! учусь на твоем курсе.
@АдильМиерманов Год назад ⁺¹
это идеальный урок, спасибо огромное
@denisbielishev 4 года назад ⁺¹⁷
Интересно было бы увидеть как реальный парсер сделать, со вложенными страницами по типу интернет магазина
@SerhiyLytvynenko 2 года назад ⁺²
В чем проблема? Когда парсишь все данные , находишь нужную ссылку, отправляешь get-запрос по этому адресу и парсишь уже эти данные
@ivanrussui4126 3 года назад
Крутяк Иван, было полезно. Благодарю.
@Vitaliy-1C 4 года назад ⁺¹
Очень грамотно объяснил! Спасибо.
@drotikdrotik5941 4 года назад ⁺¹
Лучший преподаватель, учусь у него на Юдеми отличный курс по Джаваскрипту!
Всем его рекомендую)
@coldym 3 года назад
Как прогресс? Нашел работу?
@wickedtorpedo75 4 года назад ⁺²
30 строк самого гениального кода, спасибо за урок
@nshebeko 4 года назад ⁺³
Спасибо Иван, круто было бы если это показать на реальных проектах, в практическом применении, например берём готовый парсер и разбираем как он работает. Хочется понимать зачем это мы всё делаем, то бишь мотивы. Понятно что заголовки кому то нужно спарсить, но кому? и где?
@campfireschool 4 года назад ⁺³
Окей. Приведу реальный кейс пока на словах)
У нас была задача с одного большого веб-ресурса вытащить всю информацию о компаниях, которые на нем размещены. Страниц и компаний было очень много, с каждой вручную вытаскивать название, логотип, контактные данные и прочее очень долго, муторно и бесполезно :)
Вот для такой задачи мы и использовали парсер, по структуре чуть сложнее, тк затрагивалась серверная часть.
@campfireschool 4 года назад
@@FaineLito1055 Практически невозможно) Все что попадает в браузер можно вытащить)
@campfireschool 4 года назад
@@FaineLito1055 Главное, чтобы конечному пользователю это не навредило)) А так самое противное - это изображения. Из них текст не вытащить, увы)
@hopmnc 4 года назад ⁺²
гуд джоб, спасибо.
@PavelPavel-vh3fs 4 года назад ⁺¹
Спасибо за крутой и понятный урок
@yarlykanov Месяц назад
Отличный урок! Спасибо. Покажите, пжлста, как парсить сообщения, которые пришли на емайл от определённого отправителя?
@oleksiimarchenko2177 4 года назад
Спасибо большое за Ваши курсы, очень доходчиво! Советую всем своим друзьям которые хотят войти в ІТ))
@sergey5806 4 года назад ⁺¹
Круто как всегда)) Интересно было бы посмотреть на реализацию nodejs приложения))
Ты так круто поясняешь, что кажется все настолько простым.
@campfireschool 4 года назад
Спасибо)
@dmitriystoyanov933 4 года назад ⁺⁶
да, парень реально профессионал. Печально, что нам всем кажется простым когда смотрим, а сесть и самим с нуля написать - начинается просто обсиралово и ни строчки из себя выдавить не получается))
@aleksandrstaetskiy5687 4 года назад ⁺¹
Канал просто кладезь годноты :)
@campfireschool 4 года назад
Спасибо)
@zachfenton608 2 года назад
Спасибо большое
@kharkiv_inres5127 4 года назад ⁺²
Значет хорошо разобратся и можно брать заказы на парсер страници!
@СергейКомыза 4 года назад ⁺⁴
Спасибо за труд! А есть у вас курс по углубленному изучению парсинга на js? Забирать инфу с нужных сайтов и т.д?
@campfireschool 4 года назад
Увы, но пока нет :(
@ЭзизК 3 года назад
Круто✊
@AlexM-ox7io Месяц назад
Не проще ли на ноде библиотекой Puppeteer собрать все что тебе нужно указывая классы?))
@userman6193 Год назад
Good! Thanks!)
@ibrohimbobojonov6197 3 года назад
Спасибо
@oldzas 3 года назад ⁺²
Мне не хватило хождение по пагинатору и открывание страниц и только потом парсинг
@vadicus6534 3 года назад ⁺¹
Я тоже об этом думаю. как пройти весь сайт если мы парсим только на одной странице.
@stasonnl777 4 года назад ⁺⁴
Здравствуйте. А как парсить с другого сайта? Например я хочу спасрсить с другого сайта заголовки и разместить их на своем сайте.
@sergey5806 4 года назад ⁺¹
Разобрался как это сделать?
@Moskalineludy 3 года назад
fetch
@MrDmi3i Год назад
есть сайт со спортивными играми... там периодически появляются игры на которые я бы хотел попасть как участник, но постоянно не успеваю попасть в лимит игроков (например - ближайшая игра баскетбол, уровень новичок... ). Как реализовать механизм чтобы мне например в телегу приходило оповещение что на сайте появилась дата игры для регистрации?
@Каналдлясаморазвития-я1я 3 года назад ⁺¹
Вместо сервера можно использовать node js и express
@JuliaDemchenko-c3q 3 года назад
Здравствуйте! А можно показать на примере Инстаграм. Допустим есть страници профилей и с них нужно получить информацию ( количество подписчиков, подписок и публикаций) с сохранением этих данных в Excel? Возможно ли так сделать, буду очень благодарна 😊
@igorstarodubtsev8037 3 года назад
Не могли бы видосик запилить как спарсить с сайтов ссылки на фильмы, постеры, названия фильмов для создания плейлистов
@ashercon1337 4 года назад ⁺²
Сейчас прохожу ваш курс по js на udemy, хотел сказать спасибо за доходчивое объяснение тем.
Вопрос по видео (ещё не посмотрел до конца) мы сможем парсить только страницу, к которой мы подключили наш js скрипт ?
то есть мы не сможем дать парсеру url другого сайта и ждать от него данных?
@campfireschool 4 года назад
Спасибо) Как я и говорил ближе к концу ролика - да, этот простенький скрипт будет работать только на одной странице. Для более сложного взаимодействия нам уже понадобится серверная часть. В любом случае - смысл особо не изменится)
@ashercon1337 4 года назад
Ivan Petrychenko получается для создания парсера других сайтов нужно использовать node js ? Знаете ли вы node, будет ли курс по нему ?
@campfireschool 4 года назад ⁺²
Ilya Tyurin да, в следующем году планирую записать)
@ДаниилЕлин-ж1п 4 года назад ⁺²
@@campfireschool Спасибо за курс по js)
@aximas778 3 года назад ⁺¹
Парсер отличный, но вот только я пытался его попробовать как вы на хабре консоль выдала undefined
Пересмотрел код везде всё ок на локалке работает а в других местах получаю undefined
@CalmDepth 3 года назад
интересно. правильно я понимаю,что такой конструкцией shadow-dom не выпотрошить?
@EvgenichTalagaev 2 года назад
Вот бы пример с парсингом реального сайта в сети.
@web-bp6lj 2 года назад
Друзья, пожалуйста, объясните: для чего нужен локальный сервер в работе парсера?
Какова его роль? Благодарю.
@ondrui 2 года назад
Иван, спасибо за ролик, очень интересная тема была.
Я попробовал этот скрипт на странице из курса вашего "
Полный курс по JavaScript + React - с нуля до результата
" FOOD - там мы динамически на страницу часть контента добавляем (меню, например) - и эту часть парсер не видит! Не подскажите, как обойти эту проблему? Я добавил скрипт в метод then и получил данные из меню, но если доступа нет к коду страницы как быть?
@sergeishmelev8000 Год назад
А можно создать подобный парсер для соц сетей, чтобы вытаскивал количество постов, подписчиков и просмотров и лайков?
@Freedom_Code 4 года назад
Иван, знаю , что не по теме вопрос,, здравствуйте, подскажите пожалуйста , каким образом можно в react.native парсить файлы .txt и возможно ли это. Единственное, что пришло на ум -- это подключать библиотеку fs из node.js , но оправдано ли это?
@L0w1y 3 года назад
А как сделать так, чтобы он брал данные с внешней страницы. Например я хочу сделать чтобы релизы гитхаба подгружал и показывал когда я открываю Index.html
@АлександрАлександр-х6б3ы 3 года назад
Добрый день! попробовал использовать данный парсер не на локальном сервере, а через tamper monkey. вот только слушалка DOMContentLoaded не работает, а работает window.addEventListener('load', () => {});
@nikolaydemchenko6741 4 года назад
Видео понравилось, только не могу понять момент с рекурсией в начале, почему в условии проверяется количество потомков входящего элемента, а не его потомка? Ведь по факту в боди в любом случае потомков больше одного, значит функция будет запускаться для каждого, даже если у него нет своих потомков, и не получится ли так, что на том у кого 1 потомок, рекурсия не будет запущена, хотя у самого потомка будет много своих потомков? Не правильнее ли просто проверять if(node.childNodes){} ? Или там какая-то другая логика? Кодю недавно, может чего не знаю, объясните пожалуйста добрые люди)
@ВячеславИванов-д1р Год назад
Можно ли разместить скрипт на Firebase? Есть необходимость получать обновления определенной страницы в телеграм на телефоне. То есть чтобы получать обновления без открытого браузера и даже отключенного компьютера. Делать запросы периодически и проверять не появился ли новый пост. Если появился каким то образом отправлять этот пост сообщением в телеграм. Есть у кого-то идеи насчет этого?
@vitaliylufter8765 3 года назад ⁺¹
Ну как бы парсер, но как бы и не совсем, какой-то детский. Вопрос: зачем нам парсить свой хтмл? А как получить сторонний хтмл? Как ходить по страницам сайта который парсим? Как обойти блокировки и защиту от неделательной активности? Как парсить не на своём компе а в режиме online, на сервере? Как подключить прокси, как косить под реального пользователя(это к вопросу про обход защиты)? Как капчу разгадывать автоматически? Парсер это сложная система, а не вот это вот.
@campfireschool 3 года назад ⁺¹
Именно поэтому я и проговорил в начале, что это довольно плюшевый парсер, который сделан по просьбам студентов на чистом js :)
@namirGO 2 года назад
Дякую
@supfiger 3 года назад
я один подумал, что видео началось в скорости 1.5x? :))
@MrLuckfinder 3 года назад
Прохожу сейчас его курсы на юдеми. Единственные курсы, которые приходится смотреть на 0,75 скорости. И то, не всегда успеваю.
@dimualdos 2 года назад
Хочется узнать про создание бота в телеграм
@o_opedro4044 3 года назад
👌 -👍 ...
@Alex-yh7pr 4 года назад
18:15 6 объектов
@РамизМирзаев-х5к 4 года назад ⁺¹
🤓
@AliaksandrHrankin 4 года назад
Спасибо за урок.
А если я хочу, чтобы мне куда-то сохранялись результаты парсинга?
@campfireschool 4 года назад
Вы можете отправлять результаты на свой VPS сервер и там их сохранять в любом удобном формате.
Т.е. php/node.js/... будут записывать результат в json, txt... если говорить просто)
@AliaksandrHrankin 4 года назад
@@campfireschool это понятно. щас вот гуглю, как принимать его и обрабатывать в файле php. Думаю, как преобразовать это в csv
@AliaksandrHrankin 4 года назад ⁺¹
@@campfireschool что-то никак не могу справиться с CORS. Написал простой парсер и простой php. На локальном сервере локальный же сайт парсит нормально и сохраняет json файл. Положил php файл на хостинг. Со своего сайта сохраняет файл, а с других не хочет. Не пойму, что и как настроить. Все, что нагуглил, не могу разобраться
@dmitriy2502 2 года назад
Здравствуйте! Спасибо за урок! Подскажите, а если результат ни отправлять на сервер а просто писать в текстовый файл на компьютер? Как это реализовать? Спасибо!
@sergey9627 2 года назад
Тоже есть задача, собирать информацию в excel файл, вам удалось найти ответ ?
@dmitriy2502 2 года назад
@@sergey9627 Пока оставили реализацию, решение ни нашли. Но по похожей тематике были ролики внутри которых есть реализация, но вот к сожалению прошло более 3 мес, ни помню где было.
@itconstructor1570 3 года назад
Добрый день, а как курсы валют с сайта автоматически парусить.? Всегда ведь в консоль лесть со своим кодом не будешь
@campfireschool 3 года назад ⁺²
Обычно курсы валют отдаются по открытому API . Например minfin.com.ua/developers/api/
@vadicus6534 3 года назад
@@campfireschool так платить надо, а можно просто парсить?)))
@ИгорьКиселев-ч7ь 4 года назад
Ппивет Ivan ! В JavaScript я еще только начинаю учиться. Из твоего объяснения все понятно кроме того, что такое ноды . Может я чего то не понимаю? Объясни пожалуйста откуда они берутся! Спасибо
@campfireschool 4 года назад
Игорь Киселев это DOM-узлы на странице) не элементы, а именно узлы.
Кроме элементов сюда входят переносы строк, изображения и тд.
@ИгорьКиселев-ч7ь 4 года назад
@@campfireschool скажи пожалуйста где я могу почитать про ноды вводное.
@campfireschool 4 года назад
@@ИгорьКиселев-ч7ь learn.javascript.ru/dom-nodes
Например, вот здесь.
@ruslan2676 4 года назад
Как сделать так, чтобы скрипт стягивал инфу, например, с альбома Вконтакте (описания под фото)? И при этом не нужно было каждый раз заходить ручками это в консоль писать?
В идеале сделать так, чтобы конфигурация выглядела таким образом:
1. Вставил ссылку.
2. Прописал какие ноды цеплять.
А дальше отправить себе на сайт в таблицу.
Так же интересует как это настроить чтобы обновлялось хотя-бы раз в сутки или по нажатию
Хочу научится это делать, куда копать?)
@campfireschool 4 года назад ⁺²
Ruslan Anisimov добрый день. Все это делается уже с помощью бэк-технологий. Нужен сервер и соответствующие скрипты, написанные на node.js, php, ...
@ЯрославВлас-б6т Год назад
У меня вопрос. А как подключить данный скрипт на другие сайты автоматически?
@zizzxiii2714 3 года назад
выводит только {id: 101} и все
@pashoki6880 3 года назад
А вообще есть разница на каком языке писать парсер, многие пишут его на питоне ?
@campfireschool 3 года назад
Да, будет зависеть его «мощность» и среда работы. Поэтому python по этим параметрам подходит очень хорошо
@pashoki6880 3 года назад
@@campfireschool подскажите, а сильно ли js в этом плане уступает ?
@campfireschool 3 года назад
@@pashoki6880 если использовать node.js - то нет
@pashoki6880 3 года назад
@@campfireschool Подскажите, а как реализовать возможность автоматического парсера, когда не нужно заходить и вставлять в консоль скрипт, чтобы отслеживать динамически изменяющуюся информацию на странице автоматически
@forgiveness_denied 4 года назад ⁺²
шось може по бек енду
@АлександрФедченко-л6ю 4 года назад
Python server
@ticheroi 4 года назад ⁺¹
recursy что такое?)) recursion мб?)
@stylizestylish973 3 года назад
6:30
@paljm345 3 года назад
Блин, а вот как дальше работать с полученной информацией?? Она выводится только в консоль.лог. Как мне закинуть ее в переменную и дальше обрабатывать??
@bdg5242 4 года назад
Парсер по моему сайту работает, но вот когда решил также попробовать на хабре как ты в видосе. Получается ошибка: Uncaught SyntaxError: Identifier 'body' has already been declared
at :1:1
@bdg5242 4 года назад
как я понял видать какие то сайты блокируют это, а какие то нет. На вк вот работает
@alexg1431 4 года назад
Просто переименуй const body например в const body12123 и всё. Тебе ошибка говорит что такая константа уже есть.
@vladpronin5033 4 года назад ⁺³
Пожалуйста, перестань коверкать английские слова на свой лад, произношение у тебя не самое лучшее. Звучит отвратительно, после пяти минут просто замутил. Поработай над собой, мб подписчиков прибавится
@ashur1k Год назад
xpath для слабаков! Только цикл по всем узлам! Только хардкор!
1) Открываем "DevTools"
2) Переходим на вкладку "Console"
3) Выполняем в консоли следующее выражение: $x('//h1 | //h2 | //h3 | //h4 | //h5')
4) ПРОФИТ
@muborizDev 4 года назад
спасибо

Следующие

Автовоспроизведение

Подробный план изучения JavaScript с нуля