Видео 532
Просмотров 343 878

Все характеристики всех конкурсов фрилансеров. Видео 4

21:26

Основы regular expression, а также requests и bs4. Видео 3

33:20

Основы requests и bs4. Схема парсинга. Видео 2

24:04

Основы requests и bs4 за 44 минуты. Видео 1

44:24

selenium на Python за 25 минут: автоматизированная выгрузка FinAM

25:19

Мультиномиальная регрессия. Кейс IMDb 2 Интерпретация модели

12:13

Основы os: автоматическая обработка файлов на компьютере

#python #os
PlayList ruclips.net/p/PLa8lq3EibqqQhEIpDECO-V4TfjPZO1o35
Предыдущее видео: ruclips.net/video/GcyYuQ7CZNY/видео.html

Видео

21:26

Все характеристики всех конкурсов фрилансеров. Видео 4

Просмотров 7272 года назад

#python #regularexpression PlayList ruclips.net/p/PLa8lq3EibqqQhEIpDECO-V4TfjPZO1o35 0:00 В этом видео: новый код для сбора промо-характеристик всех конкурсов и код из прошлых видео плейлиста, применяемый не к одному конкурсу. а ко всем. 1:15 Обзор скрипта: выяснить число страниц списка конкурсов, выгрузить с этих страниц промо-характеристики и их URL-адреса, записать в новый датафрейм собранны...

Основы regular expression, а также requests и bs4. Видео 3

33:20

Основы regular expression, а также requests и bs4. Видео 3

Просмотров 5942 года назад

#python #regularexpression PlayList ruclips.net/p/PLa8lq3EibqqQhEIpDECO-V4TfjPZO1o35 0:00 Предыстория. 0:30 Репутационные характеристики заказчика конкурса. 0:45 Страницы заказчиков гораздо менее стандартизированны. Поэтому потребуется не только пакет bs4, но и пакет regular expression. 2:40 Обзор структуры скрипта. 3:15 Конструкция in . 5:25 Сочетание пакетов bs4 и regular expression для решен...

Основы requests и bs4. Схема парсинга. Видео 2

24:04

Основы requests и bs4. Схема парсинга. Видео 2

Просмотров 6922 года назад

PlayList ruclips.net/p/PLa8lq3EibqqQhEIpDECO-V4TfjPZO1o35 0:00 Предыдущее видео см. в плейлисте. 0:15 Открыть таблицу, ранее сохранённую в формате экселевского файла, в формате датафрейма. 1:15 Атрибутом .index достать наименования строк таблицы. 2:15 Указать, что наименования строк (индекс датафрейма) содержатся в нулевом столбце открываемой таблицы. 2:45 Поскольку путь не указан, файл должен ...

Основы requests и bs4 за 44 минуты. Видео 1

44:24

Основы requests и bs4 за 44 минуты. Видео 1

Просмотров 1,1 тыс.2 года назад

Praylist ruclips.net/p/PLa8lq3EibqqQhEIpDECO-V4TfjPZO1o35 0:00 Содержательная задача: выгрузить с сайта FL.ru информацию о конкурсах для фрилансеров и о реакции фрилансеров на них, чтобы впоследствии выяснить детерминанты (не)популярности конкурсов. 0:30 Архитектура веб-источника: 3 раздела сайта FL.ru . 1:05 Интересующие переменные. 3:15 Архитектура скриптов. 3:30 Упоминание реляционных баз да...

selenium на Python за 25 минут: автоматизированная выгрузка FinAM

25:19

selenium на Python за 25 минут: автоматизированная выгрузка FinAM

Просмотров 4692 года назад

0:00 Содержание задачи: есть таблица с 50-ю наименованиями фьючерсов Московской биржи. Требуется выгрузить с сайта finam.ru статистику дневной торговли этими фьючерсами. 1:35 Варианты решения: вручную (долго и чревато ошибками), посредством API веб-источника, 4:50 посредством пакета requests (у каждого инструмента собственный числовой идентификатор, который меняется каждый квартал и который над...

Мультиномиальная регрессия. Кейс IMDb 2 Интерпретация модели

12:13

Мультиномиальная регрессия. Кейс IMDb 2 Интерпретация модели

Просмотров 5072 года назад

0:00 Теоретические основы мультиномиальной регрессии: две ступени расчёта зависимой переменной; бинарная зависимая переменная и логит (серия ruclips.net/video/3LQ_O6HIOWs/видео.html ) и линейный многочлен. 1:00 Референтная категория игрека. Вероятность каждой категории игрека противопоставляется вероятности его референтной категории (в моём примере это Y=0). 1:35 Система уравнений. 2:00 Упрощен...

Машинное обучение с учителем помогает разметить тексты

30:48

Машинное обучение с учителем помогает разметить тексты

Просмотров 9163 года назад

00:00 Для чего размечать тексты с привлечением машинного обучения с учителем? Может пригодиться для решения задачи выявить среди собранных документов нерелевантные и выявить сентимент (эмоциональную нагрузку) собранных документов. 01:50 Достать матрицы (1) "документы-токены" и (2) с разметкой. Если документы размечались по топикам, то проверить наличие противоречий в разметке, поскольку один и ...

Мультиномиальная регрессия. Кейс IMDb 1 Построение модели

11:13

Мультиномиальная регрессия. Кейс IMDb 1 Построение модели

Просмотров 1,2 тыс.3 года назад

0:00 Содержательная цель: как в серии ruclips.net/video/3LQ_O6HIOWs/видео.html , но теперь у игрека три градации: отсутствие у фильма рейтинга критиков (Y=0), наличие низкого рейтинга (Y=1) или высокого рейтинга (Y=2). Таким образом, цель - выявить, как вероятность каждой из этих градаций зависит от других характеристик фильма. 1:50 Обоснование выбора метода. 2:10 Описание иксов: тип шкалы, рас...

Раздельный сбор. Пробное тематическое моделирование, или topic modeling

38:30

Раздельный сбор. Пробное тематическое моделирование, или topic modeling

Просмотров 1,3 тыс.3 года назад

2:00 Обзор методов topic modeling и их место среди задач text mining. Методы: Probabilistic Latent Semantic Analysis (PLSA), Latent Dirichlet Allocation (LDA), Additive regularization topic model (ARTM), RANDAN. Проблемы и решения = эволюция методов topic modeling. Что такое математически оптимальная и содержательно интерпретируемая тематическая модель и как её получить? И что такое плохая моде...

32:55

Как начать текст-майнинг?

Просмотров 1,3 тыс.3 года назад

0:00 Широкое и узкое понимание термина text mining. 0:35 Задачи «интеллектуального анализа» текстов, или text mining: 1. Выявить среди собранных документов (текстов) наполненные и для них - высокочастотные токены. 2. Выявить среди собранных документов нерелевантные. 3. Выявить во множестве документов обозримое число интерпретируемых топиков (тем). 4. Выявить сентимент (эмоциональную нагрузку) с...

API YouTube. Семь тысяч комментариев за четыре минуты

29:52

API YouTube. Семь тысяч комментариев за четыре минуты

Просмотров 1,4 тыс.3 года назад

The playlist: ruclips.net/p/PLa8lq3EibqqTQQ2JQm8ik5P7gljnw27L4 0:00 Родительские (topLevel) комментарии и ответы на них. 0:45 Комментарии можно копипастить из-под видео, можно воспользоваться API Explorer - интерфейс для разработчиков (и исследователей) developers.google.com , а можно сгенерировать код в API Explorer и применить его в Python. 1:40 Требуются методы comments и commentThreads - в ...

Эффективно программировать на Python в Jupyter Notebook

32:29

Эффективно программировать на Python в Jupyter Notebook

Просмотров 1,5 тыс.3 года назад

0:00 Anaconda и Google Colaboratory. 0:30 anaconda.com . Выбор версии под операционную систему. 1:10 Как узнать версию операционной системы Windows? 1:35 Установка Anaconda & Jupyter: установка дистрибутива, его запуск, следование инструкциям. 2:55 Запуск Jupyter Notebook. Оперирование Джупитером через вкладку браузера. 3:40 Адрес хранения папок Джупитера. 4:30 Создание нового джупитеровского ф...

Раздельный сбор 15 Парная связь интервальной и номинальной переменных

52:18

Раздельный сбор 15 Парная связь интервальной и номинальной переменных

Просмотров 1,4 тыс.3 года назад

The playlist: ruclips.net/p/PLa8lq3EibqqTQQ2JQm8ik5P7gljnw27L4 0:00 Методы и команды Python, задействованные в этом видео. 0:50 Загрузить таблицу с характеристиками видео categoryName Involvement (получены и выведены в прошлых видео). 1:20 Выяснить, есть ли связь между categoryName (номинальная переменная) и Involvement (интервальная переменная). 2:10 Какие методы можно применять для измерения ...

API YouTube Раздельный сбор 11 Категории видео методом videoCategories БЕЗ программирования и С

30:34

API YouTube Раздельный сбор 11 Категории видео методом videoCategories БЕЗ программирования и С

Просмотров 1,3 тыс.3 года назад

The playlist: ruclips.net/p/PLa8lq3EibqqTQQ2JQm8ik5P7gljnw27L4 0:00 Что за числа в столбце categoryId? 1:10 Интерфейс для разработчиков (и исследователей) developers.google.com/ . Понадобится метод videoCategories и файлы с найденными ранее методом videos id категорий видео. 2:25 Аргументы и их значения: аргументы part со значением snippet и id. 3:25 Запуск; код 200. 3:55 Готовый код на разных ...

Раздельный сбор 14 Парная связь интервальных переменных

25:37

Раздельный сбор 14 Парная связь интервальных переменных

Просмотров 1,4 тыс.3 года назад

Раздельный сбор 14 Парная связь интервальных переменных

Раздельный сбор 13 Описательная статистика номинальной переменной

34:35

Раздельный сбор 13 Описательная статистика номинальной переменной

Просмотров 1,4 тыс.3 года назад

Раздельный сбор 13 Описательная статистика номинальной переменной

Раздельный сбор 12 Описательная статистика интервальных переменных

38:12

Раздельный сбор 12 Описательная статистика интервальных переменных

Просмотров 1,9 тыс.3 года назад

Раздельный сбор 12 Описательная статистика интервальных переменных

API YouTube Раздельный сбор 10 Характеристики видео методом videos БЕЗ программирования и С

28:57

API YouTube Раздельный сбор 10 Характеристики видео методом videos БЕЗ программирования и С

Просмотров 1,4 тыс.3 года назад

API RUclips Раздельный сбор 10 Характеристики видео методом videos БЕЗ программирования и С

API YouTube Раздельный сбор 9 Характеристики каналов методом channels С программированием

19:51

API YouTube Раздельный сбор 9 Характеристики каналов методом channels С программированием

Просмотров 1,2 тыс.3 года назад

API RUclips Раздельный сбор 9 Характеристики каналов методом channels С программированием

Рейтинги фильмов от критиков и пользователей на IMDb 4 Влияет ли один на другой? Непараметрика

20:09

Рейтинги фильмов от критиков и пользователей на IMDb 4 Влияет ли один на другой? Непараметрика

Просмотров 6283 года назад

Рейтинги фильмов от критиков и пользователей на IMDb 4 Влияет ли один на другой? Непараметрика

Рейтинги фильмов от критиков и пользователей на IMDb 3 Влияет ли один на другой? Параметрика

18:15

Рейтинги фильмов от критиков и пользователей на IMDb 3 Влияет ли один на другой? Параметрика

Просмотров 8013 года назад

Рейтинги фильмов от критиков и пользователей на IMDb 3 Влияет ли один на другой? Параметрика

Рейтинги фильмов от критиков и пользователей на IMDb 2 Сравнить рейтинги

9:28

Рейтинги фильмов от критиков и пользователей на IMDb 2 Сравнить рейтинги

Просмотров 7923 года назад

Рейтинги фильмов от критиков и пользователей на IMDb 2 Сравнить рейтинги

Рейтинги фильмов от критиков и пользователей на IMDb 1 Задача Тип шкалы Графики

17:15

Рейтинги фильмов от критиков и пользователей на IMDb 1 Задача Тип шкалы Графики

Просмотров 9403 года назад

Рейтинги фильмов от критиков и пользователей на IMDb 1 Задача Тип шкалы Графики

API YouTube Раздельный сбор 8 Характеристики каналов методом channels БЕЗ программирования и С

19:33

API YouTube Раздельный сбор 8 Характеристики каналов методом channels БЕЗ программирования и С

Просмотров 1,5 тыс.4 года назад

API RUclips Раздельный сбор 8 Характеристики каналов методом channels БЕЗ программирования и С

API YouTube Раздельный сбор 7 Собранный ранее скрипт для поиска видео

11:01

API YouTube Раздельный сбор 7 Собранный ранее скрипт для поиска видео

Просмотров 1,5 тыс.4 года назад

API RUclips Раздельный сбор 7 Собранный ранее скрипт для поиска видео

API YouTube Раздельный сбор 6 Поиск каналов циклом while с учётом даты

27:05

API YouTube Раздельный сбор 6 Поиск каналов циклом while с учётом даты

Просмотров 1,7 тыс.4 года назад

API RUclips Раздельный сбор 6 Поиск каналов циклом while с учётом даты

API YouTube Раздельный сбор 5 Сокращение запросов условной конструкцией if

16:30

API YouTube Раздельный сбор 5 Сокращение запросов условной конструкцией if

Просмотров 1,4 тыс.4 года назад

API RUclips Раздельный сбор 5 Сокращение запросов условной конструкцией if

API YouTube Раздельный сбор 4 Поиск каналов циклом for с пересортировкой

22:10

API YouTube Раздельный сбор 4 Поиск каналов циклом for с пересортировкой

Просмотров 1,5 тыс.4 года назад

API RUclips Раздельный сбор 4 Поиск каналов циклом for с пересортировкой

API YouTube Раздельный сбор 3 Поиск каналов циклом while посредством Python

16:35

API YouTube Раздельный сбор 3 Поиск каналов циклом while посредством Python

Просмотров 1,7 тыс.4 года назад

API RUclips Раздельный сбор 3 Поиск каналов циклом while посредством Python

@Labotamia 23 дня назад
- уши только влевом наушники
@cigunnncigunnn3863 3 месяца назад
Непонятно, почему при поиске скачка в столбце коэффициентов на 1:32 в формуле происходит деление на последующее значение, а не на предыдущее, относительно которого и определяется скачок, например: = (D2419-D2418) / D2418
@АлексейРотмистров 3 месяца назад
Здравствуйте! Можно сделать и так, как предлагаете Вы. В некоторых случаях Ваш вариант определения числа кластеров будет давать иное число кластеров. Но это не страшно, поскольку дендрограмма и|или таблица агломерации -- это предварительный этап определения числа кластеров. В конечном счёте итоговое число кластеров определяется их качеством, в т.ч. интерпретируемостью
@АлінаШеремет-т7к 6 месяцев назад
Здравствуйте, подскажите, пожалуйста, что делать, если пишет при корреляционном анализе, в котором участвуют две переменные (одна с массива который был базой, а другая с нового): "Вычислить невозможно так как по крайней мере одна из переменных это константа" после слияния двух файлов по Вашему видео. Может, я что-то упустила? Буду очень благодарна!
@АлексейРотмистров 6 месяцев назад
Аліна, здравствуйте! Значит, одна из анализируемых переменных имеет лишь одно значение. Выведите их описательную статистику, проверьте
@tolstyakoff 7 месяцев назад
Спасибо
@maximenko_dm 7 месяцев назад
🤩
@АлексейРотмистров Год назад
С момента публикации видео разработчики selenium в очередной раз внесли ряд изменений в его работу. Главные из них: selenium не работает в CoLab и запускается следующим кодом: from selenium import webdriver rom selenium.webdriver.common.by import By driver = webdriver.Chrome() driver.get(Интересующий Вас URL) Причём *перед первым запуском selenium* следует 1) отсюда: chromedriver.chromium.org -- скачать chromedriver для Вашей операционной системы под актуальную версию браузера, назначенного на Вашем компьютере браузером по умолчанию 2) предварительно внести в PATH Windows (как на MacOS -- не знаю) путь к chromedriver.exe . Пример кода: path = r"C:\Program Files\chromedriver-win64\chromedriver.exe" sys.path.insert(0, path) 3) после исполнения этого кода удалите его или закоментьте
@dianavaldes2973 Год назад
Is there any possibility of obtaining at least the subtitles in english?
@АлексейРотмистров Год назад
Dear Diana! Click button Settings , choose Subtitles/CC , choose the prefered language . If it works, put your feedback here, please, how well Google subtitle generator performs)
@АлексейРотмистров Год назад
Возможно возникновение *ошибки ValueError: Length mismatch: Expected axis has 0 elements, new values have 2 elements* . Её непосредственная причина: из-за слишком малого числа наблюдений и, как следствие, большого несовпадения токенов в обучающей и тестовой [под]выборках. Поэтому дерево вырастает, но не может примениться к тестовой [под]выборке. В этом можно убедиться, исключив аргумент test_data=
@АнастасияБатуева-щ2т Год назад
День добрый! Не могу найти у вас файл, как слить наблюдения, если одни респонденты, но разные наблюдения
@АлексейРотмистров Год назад
Здравствуйте, респонденты и наблюдения -- это, как правильно, два названия одного и того же. Возможно, Вы имели в виду, что разные переменные. Тогда вот: ruclips.net/video/Y9sw-90sq2Y/видео.html
@АнастасияБатуева-щ2т Год назад
@@АлексейРотмистров Вы меня простите, тяжело осваиваю SPSS, для диссертации необходимо осуществить слияние файла по индивидам с файлом по домохозяйствам для отдельной волны...... И не могу найти пример как данную процедуру осуществить, мне надо (как я понимаю) слить по наблюдениям, нахожу всего несколько пар..... Но могу ли остальные непарные переменные перенести в новый активный набор данных сама или так нельзя делать...... Не могу у Вас подобный пример найти
@АлексейРотмистров Год назад
@@АнастасияБатуева-щ2т боюсь, что Ваш замысел реализовать невозможно, особенно если совпадающих переменных всего несколько в двух соединяемых базах. Точнее соединить-то Вы можете. но любой анализ на такой базе будет лишён смысла, скорее всего
@ИродаТожиева-я9ш Год назад
Спасибо! Очень помогли!
@ВикаЛюлина-й8г Год назад
Очень здорово объясняете.
@АлексейРотмистров Год назад
--- В классах Vectorizer *изменился метод для получения имён токенов* (скажем, для последующего использования в качестве названий столбцов датафрейма) -- теперь это .get_feature_names_out() --- В API произошло *изменение в номенклатуре и числе столбцов выдачи* ; само по себе оно, впрочем, не влияет на суть работы. Но оно приводит к дублированию столбцов в датафреймах с выдачей, что в совокупности со странностью индексирования по столбцам датафреймов с дублирующимися столбцами приводит к *ошибке* . Поэтому в начале обоих чанков # 6.4 следует добавить код: _comments_replies = comments_replies.groupby(level=0, axis=1).first()
@kamilsaidashev7801 Год назад
В зависимой переменной есть 3 значения, а уравнений выходит 2. Объясните, что подразумеваются под группами в таким случае? Ведь нужно это интерпретировать с точки зрений 3 переменных
@АлексейРотмистров Год назад
Здравствуйте, Камиль, конечно, два, ведь одна из категорий игрека становится референтной. Обратите внимание в видео на интерпретацию референтной категории по игреку
@kamilsaidashev7801 Год назад
@@АлексейРотмистров все понял, спасибо
@octavianracu Год назад
У меня более 100 переменных, большая часть из которых категориальные. В CATPCA все еще выдает Valid Active Cases - 0 Active Cases with Missing Values - 3619 Supplementary Cases - 0 Cases Used in Analysis - 3619 Если анализирую по группам, число Valid Active Cases более или менее нормальное. Что-то не так в оцифровке?
@АлексейРотмистров Год назад
Пришлите ссылку на Вашу базу, я посмотрю) alexey.n.rotmistrov@gmail.com
@octavianracu Год назад
Я так понимаю Cronbach's Alpha использовать для выявления числа компонентов, пока не дойдет ниже нуля?
@АлексейРотмистров Год назад
Да, именно так)
@octavianracu Год назад
Почему выдает такой результат? Это значит что не могу работать с такими данными? Valid Active Cases - 0 Active Cases with Missing Values - 3619 Cases used in Analysis - 3619
@АлексейРотмистров Год назад
У Вас все наблюдения по переменным, помещённым в анализ, почему-то имеют пропуски. Следует посмотреть, как они закодированы
@octavianracu Год назад
Выдает ошибку. Что не так? A case(s) has only missing data on the active variables, all to be treated as passive. The case(s) is handled as a supplementary object(s). Variable haschild has zero variance. This may be due to treating missing data as passive or listwise, or to the specification of supplementary objects, or to weighting objects with zero weights. Only the Descriptive Statistics tables can be computed.
@АлексейРотмистров Год назад
Здравствуйте, в переменных, поданных Вами в анализ, нет валидных значений и/или внутри каждой переменной нет вариации значений
@БорисМахров Год назад
А как записывать систему уравнений для поиска вероятностей, если в двух категорий количество значимых коэффициентов различно? То есть, для первой категории все коэффициенты значимы, а для второй только некоторые из них. Как я понял включать нужно в систему уравнений одинаковый набор иксов.
@АлексейРотмистров Год назад
Здравствуйте, Борис, хороший вопрос) Конвенционального ответа на него нет, или он мне не известен. Лично я предпочитаю сохранять во всех блоках регрессии все иксы, которые значимы хотя бы в одном из блоков
@vladtrokhanovsky2180 Год назад
можно каким то образом узнать категорию канала зная только его ID? Заранее спасибо
@АлексейРотмистров Год назад
Здравствуйте, Влад, да, методом channels такие характеристики, как topicDetails.topicCategories
@vladtrokhanovsky2180 Год назад
@@АлексейРотмистров это если вы получили данные с вашего родного RUclips канала. А если данные получены например из Google ads?
@АлексейРотмистров Год назад
@@vladtrokhanovsky2180 родной канал тут не при чём. У меня есть topicDetails.topicCategories по тысячам каналов. Вы думаете -- они все мои "родные"? Вводите известный ID в качестве значения аргумента в метод channels и получаете topicDetails.topicCategories
@vladtrokhanovsky2180 Год назад
@@АлексейРотмистров будем пробывать?
@АлексейРотмистров Год назад
@@vladtrokhanovsky2180 , конечно)
@АлексейРотмистров Год назад
*Итоговые скрипты* в формате .pdf drive.google.com/file/d/1kisUH9DhwZKJ7s_cwjGrYRghHePyU6So и drive.google.com/file/d/1_66MlKy70lgHyH3GMGHMnqSQBVVxyR2E -- чтобы легче было свериться, но не копипастить. Главная задача итогового скрипта -- показать логику решения задачи без промежуточных шагов. Во избежание копипаста в скрипт внесены небольшие непринципиальные изменения относительно скрипта в самом видео (названия файлов Excel, пути к файлам и т.п.).
@АлексейРотмистров 2 года назад
*Итоговый скрипт* в формате .pdf drive.google.com/file/d/1L53wuj1HskvJd-vXLNVjGgkGEkPGCvNo/ -- чтобы легче было свериться, но не копипастить. Главная задача итогового скрипта -- показать логику решения задачи без промежуточных шагов. Во избежание копипаста в скрипт внесены небольшие непринципиальные изменения относительно скрипта в самом видео (названия файлов Excel, пути к файлам и т.п.).
@АлексейРотмистров 2 года назад
*Итоговый скрипт* в формате .pdf drive.google.com/file/d/1zvduiky7fAfEd0EMmlH4gXlfYQk2CAue -- чтобы легче было свериться, но не копипастить. Главная задача итогового скрипта -- показать логику решения задачи без промежуточных шагов. Во избежание копипаста в скрипт внесены небольшие непринципиальные изменения относительно скрипта в самом видео (названия файлов Excel, пути к файлам и т.п.).
@АлексейРотмистров Год назад
*Внимание!* В коде сайта произошло изменение, отразившееся в следующем изменении кода для его парсинга: - в фрагменте df.loc[url_prjct, 'Срочность конкурса'] = 'urgently-1.png' in block было urgently, а стало urgently-1 (добавился индекс: -1) Кроме того, в текущей редакции кода сайта заказчик может быть отображён на странице конкурса безымянным ("Заказчик"), техническим ником (который совпадает с частью URL-адреса заказчика) и нетехническим ником (который не совпадает с частью URL-адреса заказчика). Поэтому в скрпит добавлен фрагмент кода для замены безымянного "Заказчика" хотя бы на технический ник из URL заказчика: if df.loc[url_prjct, "Заказчик конкурса"] == 'Заказчик': df.loc[url_prjct, "Заказчик конкурса"] = block.get('href').split('/')[-1]
@jinnysharma221 2 года назад
HI.. CAN IT MADE AVAILABLE IN ENGLISH?
@АлексейРотмистров 2 года назад
*Итоговый скрипт* в формате .pdf drive.google.com/file/d/1AgAH8Wnf9jwtcj2RR4iJFYhfKslHyp_Y -- чтобы легче было свериться, но не копипастить. Главная задача итогового скрипта -- показать логику решения задачи без промежуточных шагов. Во избежание копипаста в скрипт внесены небольшие непринципиальные изменения относительно скрипта в самом видео (названия файлов Excel, пути к файлам и т.п.).
@АлексейРотмистров Год назад
*Внимание!* В коде сайта произошло изменение, отразившееся в следующем изменении кода для его парсинга: - в фрагменте df.loc[url_prjct, 'Отзывы+'] = int(re.findall(r'Отзывы \+ \d+', block)[0].split(' ')[-1]) if 'Отзывы' in block else 0 было Отзывы\+, а стало Отзывы \+ (добавился пробел)
@АлексейРотмистров 2 года назад
*Итоговый скрипт* в формате .pdf drive.google.com/file/d/1pmumDWJg947rUlC8waGXYPRCMZVLuXvG -- чтобы легче было свериться, но не копипастить. Главная задача итогового скрипта -- показать логику решения задачи без промежуточных шагов. Во избежание копипаста в скрипт внесены небольшие непринципиальные изменения относительно скрипта в самом видео (названия файлов Excel, пути к файлам и т.п.). *Исправленный и дополненный скрипт* drive.google.com/file/d/1zZc4BRCg5yg32DTQIxoSEi7o0ro6SnpN (детали в "Основы regular expression, а также requests и bs4. Видео 4")
@АлексейРотмистров Год назад
*Внимание!* В коде сайта произошли следующие изменения, важные для его скрапинга: - было <div class="b-layout__txt b-layout__txt_padbot_20"> , стало <div class="text-5 text-dark"> . Это важно для парсинга описания конкурса - было <div class="b-layout__txt b-layout__txt_fontsize_11"> , стало <div class="text-5 mt-8"> . Это важно для парсинга раздела, к которому отнесён конкурс - изменения коснулись и содержимого атрибута, важного для парсинга URL-адреса страницы заказчика конкурса. Но вместо замены содержимого атрибута для большей универсальности кода предлагаю изменить этот фрагмент кода кардинально (смотрите исправленный и дополненный скрипт выше)
@АлексейРотмистров 2 года назад
*Схема скрапинга* RUclips drive.google.com/file/d/1t6trku8-PqwNXlH9ghW9fxF4d4dVNUhQ
@АлексейРотмистров 2 года назад
*Итоговый скрипт* в формате .pdf drive.google.com/file/d/1vBCCpjcNg9aKvuAHdTbahcYZ_cNJfIow -- чтобы легче было свериться, но не копипастить. Главная задача итогового скрипта -- показать логику решения задачи без промежуточных шагов. Во избежание копипаста в скрипт внесены небольшие непринципиальные изменения относительно скрипта в самом видео (названия файлов Excel, пути к файлам и т.п.).
@АлексейРотмистров 2 года назад
*Схема скрапинга* сайта FL.ru drive.google.com/file/d/1QzhARVVaDt7RQ4Ahfqsd4PjL2X7gkrPF
@АлексейРотмистров Год назад
*Внимание!* В коде сайта произошли следующие изменения, важные для его скрапинга: - было <h1 class="b-page__title"> , стало <h1 class="text-1 d-flex align-items-center"> . Это важно для парсинга названия конкурса - было <div class="contest-e"> , стало <div class="d-lg-flex align-items-center"> . Это важно для парсинга ника заказчика конкурса и даты регистрации заказчика - теперь ник заказчика помещён не в квадратные скобки, а полностью перед ними, поэтому для парсинга ника заказчика и даты регистрации конкурса следует ориентироваться не на первую закрывающую квадратную скобку, а на первую открывающую
@АлексейРотмистров 2 года назад
Итоговый скрипт в формате .pdf drive.google.com/file/d/1Iu8GfQTdw_Wq87oL-II6LqffIttDKN8h -- чтобы легче было свериться, но не копипастить. Главная задача итогового скрипта -- показать логику решения задачи без промежуточных шагов. *С момента записи видео в скрипт внесены непринципиальные изменения* относительно скрипта в самом видео (названия файлов Excel, пути к файлам и т.п.).
@АлексейРотмистров 2 года назад
Файл datetime.xlsx docs.google.com/spreadsheets/d/1s8og9GIP0HMYra_5OAQk01frTov1ThGx
@АлексейРотмистров 2 года назад
Файл datetime.xlsx docs.google.com/spreadsheets/d/1oIbwAxQQigxu3W75Qs78el7-Bp1bYy6l
@alexeykorchevnyy3109 Год назад
Алексей, доброго времени суток, не могу с колаба запустить вебдрайвер подскажите как вы это делали
@АлексейРотмистров Год назад
@@alexeykorchevnyy3109 здравствуйте! Для колаба требуется иной набор команд install и import . Попробуйте: !pip install selenium !apt-get update # to update ubuntu to correctly run apt install !apt install chromium-chromedriver !cp /usr/lib/chromium-browser/chromedriver /usr/bin import sys sys.path.insert(0,'/usr/lib/chromium-browser/chromedriver') from selenium import webdriver chrome_options = webdriver.ChromeOptions() chrome_options.add_argument('--headless') chrome_options.add_argument('--no-sandbox') chrome_options.add_argument('--disable-dev-shm-usage') wd = webdriver.Chrome('chromedriver',options=chrome_options) wd.get("www.webite-url.com")
@alexeykorchevnyy3109 Год назад
@@АлексейРотмистров получилось хотябы не т ошибок но браузер так и не открылся и страницу я не увидел, Алексей я вот схожий скрипт осколками видел на англоязычных ресурсах, и вы прям выжимку сделали, но это получается "рыбка" а я хочу "удочку" в плане разобраться сам подскажите ресурс где вот так грамотно вам про такой скрипт выше написали
@annapavlova1560 2 года назад
Спасибо за курс! Очень понятно и подробно объяснено
@АлексейРотмистров 2 года назад
И Вам спасибо)
@denischerevko6782 2 года назад
Добавил в закладки. Буду изучать более детально
@СергейРотарь-з3ш 2 года назад
а как связаться? есть канал в тг но ни почты ни тг акка нигде нет
@АлексейРотмистров 2 года назад
alexey.n.rotmistrov@gmail.com
@МаксимАлексеев-е4б 2 года назад
Так нельзя учить. Такой код неработоспособен в реальном мире.
@АлексейРотмистров 2 года назад
Почему не работоспособен в мире Максима Алексеева?)
@АлексейРотмистров 2 года назад
*Итоговый скрипт* в формате .pdf drive.google.com/file/d/1HLP9CoZAyN1U1ckQnklYA0MOfbF1N_ED -- чтобы легче было свериться, но не копипастить. Главная задача итогового скрипта -- показать логику решения задачи без промежуточных шагов. Во избежание копипаста в скрипт внесены небольшие непринципиальные изменения относительно скрипта в самом видео (названия файлов Excel, пути к файлам и т.п.).
@АлексейРотмистров 2 года назад
*Итоговый скрипт* в формате .pdf drive.google.com/file/d/1xFWJGlyxbsKHQDVAp8dcbE_BrsC8sXdJ -- чтобы легче было свериться, но не копипастить. Главная задача итогового скрипта -- показать логику решения задачи без промежуточных шагов. Во избежание копипаста в скрипт внесены небольшие непринципиальные изменения относительно скрипта в самом видео (названия файлов Excel, пути к файлам и т.п.).
@АлексейРотмистров 2 года назад
*Итоговый скрипт* в формате .pdf drive.google.com/file/d/1Xrz1kGS9BzU03MG09PEyclerOdect8hW -- чтобы легче было свериться, но не копипастить. Главная задача итогового скрипта -- показать логику решения задачи без промежуточных шагов. Во избежание копипаста в скрипт внесены небольшие непринципиальные изменения относительно скрипта в самом видео (названия файлов Excel, пути к файлам и т.п.).
@тимШ-м8й 2 года назад
This is the start of a comment thread.
@zubkovsky 2 года назад
Спасибо за науку! Можете поделиться непосредственно скриптом? Планируете ли продолжать публикацию роликов?
@АлексейРотмистров 2 года назад
Здравствуйте, и Вам спасибо) Скрипты в течение будут к большинству видео про Python, а новые видео, вероятно, ближе к лету
@anastasianesterenko9123 2 года назад
Скажите пожалуйста у меня пропал масса из спсс?!?! Что делать где искать???
@АлексейРотмистров 2 года назад
Здравствуйте, Анастасия) Что за масса? Весовая переменная пропала?
@anastasianesterenko9123 2 года назад
Массив анкет
@АлексейРотмистров 2 года назад
@@anastasianesterenko9123 Ого! После слияния файлов пропал массив анкет?
@АлексейРотмистров 2 года назад
*Итоговый скрипт* в формате .pdf drive.google.com/file/d/10PCs6KGfAnr8ZcgWL23WaCL-bpdTY9i7 -- чтобы легче было свериться, но не копипастить. Главная задача итогового скрипта -- показать логику решения задачи без промежуточных шагов. Во избежание копипаста в скрипт внесены небольшие непринципиальные изменения относительно скрипта в самом видео (названия файлов Excel, пути к файлам и т.п.).
@АлексейРотмистров 2 года назад
*Итоговый скрипт* в формате .pdf drive.google.com/file/d/1cUQxWyEcEXYW-OvVq8-7oeIOF4otvNxZ -- чтобы легче было свериться, но не копипастить. Главная задача итогового скрипта -- показать логику решения задачи без промежуточных шагов. Во избежание копипаста в скрипт внесены небольшие непринципиальные изменения относительно скрипта в самом видео (названия файлов Excel, пути к файлам и т.п.).
@denischerevko6782 3 года назад
Классный контент. Очень познавательно
@АлексейРотмистров 3 года назад
*Итоговый скрипт* в формате .pdf drive.google.com/file/d/1Ymwc7Nd_Kp5FA-LvBe-qP0TuqELxed9S -- чтобы легче было свериться, но не копипастить. Главная задача итогового скрипта -- показать логику решения задачи без промежуточных шагов. Во избежание копипаста в скрипт внесены небольшие непринципиальные изменения относительно скрипта в самом видео (названия файлов Excel, пути к файлам и т.п.).
@АлексейРотмистров 3 года назад
*Итоговый скрипт* в формате .pdf drive.google.com/file/d/1ZXdsRi8bJ01_iIhFCzT26zyMoLoFKQoc -- чтобы легче было свериться, но не копипастить. Главная задача итогового скрипта -- показать логику решения задачи без промежуточных шагов. Во избежание копипаста в скрипт внесены небольшие непринципиальные изменения относительно скрипта в самом видео (названия файлов Excel, пути к файлам и т.п.).
@АлексейРотмистров 3 года назад
*Итоговый скрипт* в формате .pdf drive.google.com/file/d/1T4cjQ97rPcG46k7vy4VFHdeopPPd1Rer -- чтобы легче было свериться, но не копипастить. Главная задача итогового скрипта -- показать логику решения задачи без промежуточных шагов. Во избежание копипаста в скрипт внесены небольшие непринципиальные изменения относительно скрипта в самом видео (названия файлов Excel, пути к файлам и т.п.).
@АлексейРотмистров 3 года назад
*Итоговый скрипт* в формате .pdf drive.google.com/file/d/1SRLnmZm0neqOMM1dz0eQXOEkU_Q5M4V1 -- чтобы легче было свериться, но не копипастить. Главная задача итогового скрипта -- показать логику решения задачи без промежуточных шагов. Во избежание копипаста в скрипт внесены небольшие непринципиальные изменения относительно скрипта в самом видео (названия файлов Excel, пути к файлам и т.п.).
@АлексейРотмистров 3 года назад
*Итоговый скрипт* в формате .pdf drive.google.com/file/d/144X2YFDD8P83s4v1h0sxvaSWADeXKKES -- чтобы легче было свериться, но не копипастить. Главная задача итогового скрипта -- показать логику решения задачи без промежуточных шагов. Во избежание копипаста в скрипт внесены небольшие непринципиальные изменения относительно скрипта в самом видео (названия файлов Excel, пути к файлам и т.п.).
@АлексейРотмистров 3 года назад
*Итоговый скрипт* в формате .pdf drive.google.com/file/d/1p-vSJZvo2rpU8zWnhEEOavLybIB-6D0k -- чтобы легче было свериться, но не копипастить. Главная задача итогового скрипта -- показать логику решения задачи без промежуточных шагов. Во избежание копипаста в скрипт внесены небольшие непринципиальные изменения относительно скрипта в самом видео (названия файлов Excel, пути к файлам и т.п.).
@АлександрМилорадович 3 года назад
Спасибо большое! Вы единственный человек, который доступно объяснил и показал, где в СПСС оценивается нормальность распределения!
@MrPramanirahul 3 года назад
This is amazing. However, can you please do this in English? I'm using CATPCA for my research , or if I can connect with you in some way!
@АлексейРотмистров 3 года назад
alexey.n.rotmistrov@gmail.com
@ВладимирИстомин-й7о 3 года назад
Небольшой совет для тех, кто будет работать с большим количеством комментариев. В циклах лучше не использовать конкатенацию от pandas, потому что под капотом происходит копирование датафрейма => сложность такой программы будет O(n**2), т.е. будет оочень долго все работать. Лучшей практикой будет добавление df_additional в какой-то общий список, а потом конкатенация этого списка. В таком случае сложность будет O(n), т.к. добавление n датафреймов в список займет O(n), потому что добавление каждого отдельного элемента это O(1), и одна единственная конкатенация в конце также займет O(n).

Алексей Ротмистров

Комментарии