Как начать текст-майнинг?

17 Ходов ПЕШКАМИ Подряд!В Психбольнице ему ЗАПРЕТИЛИ Шахматы. Бессмертная Партия Пешек

Эффективно программировать на Python в Jupyter Notebook

Chino Pacas - Smith (ft. Junior H & Fuerza Regida) [Video Visualizador Oficial]

Stephen A. has MIXED FEELINGS about Kawhi Leonard out indefinitely | First Take

Authenticity in Music

API YouTube. Семь тысяч комментариев за четыре минуты

Алексей Ротмистров

Просмотров 1,4 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 19 окт 2024

Комментарии • 2

@АлексейРотмистров Год назад
--- В классах Vectorizer *изменился метод для получения имён токенов* (скажем, для последующего использования в качестве названий столбцов датафрейма) -- теперь это .get_feature_names_out()
--- В API произошло *изменение в номенклатуре и числе столбцов выдачи* ; само по себе оно, впрочем, не влияет на суть работы. Но оно приводит к дублированию столбцов в датафреймах с выдачей, что в совокупности со странностью индексирования по столбцам датафреймов с дублирующимися столбцами приводит к *ошибке* . Поэтому в начале обоих чанков # 6.4 следует добавить код: _comments_replies = comments_replies.groupby(level=0, axis=1).first()
@ВладимирИстомин-й7о 3 года назад ⁺¹
Небольшой совет для тех, кто будет работать с большим количеством комментариев. В циклах лучше не использовать конкатенацию от pandas, потому что под капотом происходит копирование датафрейма => сложность такой программы будет O(n**2), т.е. будет оочень долго все работать. Лучшей практикой будет добавление df_additional в какой-то общий список, а потом конкатенация этого списка. В таком случае сложность будет O(n), т.к. добавление n датафреймов в список займет O(n), потому что добавление каждого отдельного элемента это O(1), и одна единственная конкатенация в конце также займет O(n).

Следующие

Автовоспроизведение

Как начать текст-майнинг?

Как начать текст-майнинг?

17 Ходов ПЕШКАМИ Подряд!В Психбольнице ему ЗАПРЕТИЛИ Шахматы. Бессмертная Партия Пешек

17 Ходов ПЕШКАМИ Подряд!В Психбольнице ему ЗАПРЕТИЛИ Шахматы. Бессмертная Партия Пешек

Эффективно программировать на Python в Jupyter Notebook

Эффективно программировать на Python в Jupyter Notebook

Chino Pacas - Smith (ft. Junior H & Fuerza Regida) [Video Visualizador Oficial]

Chino Pacas - Smith (ft. Junior H & Fuerza Regida) [Video Visualizador Oficial]

Stephen A. has MIXED FEELINGS about Kawhi Leonard out indefinitely | First Take

Stephen A. has MIXED FEELINGS about Kawhi Leonard out indefinitely | First Take

Authenticity in Music

Authenticity in Music

FKA twigs - Perfect Stranger

FKA twigs - Perfect Stranger

selenium на Python за 25 минут: автоматизированная выгрузка FinAM

selenium на Python за 25 минут: автоматизированная выгрузка FinAM

Copilot for Security AI революция в сфере информационной безопасности

Copilot for Security AI революция в сфере информационной безопасности

Программисты вычисляют учителей информатики | Свой/Чужой | КУБ

Программисты вычисляют учителей информатики | Свой/Чужой | КУБ

CI/CD - Простым языком на понятном примере

CI/CD — Простым языком на понятном примере

Основы requests и bs4 за 44 минуты. Видео 1

Основы requests и bs4 за 44 минуты. Видео 1

ChatGPT: от новичка до PRO за полчаса

ChatGPT: от новичка до PRO за полчаса

Замените игры программированием. Быстрый способ выучить программирование используя Keepin Box

Замените игры программированием. Быстрый способ выучить программирование используя Keepin Box

КАК УСТРОЕН TCP/IP?

КАК УСТРОЕН TCP/IP?

Что такое REST API? HTTP, Клиент-Сервер, Проектирование, Разработка, Документация, Swagger и OpenApi

Что такое REST API? HTTP, Клиент-Сервер, Проектирование, Разработка, Документация, Swagger и OpenApi

【斗罗大陆】跟着小舞唐三魔法变一起百变吧！ #斗罗大陆#唐三#小舞#唐老六

【斗罗大陆】跟着小舞唐三魔法变一起百变吧！ #斗罗大陆#唐三#小舞#唐老六

АНЖЕЛИНА ДЖОУЛИ 😂 #тыктотакой #карокозян #дедищев #чабдаров #туганов #амарян #mediumquality #юмор

АНЖЕЛИНА ДЖОУЛИ 😂 #тыктотакой #карокозян #дедищев #чабдаров #туганов #амарян #mediumquality #юмор

Watching This On Loop ♾️

Watching This On Loop ♾️

НАШЕЛ ГИГАНТСКИЙ ПОДЗЕМНЫЙ ДОМ В ЛЕСУ!

НАШЕЛ ГИГАНТСКИЙ ПОДЗЕМНЫЙ ДОМ В ЛЕСУ!

Султан Лагучев ПЕРЕПЕЛ хит Славы! Как вам такая версия? | Битва поколений

Султан Лагучев ПЕРЕПЕЛ хит Славы! Как вам такая версия? | Битва поколений

The best replay of all time! 🤯 #Rugby #Shorts #Sevens

The best replay of all time! 🤯 #Rugby #Shorts #Sevens

RENT SKINS in Standoff 2? #standoff #rental #skins

RENT SKINS in Standoff 2? #standoff #rental #skins

ИСКАЛИ НЕМЦА ЗА СОТКУ А НАШЛИ ИРАНСКУЮ "БОМБУ" !!!!!

ИСКАЛИ НЕМЦА ЗА СОТКУ А НАШЛИ ИРАНСКУЮ "БОМБУ" !!!!!