❗❗❗Так называемое Министерство юстиции РФ признало «Важные истории» «нежелательной организацией». Так что репост этого и любого другого нашего видео может караться штрафом, а повторный репост - уголовным делом. Но никто не может запретить вам смотреть и думать. Поэтому подписывайтесь на наш канал, просите подписаться своих друзей и оставайтесь с нами - в это темное время выжить мы сможем только вместе.
а за что хоть ваш признали что сказали в итоге? Да и хотите задание по круче: сделайте отбор всех дел по статье 105. ч1 потом проанализируйте степень жестокости убийства и ваш ждет сюрприз: 40% дел по этой статье явно тянут на часть вторую - за такое раследование я думаю вам тоже дадут звание очень нежелательной организации
Афигеть. Посмотрел и сразу переписал анализатор для SEO. Молодцы! И да, лучшая серия статей (и видео) про написание парсера. Больше программирования, больше python, больше работы с данными!
Добрый день из будущего (настоящего). Вы не извлекали из этих приговоров длину срока? Очень интересно, есть ли подобные a la natasha решения для это проблемы. Решение в видео про регулярки увидел. Это лучшее, что можно сделать?
Добрый день. Внимательно всегда за спикером делаю урок. В этом - не смогла ничего сделать с самого начала. Пошла в текстовую версию. Переписала из текстовой версии первое окно, это импорт из Наташи. Выдает ошибку: кто такая Наташа. И правда: как моя тетрадка юпитер.ноутбук с 13-м уроком узнает, что такое Наташа? Тетрадка с уроком на гитхабе тоже недоступна, выдает ошибку ("Sorry, something went wrong. Reload?"). Может, для большинства это очевидное какое-то дело и я глупость спрашиваю, конечно.
Здравствуйте! Глупых вопросов не существует. Если вы что-то не поняли, значит, это мы разъяснили не достаточно хорошо. Поэтому спасибо большое, что задали эти вопросы. Давайте разбираться) Вы правы, кажется, на видео мы пропустили один шаг. Если раньше у вас Natasha не было, то сначала нужно эту библиотеку установить. Поэтому первой строчкой кода должно быть pip install natasha а второй строчкой from natasha import ( и все должно работать. (подробнее о начале работы с библиотекой Natasha можно почитать в блоге ее разработчиков, мы оставляли ссылку в текстовой версии, но сюда тоже продублируем github.com/natasha/natasha) Очень странно, что тетрадка у вас не открылась. Возможно, были какие-то проблемы на стороне GitHub - попробуйте еще раз, пожалуйста github.com/iStoriesMedia/python_lessons/blob/main/Python.%20Библиотека%20Natasha.ipynb Как попробуете - напишите нам пожалуйста, заработало или нет. Если что, писать можно в телеграм-чатик при Мастерской - там вопросы мы увидим быстрее t.me/istories_helloworld
@@istories_workshop Наташу скачала. Спасибо большое, это было не совсем очевидно. Тетрадка позже открылась на гитхабе. Но - все равно не получается. Придется репетитора брать или как-то добирать по-другому, я не знаю. Бьюсь над каждым уроком по несколько часов, но ничего не получается. Даже при копировании с тетрадки с поправкой на мои файлы все равно выдает ошибки. Гугл предлагает варианты, но они тоже не работают.
@@stregoikakanitelka2115 Если возникают какие-то проблемы с установкой и работой локально, то, возможно, вам стоит попробовать повторять блокнот в Google Colab, а не локально. В некоторых курсах для начинающих аналитиков рекомендуют Colab вместо jupyter, так как нет гемора с установкой, правами, версиями т.п. Понимаю, что проблема вряд ли ещё актуальна, но, на всякий случай написал.
Не видя ваш код, сложно сказать. ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА Есть два пути: - попробуйте погуглить свою ошибку, скорее всего, такое уже у кого-то было. - пришлите скриншот вашего кода и описание ошибки в наш чат t.me/istories_helloworld попробуем помочь)
@@МихаилЗиннатуллин-в3х понятно. Тоже решал сейчас эту задачу на датафрейме. Нужно было извлекать топонимы из строки. Оформил в функцию, функцию применил через apply. Что делать с OrderedDict пока не придумал, но первый шаг есть. Например: def get_address(value): try: return [geo_obj.fact.as_json for geo_obj in addr_extractor(value)] except: return np.nan df['col'].apply(get_address)
Часть кода doc.tag_morph(morph_tagger) display(doc.tokens[:5]) показывает пример морфологического разбора слов текста. У каждого слова в output есть атрибут "pos=". Там, где ops-NOUN - слово является существительным. Т.е. можно просто проверять if pos == NOUN - и если да, сохранять это слово себе, например, в список.
Я так понимаю, что нормализация фамилий не всегда корректно проходит и требуется дополнительный анализ. Возможно фамилии женщин неверно нормализованы. В вашем примере: Русинова - Русинов, Русинов - Русины. Если в небольшом примере столько возможных ошибок, то в больших текстах их будет больше. Я думаю нужно быть крайне внимательным с анализом фамилий.
Как я понимаю, задача стоит распарсить имена. Но впоследствии валидирует варианты все равно человек. Плюс, в один кластер имён можно помещать не просто одинаковые нормализованные имена, но и просто близкие по какой-либо метрике( тот же левенштайн, например)
❗❗❗Так называемое Министерство юстиции РФ признало «Важные истории» «нежелательной организацией». Так что репост этого и любого другого нашего видео может караться штрафом, а повторный репост - уголовным делом.
Но никто не может запретить вам смотреть и думать. Поэтому подписывайтесь на наш канал, просите подписаться своих друзей и оставайтесь с нами - в это темное время выжить мы сможем только вместе.
а за что хоть ваш признали что сказали в итоге? Да и хотите задание по круче: сделайте отбор всех дел по статье 105. ч1 потом проанализируйте степень жестокости убийства и ваш ждет сюрприз: 40% дел по этой статье явно тянут на часть вторую - за такое раследование я думаю вам тоже дадут звание очень нежелательной организации
Афигеть. Посмотрел и сразу переписал анализатор для SEO. Молодцы! И да, лучшая серия статей (и видео) про написание парсера.
Больше программирования, больше python, больше работы с данными!
О, я на этой библиотеке свою ВКР писал по автоматическому аннотированию информации))
Очень интересно, спасибо!
Добрый день из будущего (настоящего). Вы не извлекали из этих приговоров длину срока? Очень интересно, есть ли подобные a la natasha решения для это проблемы. Решение в видео про регулярки увидел. Это лучшее, что можно сделать?
Добрый день. А есть аналогичная библиотека, где можно изымать имена и фамиии, но только для английского языка?
Добрый день. Внимательно всегда за спикером делаю урок. В этом - не смогла ничего сделать с самого начала. Пошла в текстовую версию. Переписала из текстовой версии первое окно, это импорт из Наташи. Выдает ошибку: кто такая Наташа. И правда: как моя тетрадка юпитер.ноутбук с 13-м уроком узнает, что такое Наташа? Тетрадка с уроком на гитхабе тоже недоступна, выдает ошибку ("Sorry, something went wrong. Reload?"). Может, для большинства это очевидное какое-то дело и я глупость спрашиваю, конечно.
Здравствуйте! Глупых вопросов не существует. Если вы что-то не поняли, значит, это мы разъяснили не достаточно хорошо. Поэтому спасибо большое, что задали эти вопросы. Давайте разбираться)
Вы правы, кажется, на видео мы пропустили один шаг. Если раньше у вас Natasha не было, то сначала нужно эту библиотеку установить. Поэтому первой строчкой кода должно быть
pip install natasha
а второй строчкой
from natasha import (
и все должно работать.
(подробнее о начале работы с библиотекой Natasha можно почитать в блоге ее разработчиков, мы оставляли ссылку в текстовой версии, но сюда тоже продублируем github.com/natasha/natasha)
Очень странно, что тетрадка у вас не открылась. Возможно, были какие-то проблемы на стороне GitHub - попробуйте еще раз, пожалуйста
github.com/iStoriesMedia/python_lessons/blob/main/Python.%20Библиотека%20Natasha.ipynb
Как попробуете - напишите нам пожалуйста, заработало или нет.
Если что, писать можно в телеграм-чатик при Мастерской - там вопросы мы увидим быстрее
t.me/istories_helloworld
@@istories_workshop Наташу скачала. Спасибо большое, это было не совсем очевидно. Тетрадка позже открылась на гитхабе. Но - все равно не получается. Придется репетитора брать или как-то добирать по-другому, я не знаю. Бьюсь над каждым уроком по несколько часов, но ничего не получается. Даже при копировании с тетрадки с поправкой на мои файлы все равно выдает ошибки. Гугл предлагает варианты, но они тоже не работают.
@@stregoikakanitelka2115
Если возникают какие-то проблемы с установкой и работой локально, то, возможно, вам стоит попробовать повторять блокнот в Google Colab, а не локально.
В некоторых курсах для начинающих аналитиков рекомендуют Colab вместо jupyter, так как нет гемора с установкой, правами, версиями т.п.
Понимаю, что проблема вряд ли ещё актуальна, но, на всякий случай написал.
когда пытаюсь привести слова к начальной форме выдает такую ошибку: 'NoneType' object has no attribute 'keys'. В чем может быть проблема?
Не видя ваш код, сложно сказать.
ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА
Есть два пути:
- попробуйте погуглить свою ошибку, скорее всего, такое уже у кого-то было.
- пришлите скриншот вашего кода и описание ошибки в наш чат t.me/istories_helloworld попробуем помочь)
Круто, только вот как применить эту библиотеку к столбцу датафрейма, где у меня записаны сообщения, например для извлечения фио...
Удалось найти решение?
@@liveworkdie регулярные выражения неплохо справились
@@МихаилЗиннатуллин-в3х понятно. Тоже решал сейчас эту задачу на датафрейме. Нужно было извлекать топонимы из строки. Оформил в функцию, функцию применил через apply. Что делать с OrderedDict пока не придумал, но первый шаг есть. Например:
def get_address(value):
try: return [geo_obj.fact.as_json for geo_obj in addr_extractor(value)]
except: return np.nan
df['col'].apply(get_address)
display(doc.sents[:5]) Это разве PYTHON - команда?
Какие системные требования для данной библиотеки по памяти ?
В их документации точных сведений нет, но там указано, что библиотека создавалась под реальные задачи и бережно относится к ресурсам компьютера.
Очень расплывчатое объяснение в документации. Не понятно насколько старое железо потянет.
@@R4HKN у вас так же размывчатые требования. Штук сто скачанных статей потянет на любом железе, миллион нет. Зависит от объёмов
@Андрей Малинин насколько я знаю, там только технологии парсеров, куча правил и подчищенные словари. Никаких сетей и тяжелых моделей
А как допустим извлечь существительные из текста при помощи Наташи?
Часть кода
doc.tag_morph(morph_tagger)
display(doc.tokens[:5])
показывает пример морфологического разбора слов текста.
У каждого слова в output есть атрибут "pos=". Там, где ops-NOUN - слово является существительным.
Т.е. можно просто проверять if pos == NOUN - и если да, сохранять это слово себе, например, в список.
Я так понимаю, что нормализация фамилий не всегда корректно проходит и требуется дополнительный анализ. Возможно фамилии женщин неверно нормализованы. В вашем примере: Русинова - Русинов, Русинов - Русины. Если в небольшом примере столько возможных ошибок, то в больших текстах их будет больше. Я думаю нужно быть крайне внимательным с анализом фамилий.
Как я понимаю, задача стоит распарсить имена. Но впоследствии валидирует варианты все равно человек. Плюс, в один кластер имён можно помещать не просто одинаковые нормализованные имена, но и просто близкие по какой-либо метрике( тот же левенштайн, например)
Да, она ошибается с нормализацией. Поэтому в расследовании про "штатных" понятых мы ее не использовали, чтобы не рисковать.
@@istories_workshop расскажите про инструменты которые вы используете в своих расследования и/или исследованиях.
@@akmiable в исследованиях один из самых полезных - Python + библиотеки. Про библиотеки как раз начинаем рассказывать. Stay tuned
Заметили, когда вы расссматриваете реальные кейсы из своей работы(журналиста). "ТоварищЪ майор" не з@лупается)))
Может он просто устал?))
Такое оппозиционное IT мне по вкусу!!
а разве правильно нормализовала Русинов А.А -> Русины А.А?
Ывп
Ы
Стукачей и лже понятых публиковать нужно.
Список подозрительных понятых мы опубликовали в материале. Надеемся, это хоть как-то повлияет на ситуацию
@@istories_workshop ддддд 😗😏🥰🥰🥰😅😅😆🤣🧐😒😒😐😐😐😐🧐😐😒😒😒😐😐😾😶😶😶😶😶😶🤯🤯🤐🤐🤐🤐🤐🤐🎯🏒🏒🏒🏒
@@istories_workshop ьлл
@@istories_workshop ддш
Ох уж эти борцуняшки с рыжымом