Очень хорошее видео и прекрасный блокнот. Для меня как новичка были очень полезны ваши комментарии про нормировку. Было очень полезно посмотреть на графики падения расстояния и дендрограммы.
автор немного оговорился, 50% процентиль (медиана) в описательной статистике которую выдает метод describe() показывает наиболее вероятное количество обзоров лишь в том случает, если это нормальное распределение, ну это так, по сути больше придирка, я сам вчера только узнал, вот и выпендрился для закрепления инфы =) А подача очень доступная, лайк!
Не оговорился. :-) Медиана в любом распределении - это линия, выше и ниже которой (условно) по 50% значений. А вот среднее значение (mean) действительно не равно медиане в смещенных распределениях. Надо пересмотреть, конечно, возможно, я оговорился имя в виду моду (наиболее часто встречаемое значение) - тогда да, она будет также совпадать с медианной и средний только в нормальном (или треугольном) распределении. Спасибо за отзыв! Ценно!
Посмотрел блокнот. Не нашел такого. Можете более детально описать в какой части кода встретили такое? Естественно, что сумма размеров кластеров не может быть больше количества элементов в выборке.
Здравствуйте, подскажите пожалуйста как действовать, если необходимо произвести кластерный анализ и разделение на кластеры, при этом необходимо учитывать более 2-3 столбцов в качестве атрибутов объекта(большой размерности). Спасибо
Если достаточно памяти и вычислительных ресурсов - то точно так же. Как вариант, можно использовать сжатие признаков методом главных компонент pca или все таки выделить только наиболее значимые признаки.
Здравствуйте, не подскажете как средствами python проверить кластеризацию функционалом качества например через формулу Сумма средних внутрикластерных расстояний стремится к минимуму?
Здравствуйте, Андрей! можете подсказать, импортирую csv файл в юпитер, но датафрейм не красивый) получается. Съезжают столбцы, между названиями столбцов появляются ; как это можно исправить. Спасибо
Елена, скорее всего, это ошибки самого файла. Не везде, например, стоят разделители. Возможно, есть также пустые строки в заголовке. В этом случае, надо или удалить, или указать на их наличие при импорте.
Очень хорошее видео и прекрасный блокнот. Для меня как новичка были очень полезны ваши комментарии про нормировку. Было очень полезно посмотреть на графики падения расстояния и дендрограммы.
Андрей, спасибо вам за ваш труд, вы прекрасны! Мне очень нравятся ваши подача материала и дикция :)
Спасибо!
Спасибо вам за такой подробный, качественный, полноценный кластерный анализ. Очень помогли в написании проекта.
Спасибо Вам большое! Материал просто ну очень полезный. Вы нас очень выручаете
Вы просто супер, спасибо большое!
автор немного оговорился, 50% процентиль (медиана) в описательной статистике которую выдает метод describe() показывает наиболее вероятное количество обзоров лишь в том случает, если это нормальное распределение, ну это так, по сути больше придирка, я сам вчера только узнал, вот и выпендрился для закрепления инфы =) А подача очень доступная, лайк!
Не оговорился. :-) Медиана в любом распределении - это линия, выше и ниже которой (условно) по 50% значений. А вот среднее значение (mean) действительно не равно медиане в смещенных распределениях. Надо пересмотреть, конечно, возможно, я оговорился имя в виду моду (наиболее часто встречаемое значение) - тогда да, она будет также совпадать с медианной и средний только в нормальном (или треугольном) распределении.
Спасибо за отзыв! Ценно!
Андрей спасибо за видео! Посоветуйте пожалуйста методы визуализации данных средствами Python в многомерном пространстве.
pyplot.hist2d - отображает гистограмму в трёх осях - xy, а цветом z
@@Никита-ц7ю4и спасибо
А почему сума cluster size больше чем елементов в датафрейме. Заранее спасибо за ответ.
Посмотрел блокнот. Не нашел такого. Можете более детально описать в какой части кода встретили такое? Естественно, что сумма размеров кластеров не может быть больше количества элементов в выборке.
@@aikula999 Спасибо уже разобрался
Добрый день, Андрей! Можно ли к Вам обратиться для выполнения кластеризации? Массив данных предоставлю
Добрый день, Анна! Да, можно. Напишите в телеграмме. Мой ник @aikula
Здравствуйте, подскажите пожалуйста как действовать, если необходимо произвести кластерный анализ и разделение на кластеры, при этом необходимо учитывать более 2-3 столбцов в качестве атрибутов объекта(большой размерности). Спасибо
Если достаточно памяти и вычислительных ресурсов - то точно так же. Как вариант, можно использовать сжатие признаков методом главных компонент pca или все таки выделить только наиболее значимые признаки.
Здравствуйте, не подскажете как средствами python проверить кластеризацию функционалом качества например через формулу Сумма средних внутрикластерных расстояний стремится к минимуму?
Здравствуйте, такой метод оценки называется методом "Силуэта". Например, описание и пример habr.com/ru/company/jetinfosystems/blog/467745/
@@aikula999 огромное спасибо вам!
Добрый вечер. Подскажите пожалуйста, занимаетесь ли вы репетиторством по теме анализа данных. Или может быть есть курсы.
Анна, к сожалению, не занимаюсь. Курсов большой выбор. Например, praktikum.yandex.ru или geekbrains.ru
@@aikula999 спасибо
Скажите а если в датасэте есть числа с минусом. Их нормализация проходит по том же принципе.
Да, абсолютно также.
Здравствуйте, Андрей! можете подсказать, импортирую csv файл в юпитер, но датафрейм не красивый) получается. Съезжают столбцы, между названиями столбцов появляются ; как это можно исправить. Спасибо
Елена, скорее всего, это ошибки самого файла. Не везде, например, стоят разделители. Возможно, есть также пустые строки в заголовке. В этом случае, надо или удалить, или указать на их наличие при импорте.
Как с вами можно связаться? Не могу найти вас в телеграмме
@aikula