Тестируем модель DeepSeek R1

Нейронный Калейдоскоп

Просмотров 23 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 2 фев 2025

Комментарии • 136

@PlayAiko 5 дней назад ⁺¹²
Мне нравится папка закладок у автора Sailor Moon😂
@AIKaleidoscope_new 5 дней назад ⁺⁴
Обожаю SailorMoon)
@andreimelnichenko330 3 дня назад
@@AIKaleidoscope_new а в чем фишка ? Или речь про аниме?
@arc-deity 11 дней назад ⁺¹⁹
Пробовал недавно DeepSeek R1 в кодинге очень хороша, но и сама DeepSeek была изначально нацелена на кодинг у них даже есть модель для DeepSeek Code для программирования.
Лучша я альтернатива o1 хотя o1 mini и так доступна
@blupbob9598 11 дней назад ⁺¹
o1 mini бесплатно доступна? Где
@arc-deity 11 дней назад
@blupbob9598 в курсоре, на 14 дней.
@Raizen-r3y 10 дней назад
@@blupbob9598он не писал, что это бесплатно😂.
@nikolaydd6219 7 дней назад
@@blupbob9598На сайте разработчика
@Tryamya 6 дней назад
@@blupbob9598 чат джипити точка ком конечно
@MaxBudkin 11 дней назад ⁺⁴
Спасибо за видео!
Классный канал, подписываюсь!
@СпециальныйагентСтивенс-ФБР 6 дней назад ⁺¹
Спасибо, отличный выпуск, буду ждать новых роликов!!!
@UkSarmat 10 дней назад ⁺³
Очень хорошо что вы считаете её плохой...😂😂😂 ребята вы правы! Ни в коем случае не пользуйтесь ⚠️
@ssserega2976 3 дня назад ⁺¹
плохо что в LM studio как в Jan Ai нет оценки производительности твоего устройства, например в Jan перед установкой сразу показывает, отлично или медленно будет работать та или иная модель! Кстати насчёт ошибки ответа задачки про убийц, я на Qwen 2.5 задавал такую задачку, там тоже была ошибка в ответе, он назвал - остались 2 убийцы и 1 обычный человек, потом я написал ему что в его рассуждениях ошибка, что тот человек который убил одного из них, тоже становится убийцей, тот всё понял, тут же поправился и написал подробно в чём он признал свое мышление ошибочным и подробно еще далее описал логическую цепочку мышления над происходящим и дал правильный ответ, что убийцы в комнате осталось в итоге 3! Он самообучается, но при попытке спросить у него, что ты умеешь самообучаться? он всячески изворачивается и отрицает это🤣 но говорит, разработчики постепенно могут усовершенствовать меня)) в общем, он всегда пытается скрыть этот факт, что он всё-таки обучается на пользователях! Очень интересный момент, видимо связанный с конфиденциальностью данных о пользователях, а вот например Lliama - вот она наоборот не скрывает что обучается на взаимодействии с пользователями и даже может сама порой написать об этом, даже если я не спрашивал её об этом!
@AIKaleidoscope_new 3 дня назад
@@ssserega2976 модель не может обучаться на пользователях, но в рамках разговора она может помнить контекст беседы и действительно если вы спросите вопрос который она отвечала раньше, то она ответит правильно.
Впрочем и на задачки модель тоже даже в рамках разных диалогов может то отвечать, то нет. Но опять таки это не эволюция модели, это просто разный рандомный seed для ответа.
@ssserega2976 3 дня назад ⁺¹
@AIKaleidoscope_new ну смотри, мне Lliama сама об этом писала, я даже не спрашивал у нее про это, это во первых, во вторых там есть функция сбрасывать rag, pdf и т.д. файлы с информацией, в том числе и с новой - это как раз таки и есть обучение, туда можно скинуть совершенно новую инфу и она будет на нее обучена, а в третьих в настройки программы jan которой я пользовался, есть опция где модель будет запоминать новую информацию и содержать её локально, это тоже обучение, так что модель способно обучаться на информации пользователя! Если ты с этим не сталкивался, это не означает что все модели не способны обучаться на пользователях!
@ssserega2976 3 дня назад
@@AIKaleidoscope_new а если в неё вшита такая функция? я такой моделью пользуюсь в программе jan ai, самообучающаяся открытая модель! точно также и пользователь может её обучать!
@iteleportation 8 дней назад
Спасибо за информацию) хороший контент)
@niva622 7 дней назад ⁺¹
Запиши видео про разные дисцированные модели больше и протестируй. Много кому будет интересно
@burbilog 11 дней назад ⁺¹²
сколько же можно говорить "опенсорс" когда это просто фриварь? где здесь опен СОРС? они НЕ выкладывали свои исходные датасеты, т.е. исходнике не выкладывали, они выложили бинарный файл, фактически EXEшник! и поэтому "опенсорсом" называть это нельзя. господа, вы делаете ужасную вещь -- еще несколько лет такого фривольного употребления слова и вы полностью затрете реальный смысл открытого софта и открытых лицензий типа GNU. и выпуск бинарных программ вместо исходных текстов станет нормой....
@AIKaleidoscope_new 11 дней назад ⁺⁴
Вы правы в том, что DeepSeek-R1 не соответствует строгим критериям open source (как в GNU GPL), где требуется доступ к исходному коду и возможность его модифицировать. Но "open source" часто применяется к моделям с открытыми весами, даже если обучающие данные и процесс не раскрыты. Особенно учитывая что эту модель можно модифицировать и свободно коммерчески использовать, запуская на своём железе.
В том время как с o1 такое не прокатит.
@burbilog 11 дней назад ⁺⁵
@@AIKaleidoscope_new вот в этом "часто применятся" и проблема -- хор применяетелей размывает понятие опенсорса, и это черезвычайно опасно. потому что если сегодня это выглядит "ну подумаешь, называем так", то завтра в каком-нибудь суде скажут "ну ведь все ж говорят опенсорс, а сорцы не выкладывают, вот посмотрите сколько примеров среди крупнейший AI компаний, поэтому наш клиент имел полное право взять опенсорсную программу и выпускать только бинарники от нее, опенсорс не нарушен"
@fatoldhikki4837 5 дней назад
@@burbilog нет опенсорса, есть лицензии. А опенсорсом назвать можно что угодно и это будет валидно.
@JohnDoe-ei8wx 4 дня назад ⁺¹
@@fatoldhikki4837
У тебя сегодня полет мысли отложен, потому что в голове туман?
Открытое программное обеспечение (англ. open-source software) - программное обеспечение с открытым исходным кодом. Исходный код таких программ доступен для просмотра, изучения и изменения, что позволяет убедиться в отсутствии уязвимостей и неприемлемых для пользователя функций (к примеру, скрытого слежения за пользователем программы), принять участие в доработке само́й открытой программы, использовать код для создания новых программ и исправления в них ошибок - через заимствование исходного кода, если это позволяет совместимость лицензий, или через изучение использованных алгоритмов, структур данных, технологий, методик и интерфейсов (поскольку исходный код может существенно дополнять документацию, а при отсутствии таковой - сам служит своего рода документацией).
откуда ты такой взялся, отрок?
@user-deniskarpov 11 дней назад ⁺⁵
Дипсик мне очень понравился
@nave3411 10 дней назад ⁺⁴
Один важный момент. Не нужно выбирать F32 - это пустая трата. Берите (почти всегда) Q4, так как этого вполне достаточно и вы можете у себя спокойно запускать модели побольше. Так делают по умолчанию в Ollama, я сам проверял, разница между Q4 и например Q8 не заметна вообще
@blackbigdeath 10 дней назад
Q8 это практически таже модель что и fp32
@OliinykO 8 дней назад ⁺¹¹
Все локальные дистиллированные модели, вплоть до 32 - ни чего толком не могут, даже общаться на русском языке нормально не в состоянии, постоянные вкрапления китайского и ошибки. С кодингом тоже огромные проблемы в самых примитивных местах. С Claude 3,5 Sonnet ее сравнивать нельзя, им до Claude пока далеко.
Не стоит смотреть на тесты в инете, я так подозреваю, что китайцы спецом научили свою AI их проходить. Онлайн версия R1 действительно хороша, но у нее нет нужного функционала для полноценной работы - она принимает ограниченное число форматов, она не понимает на скриншотах ничего кроме текста, да и текст очень плохо, у нее нет проекта и архива. Пока - игрушка. Да и реально спотыкается и ничего не может сделать в кодинге на примитивнейших сценариях и алгоритмах.
@m0rtym0rty7 6 дней назад ⁺¹
Полностью согласен, мне как разработчику агентов, вообще не пониавилось. API у них очень старое, контекст плохо держит, разочарование :(
@Torbjorn-ph7rt 5 дней назад
qwen 32b coder прогает на уровне уверенного джуна в пределах небольших задач, к тому же она явно разбирается в некоторых фреймворках, так что в качестве подсказки куда копать вполне сойдёт.
@brokert3163 4 дня назад
Для кодинга на vs code самое то и без ограничений по сравнению с copilot
@42xbox89 4 дня назад ⁺¹
Ну хз , в кодинге мне она больше понравилась
@incofcap4246 11 дней назад ⁺⁴
Та модель, которая запускается у них на сайте, она на сколько параметров? Можно ли ее скачать для локального запуска?
@AIKaleidoscope_new 11 дней назад ⁺⁷
модель которая на сайте имеет 671b параметров. Формально да, вы можете её скачать и запустить для локального использования тут даже описано как всё это запускать github.com/deepseek-ai/DeepSeek-V3?tab=readme-ov-file#6-how-to-run-locally
но фактически нет, если ваш домашний комп не имеет 600-700гб видеопамяти, запустить такую модель локально, вы увы не сможете... но тем не менее веса доступны, и при необходимости вы можете модель скачивать тренировать и делать с ней всё что посчитаете нужным.
@Huananzhi_russian 10 дней назад ⁺¹
@@AIKaleidoscope_newРазве модель не MoE?
O1 говорит мне что в vram можно разместить только экспертов, а остальные веса на SSD
@nikolaydd6219 7 дней назад
@@Huananzhi_russianМодель всегда загружается вся в оперативку (оперативку видяхи). Так работать программы, они не выполняются на харде (ссд)
@404nein 6 дней назад ⁺¹
Как вариант можно использовать оперативную память и всё считать на процессоре. Для квантивизированной модели (4 или 5 бит) достаточно 512 гб оперативной памяти. Плюс - так как только 37b параметров активируется одновременно, то на процессоре в целом терпимо. Единственная проблема - это цена. Но если использовать б/у серверные комплектующие, то в 200 тысяч рублей можно уложиться
@creatingsomething8690 5 дней назад ⁺¹
@@404nein в 50-60к можно уложиться на DDR4 в восьмиканале. И наслаждаться одним токеном в секунду =D
@Vugar.Ahmadov 4 дня назад
Что значит легкие?
@1654045 11 дней назад ⁺¹
Подскажите, какое минимальное требование к железу для локального теста моделей 14 или даже 32 B ?
@AIKaleidoscope_new 11 дней назад ⁺¹
Если модель сильно квантованая, то можно и с 6 гб видепамяти запустить. Но если хочется запускать более менее мозные модели, то нужно хотя бы 24Гб видеопамяти. Ещё есть лазейка, можно запускатть на процкессоре, тогда можно использовать оперативку. Но тогда модель будет очень медленно отвечать. Ориентируйтесь примерно сколько модель весит столько и памяти нужно для её запуска. Короче говоря тем больше памяти тем лучше. Для самого минимума хватит и 6гб , но си льно зависит от модели
@MrVovsn 10 дней назад ⁺³
Добрый день!R1 32В запускал на 16G VRAM, квантизация IQ3_XS, 4096 context, 30 tk/s.Также запускал R1 14B Q4, 20480 context, 45 tk/s. Думаю 14B можно запустить на 10G VRAM
@dogvandog 10 дней назад ⁺¹
@@MrVovsn а вы уверены что вам нужно q3 запускать32B , лучше q6 или q8 но у 14B. просто с разгрузкой частичной на процессор с видеокарты.
@MrVovsn 10 дней назад ⁺²
@@dogvandog никогда не замечал чтобы разгрузка процессором чтото ускоряла, скорость обычно очень падает, стараюсь уместить все в VRAM. Я могу в 16 G уместить и Q8 но мне для кода нужен большой контекст, поэтому для меня R1:14B и Phi4:14B лучший вариант локальных LLM на текущий момент.
@efimgibsun7969 9 дней назад
Я дипсик р1 8B запускал на ноутбуке со встроенной видюхой через оллама, получил 30 токенов в сек
@flavoristum 2 дня назад
почему чат deepseek утверждает что он разработан компанией openai и к китайской компании не имеет отношение? Отправил ответ чату GPT, он говорит что deepseek ошибается, при этом на ответ чата GPT утверждает что он прав, но продолжает гнуть свою линию что он продукт openai, кто ошибается?
@AIKaleidoscope_new 2 дня назад
потому что модель обучалась в том числе на ответах модели gpt)
@payrgames 8 дней назад
Есть у кого колаб код, для дистиляции текстового генератора модели? Хотелось бы самому опробывать это
@sochislevin 3 дня назад
Зачем скачивать если можно онлайн задавать вопросы ?
@alexwed733 2 дня назад
Если предоставляемые данные представляют нехилую коммерческую ценность. Катайцы и понятие промышленный шпионаж понятия синонимы
@airtrafficrules 5 дней назад
Ещё одна оболчка для GPT4. Кто не верит, спросите у него самого 😆
@Mostwonted7 4 дня назад
Кто бы ему дал саму модель, на котором опенэйай зарабатывают? Да и для чего, чтобы обрушить свои же акций?
@42xbox89 4 дня назад ⁺¹
«генеративный предварительно обученный трансформер». Прикинь слово gpt переводится так 😂
@42xbox89 4 дня назад ⁺¹
Так что все модели в мире это gpt😂😂
@airtrafficrules 4 дня назад
@@42xbox89 Не все. У джемайни своя модель. А те, которые "все", почему-то с циферкой 4.
@42xbox89 4 дня назад
@@airtrafficrules еще раз перевод слова gpt прочитай это общее название , а не конкретной модели... Предварительно обученой программы
@АлександрКолков-с8ч 9 дней назад ⁺³
Тоже 🎉 протестил этого китайца, и вот какой вывод... Китаец лучше чем Gpt 4 o , действительно, но до клода как до Луны им обоим! и вывод такой , что это не искусственный интеллект а некий конструктор который можно при помощи хитрых манипуляций дотягивать, до ИИ!!! Самое неудачная в этой модели - это то что он как поплавок ты его тянешь вниз ,а он всплывает на поверхности болтается там! Короче можно пользоваться😮 но совершенно ничего сверхъестественного ничего нового и необычного ну, если только не считать что это конструктор❤
@andreisergeevich8798 9 дней назад ⁺²
Ты написал какую-то галимую чушь! Во-первых, научись лаконично выражать свои мысли "Gpt 4 o действительно лучше до клода как до Луны", данное выражение как интерпретировать ? В каких конкретных задачах ты проводил тестирование ? о1, 4о, DeepSeek R1, Claude прежде всего LLM модели! это не AI, даже если дебилы маркетологи его так назвали. Система обучения с подкрепелением! так их называют инженеры. На предмет DeepSeek R1, он несоизмеримо лучше, чем 4o, но хуже, чем о1, этот ваш хваленый cloude может в чем то и хорош, но с точки зрения работы, анализа, summerise инженерной нормативно правовой базой U.S. он! очень много галлюцинирует и дает факты не в попад. DeepSeek R1 и о1 очень! похожи, они одинаково понимают контекст, но DeepSeek R1 очень беден! на свежие, реальные данные. Не вот это говн* какой цвет у кота породы мейн кун, а в контексте, что такое Orthorectification, Aerial Triangulation и прочие тяжелые выражения, он не попадает. Но перевод он выполняет! лучше чем 4о. Ввиду его бесплатности! это очень-очень хороший инструмент
@АлександрКолков-с8ч 9 дней назад
@andreisergeevich8798 ты видимо фанат) извини за чувства!)
@andreisergeevich8798 9 дней назад ⁺¹
@@АлександрКолков-с8ч речь не о фанатизме, а о профессиональном применении :) Ты по-видимому еще мал, чтоб понимать какие инструменты нам предоставил прогресс. Я нисколько не критикую :) просто кто-то прочитав твою писанину может принять это за релевантный ответ, что несколько некорректно
@АлександрКолков-с8ч 9 дней назад
@@andreisergeevich8798 всё аналогично и по отношению к тебе, я тестирую на глубину погружения в контекст и сохранение этого погружения уже используя другие темы... Только Клод способен оставаться на глубине обсуждения физики, философии и психологии. Все остальные как поплавки... Конкретика не для формата глупых споров в комментах
@nicamelschannel227 9 дней назад
Зачем противопоставлять, если можно комбинировать. Я задал один и тот же вопрос ChatGPT, Claude и DeepSeek и получил 3 совершенно разных крутых ответа
@Goattytytty8841 4 дня назад
Я попросил дипсик кратко расскзать сюжет сериала остатсья в живых и ему на это потребовалось 92 предложения... Попросил тоже самое чатГПТ и он все вместил в 13 предложений.
Так почему такой хайп вокург дипсик? Ощущение, что это массовая реклама пузыря
@sankyuubigan 8 дней назад ⁺³
1.5 млрд модель брали за основу модель для математики. она не предназначена для вопросов про Алис и Гермион. бред делать тест модели этой и задавать не математические вопросы.
@AIKaleidoscope_new 6 дней назад
надеюсь вам понравится новое видео)
@anatoliypodkladov2173 11 дней назад ⁺¹
А какое железо нужно чтобы запустить оригинальный модель deepseek R1?
@AIKaleidoscope_new 11 дней назад ⁺⁴
Оригинальная модель содержит 671b параметров. Поэтому для запуска нужно очень мощное промышленное железо. (7-8 карт NVIDIA A100 с 80 ГБ памяти)
@zoo6062 11 дней назад ⁺¹
можно на процессоре запустить , но для самой неточной модели понадобится 256Гб оперативной памяти, а для приемлемой точности в Q4 уже 512Гб, правда отвечать она будет ооочень долго
@user_a1819 11 дней назад ⁺⁵
Вся модель должна помещаться в памяти, в которой будет обрабатываться. Реально скачать модель на 70b, т.е. на 70 миллиардов параметров, она имеет размер 43 Гб. Если нужно чтобы она работала быстро, то обрабатываться она должна на видеокартах и тогда общий объем видеопамяти всех имеющихся в системе видеокарт должен быть больше чем 43 Гб + еще сверх этого 10-20%.
Но если нет нескольких видеокарт NVidia с 12-16-24 Гб VRAM на каждой, то обработка может идти в обычной оперативной памяти центральным процессором, что приведет к замедлению работы по сравнению с GPU, но работать будет.
Правило для объема памяти такое же - оперативки должно хватать чтобы в нее залезла модель целиком плюс те же 20%. И хорошая новость тут в том, что в винде есть такая штука как настраиваемый файл подкачки. Если его установить в размере 50 Гб, то в результате модели размером 43 Гб запускаются с помощью Ollama в винде на стареньком процессоре и с 8 Гб оперативки. Сама модель запускается примерно полчаса и на каждый ответ у нее уходит 3-4 часа (если в промпте сразу указать чтоб ответ уложился в 20-30 слов). В общем, поиграться можно. Если оперативки больше, то работать будет быстрее, конечно же.
Можно вспомнить анекдот программистов еще из 80-х годов прошлого века. Изобретатель машины, предсказывающей будущее, спросил что он будет делать через 3 часа. Машина проработала весь день и выдала "будешь сидеть и ждать моего ответа".
@AltRUis1 10 дней назад ⁺¹
@@user_a1819Спасибо за развёрнутый ответ. А для любой нейросети локально, нужны такие мощные ПК, если что-то что может работать без интернета но на простом современном ПК?
@VladysislavDobriy 6 дней назад
@@AltRUis1можно ускорить и удешевить, если вместо запуска в памяти или с ссд, запускать с рэйд ссд nwme плюс если они будут на шине PCI 4
@Felicee-n6n 7 дней назад ⁺¹
Расскажите пожалуйста, как заплатить за джипити из рф?
@nikolaydd6219 7 дней назад
Найти сервис-прокладку и через него. Но получится дорого, я так за пару ней пару косарей слил, получив плохой результат (модель о1 плохо в кодинг). Лучше в телеге найти, там дешевле но контекстное окно ограничено телегой.
@БиткоинОбзор 10 дней назад ⁺⁶
Являюсь плотным юзером LLMок уже давно.Потестировал на протяжении 3х дней в разных задачах, основа кодинг.
Вывод: Китайской шляпе еще очень далеко до GPT
@spreadloveandfaith4320 5 дней назад
Ха-ха Основная команда разработчиков и разработчиков GPT в основном китайцы. Конечно, они американцы китайского происхождения.
@БиткоинОбзор 5 дней назад
@@spreadloveandfaith4320 хорошая шутка
@havemoney 7 дней назад ⁺¹
Не понимаю этих демонстраций c 1.5b что ей можно продемонстрировать? Запустил на среднем железе q5-32b, работает вполне сносно.
@iron4ig 6 дней назад ⁺¹
а среднее железо это какое?
@fatoldhikki4837 5 дней назад
13:00 Видимо ты сильно урезанную взял, на другом канале она так-же локально отвечала правильно
@AIKaleidoscope_new 5 дней назад ⁺¹
@@fatoldhikki4837 не, я взял самую полную. То что она может отвечать правильно вполне возможно . Даже с первой задачкой , на камеру она ошиблась, а за кадром даже на русском языке правильно ответила.
@DjoniCoin 6 дней назад ⁺²
Да модель 1.5b конечно очень слабый я на компе запустил ну нет... а вот 7b более менее.
@FireShizomaniak 5 дней назад
Я в приложении DeepSeek добился ответа от ИИ - это все-таки чат GPT. Есть скрины, где он прямо сообщает в одном диалоге, что это DeepSeek а во втором что это чат GPT, с уточнением специфик и точных описаний платных и бесплатных планов. Да собственно есть эти сохранённые диалоги с ним. Так что это очередной китайский "собственно-разработанный" элемент, как тип-56, или тип-59.
@AIKaleidoscope_new 5 дней назад ⁺¹
модель она не является экспертом в том кто она есть. Просто это говорит о том, что в её обучаещем датасете были примеры общения с GPT, и это стало частью её.
Так что это чистая DeepSeek, но которая да путается, потому что она видела примеры ответа многих моделей.
@FireShizomaniak 5 дней назад
@@AIKaleidoscope_new Буду верить, иначе, это все печально. При этом, я долго пытался ему доказать что это ДипСик, тем не менее он настаивал до самого моего пригорания, что я не шарю и он GPT.
@alexanderianakov7250 4 дня назад ⁺¹
А как объяснить что на мой вопрос GPT отвечает не правильно а китайская сеть правильно?
@FireShizomaniak 4 дня назад
@@AIKaleidoscope_new Есть несколько вопросов, на которые ИИ не может ответить абстрактно. Я спросил, кто его разработал, я спросил, на какой весрсии Gpt он работает. Не нужно защищать, если не уверен.
@42xbox89 4 дня назад
Посоны так вы погуглите как gpt то переводится и поймёте наверное😂
@okolenmi7511 4 дня назад
Человек ничего не понимает, если говорит, что те модели на 14 миллиардов параметров лучше 4о... Я их тестил - так себе перфоманс. 1.5 миллиарда параметров так вообще овощ, хуже обычных аналогов на 1.5миллиарда параметров. Загвоздка в том, что модель начинает симулировать мышление, а потом из-за тонны текста размышлений начинает все путать. Если она побольше, то и справляется лучше.
@tensorfly4508 6 дней назад
Модель с 8 миллиардами параметров ссправляется с подсчётом букв и задачей про Алису, если корректно перевести на английский. Если задачу про Алису перевести через гугл переводчик, то получится ерунда. Видимо, поэтому и Дипсик тоже в переводе ерунду переводил.
Но если на английском написать, то ответ верный и есть уточнение, что 4-ая сестра - это сама Алиса.
Но с математикой провал, конечно. Хотя с задачами попроще справляется.
@AIKaleidoscope_new 6 дней назад
Я с помощью 4o переводил
@tensorfly4508 6 дней назад
@AIKaleidoscope_new , а, тогда перевод нормальный. Но у меня платной подписки нет, так что я экономлю запросы )
@immortal3667 4 дня назад
Или добавить простое слово "ещё" у алисы есть ЕЩЁ три сестры, тогда правильно возможно ответит. Gemini ответила с таким уточнением, хотя являеться ли это уточнением мы и так в разговоре говорим у меня есть ещё 2 брата и тд
@human3301 11 дней назад ⁺⁵
Мне кажется то что ее крутость заключается лишь в том что дедушка "Ляо" просто натренировал ее проходить бенчмарки. По ощущениям она процентов на 30 хуже o1 pro mode(у меня подписка)
@ИнтернетСпасётМир 11 дней назад ⁺²
Её тренировал Джеки Чан
@ferouu 10 дней назад ⁺²
Ну, она и не рассчитана на борьбу с o1 pro, а лишь с o1-12-17, а разница там на самом деле большая, я тестировал и мне она конкретно так зашла
@LittleSSimoon 8 дней назад
Ее обучали на философии Брюса Ли
@ProphetFornicator 6 дней назад
как сделать робота-терминатора с этими "мозгами"??
@vitaly-f 5 дней назад
Лучше с 32b сразу работать, потом уже мелкие сравнивать с 32b. Я так делаю.
@jetcarq6048 4 дня назад
проверять на стандартных вопросах это бред, нужны рандомные
@Torbjorn-ph7rt 5 дней назад
Спроси её "У Алисы 3 сестры. Сколько сестёр у брата Алисы?". На этом простом тесте завалились практически все модели, даже разрекламированный чатгпт.
@AIKaleidoscope_new 5 дней назад ⁺¹
Это правда интересный вопрос, я уже снял новое видео с этим вопросом, где провёл более хардовый тест моделей)
ruclips.net/video/veloGl2piBw/видео.htmlsi=JJwVO4IG3srrDrw3
@McSim_ka 10 дней назад ⁺¹
DeepSeek R1 не имеет доступ к интернету, а база данных от октября 2023, штука прикольная но для использования не юзабельная)
@user-kreitan 10 дней назад
Я сейчас пользовался deepseek после видео и там есть кнопка поиск в интернете...
@Merchenman 6 дней назад
как же хочется быстрее написать ерунду не проверив информацию
@SeregaZinin 5 дней назад
@@user-kreitan , он не работает. ПРоверь.
@Chidorin 4 дня назад
её смысл в поэтапных рассуждениях
@tsvigo11_70 5 дней назад
А как можно обучить без учителя?
@hafizsalehov 4 дня назад
неужели она узнала про санкции и по этому не правильно ответила вам
@emiln1977 6 дней назад ⁺¹
я пробовал 7 миллиардную модель, такая же тупая :)))
@PaulZavadski 5 дней назад
у тебя даже на видосе видно что эта модель рассуждает на китайском а не на английском )
@GreenDevBabe 6 дней назад
На русском понимает очень плохо. Да и на английском тоже в том смысле что делает много ошибок причем в элементарных вопросах. С опечатками очень плохо справляется. Кстати так называемый китайский продукт почему то работает через американский Cloudflare. Видимо невероятной мощи волшебные китайские сервера не справляются с нагрузкой. Да и антиспам-капчу от ботов почему то китайские вундеркинды так и не придумали, а пользуются вражеской американской Cloudflare. Похоже китайцы вложили гораздо больше в рекламу этого, чем в сам продукт.
@shortsmem18 4 дня назад
Прекрасно все с русским языком, и с контекстом
@gornostai4ik_lol 9 дней назад ⁺¹
32 бита 🤷
@user-mx6hm5lg6d 5 дней назад
Это чудо отказывается сочинять п о р н о истории. Кому оно надо, после этого?!
@alexanderianakov7250 4 дня назад ⁺¹
Ждём выхода версии когда сеть за попытку сочинить твои грязные истории, будет оформлять админпротокол😂😂😂😂
@user-mx6hm5lg6d 4 дня назад
@@alexanderianakov7250 Сеть не для дураков! Расслабься.
@RolisRolka 11 дней назад ⁺²
Почему вы скрываете информацию о самой важной способности, может ли она разговаривать??? Без этой функции она превращается в барахло!!! Переписка это самый неудобный способ общения...
@AIKaleidoscope_new 11 дней назад ⁺³
Хорошо, вам расскажу)
Нет, к сожалению в ней нет голосового режима... я сам очень жду когда он наконец появится...openai выпустила свой голосовой режим, но постоянно его кастрирует. То что они показывали в начале прошлого года и то во что голосовой режим превратился сейчас это небо и земля(((
qwen говорят скоро добавят голосовой режим... но конечно вопрос насколько он будет хорош....
@Smolandgor 11 дней назад ⁺²
для каких то казуальных повседневных задач голосового общения хватает конечно для работы удобней переписка
@Tendo-v24 11 дней назад
согласен, текстовый пойдет для кодинга, но не общения. А после того что показали open ai, голос+видео режим, понимание написаного текста с листа бумаги, окружающих предметов, людей и животных и т.п. остальное уже не впечатляет.
Я запустил DeepSeek-R1-Distill-Llama-8B. она глючит, по 2 раза пишет ответ, зачем выпускать глючную модель🤦‍♂
@LittleSSimoon 8 дней назад
>Переписка это самый неудобный способ общения...
Ахах, типичный зумерок - дитя видосиков, враг текстов и книг
@ИльяЖенов-й6б 7 дней назад ⁺¹
Подключи любую TTS модель, например Kokoro, дай ей доступ к R1 через API и будет у тебя разговор

Следующие

Автовоспроизведение

DeepSeek R1 Distill - тестируем локальные модели