@@rtme846 меня больше задело то, что кто-то спер его видюхи в процессе доставки. Но тут уж как евреи говорят - спасибо тебе, Господи, что взял деньгами. =)
Хотелось бы написать по поводу запуска 30b нейросети. Сообщение планирую сделать большим, поэтому если кратко - нужен файл подкачки порядка 100 гб. Теперь подробнее. Сам недавно сталкивался с проблемой запуска 30b нейросети, долго не мог понять, в чем проблема. Как оказалось позже, она все это время была в оперативной памяти. Тут правда многое зависит от того, через какую библиотеку загружать GPTQ модель (лучший, на мой взгляд, способ - ExLLama, там и оперативной памяти задействовалось если не изменяет память 43 гб, и скорость генерации лично у меня выше чем в случае с GPTQ-For-LLama в 2 раза). AutoGPTQ и GPTQ-For-LLama задействовали как раз около 100 гб оперативной памяти. Вообще там история с ошибками и AutoGPTQ довольно интересная - когда оперативной памяти не хватает сильно (16 гб, файл подкачки отсутвовал), практически сразу вылетает Failed To Allocate CPU Memory (помню я тогда еще удивлялся и думал, что это он на CPU запускать планирует). Потом (16 гб RAM + 65 гб файл подкачки) ошибка пропала, но весь скрипт спустя какое-то время загрузки просто вылетал без каких-либо сообщений об ошибке. И наконец когда был выставлен размер файла подкачки 150 гб, нейросеть успешно загрузилась. Использовал я Wizard-Vicuna-30B-gptq, no groupsize (ей вроде бы приписывается 97% качества ChatGPT, хотя думаю квантование до 4 бит эти ее возможности несколько понизило). Она вроде бы сейчас лучшее, что возможно запустить на 24 гб видеопамяти (расход видеопамяти - чуть меньше 20 гб через GPTQ-For-LLama и 20,8 гб через ExLLama). LLaMa-2 34B еще не вышла в открытый доступ, а в возможности LLaMa-2 13B противостоять 30B модели я не особо верю (хотя в два раза увеличенный размер контекста - очень весомый аргумент).
Я следил за памятью во время запуска, у меня переполнялась именно память GPU. Если запускаете на проце, то да, но использование файла подкачки может быть узким местом
Добрый день, смотрю у Вас большой опыт, разьясните для новичка, p40 имеет смысл брать или сразу p100, благо цены более менее адекватные. Или gtx какую то по ценее сопоставимую лучше приобрести. Спасибо (заранее).
@@cubealex На мой взгляд, здесь все зависит сугубо от ваших целей. Для локального запуска больших языковых моделей NVidia Tesla P40 покажет себя даже лучше, чем P100, по причине большего объема видеопамяти (24 гб против 16 гб у P100), что позволит использовать с ней более крупные нейросети (которые обеспечивают достаточно высокое качество генерации, проще говоря они "умнее"). Но при этом P100 должна в теории показывать себя лучше при обучении нейросетей (которые влезут в ее видеопамять, которой у нее кстати столько же, сколько и у Tesla T4 из Google Colab, которой можно пользоваться бесплатно) в режиме Half-Precision (т.к. NVidia позиционирует ее изначально как решение для обучения, а сама видеокарта аппаратно поддерживает 16-битные (FP16) операции, которые активно используются при работе в Half-Precision). Для игровых задач скорее всего тоже будет лучше Tesla P40 (лучше, чем P100, но далеко не факт что она лучшая игровая видеокарта за эти деньги). Для работ с большими нейросетями вряд-ли есть GTX / RTX карты в данном ценовом сегменте, которые бы показали себя лучше, чем теслы, в силу огромного объема видеопамяти у последних. Та же RTX 3090, предлагающая аналогичный объем видеопамяти, стоит в разы дороже.
Огромное спасибо! Частично (чисто умозрительно) я пришел к подобным выводам. Игры в принципе не интересуют. Очень редко могу что то из старого запускать портированное на os x (GTA Vice City) на mac pro late 2013. Но скорее предпочту что нибудь смонтировать/перемонтировать и отрендерить в Blender либо сделать mix в reaper, играм.
Запустил нейронку Wizard v1.2 GPT4All на rtx3080ti и поспрашал про то что лучше. Ответы как есть. Отвечает на русском. -- Какие из видеокарт nvidia tesla P40 или M80 лучше подойдут для запуска нейронных сетей? -- Обе эти видеокарты NVIDIA Tesla - P40 и M80 - являются мощными инструментами для обучения нейронных сетей. Они обе обладают высокой вычислительной мощностью, необходимой для обработки больших объемов данных и обучения сложным моделям. Однако, существуют некоторые различия между этими двумя видеокартами: 1. **NVIDIA Tesla P40** - это более старая модель, но все же достаточно мощная для большинства задач в области машинного обучения и глубокого обучения. Она имеет 8 GB GDDR5X памяти и поддерживает технологию NVIDIA Volta Tensor Core. 2. **NVIDIA Tesla M80** - это более новый продукт, который использует архитектуру Maxwell с улучшенной производительностью по сравнению с P40. Он имеет 16 GB GDDR5 памяти и поддерживает технологию NVIDIA Pascal Tensor Core. В целом, если вам нужна максимальная вычислительная мощность для обучения сложных нейронных сетей, то M80 - лучший выбор. Однако, если бюджет ограничен и вам достатожно мощности P40, это также может быть хорошим выбором. Важно помнить, что для успешного обучения нейронных сетей не только видеокарта играет важную роль, но также и другие компоненты системы, такие как процессор, оперативная память и т.д. -- Какой минимальный набор компонентов необходим для запуска нейронных сетей? Процессор (поколение, набор инструкций), оперативная память, видеокарта (процессор и размер видеопамяти)? -- Для обучения нейронных сетей вам потребуется следующий минимальный набор компонентов: 1. **Процессор** - Вам потребуется процессор с поддержкой AVX2 (Advanced Vector Extensions 2) или более новых инструкций, таких как AVX-512. Это позволит вам обрабатывать большие объемы данных и обучать сложные модели. 2. **Оперативная память** - Вам потребуется достаточно оперативной памяти для хранения данных, моделей и программного обеспечения. Обычно, 16-32 ГБ оперативной памяти является достаточным для большинства задач в области машинного обучения и глубокого обучения. 3. **Видеокарта** - Вам потребуется видеокарта с поддержкой CUDA (NVIDIA) или OpenCL (AMD), чтобы ускорить обработку данных и обучение моделей. Выбор между P40 и M80 зависит от ваших требований к вычислительной мощности и бюджета. Кроме того, вам потребуется операционная система (Windows, Linux или macOS), программное обеспечение для машинного обучения (TensorFlow, PyTorch, Keras и т.д.) и данные для обучения модели. -- Какая операционная система лучше подходит для этих целей? -- В большинстве случаев для задач машинного обучения и глубокого обучения наиболее популярными являются Linux (в частности, Ubuntu) и Windows. Оба этих операционных систем поддерживают большое количество инструментов и библиотек для машинного обучения и глубокого обучения, таких как TensorFlow, PyTorch, Keras и т.д. Linux обычно предпочитается из-за его стабильности, безопасности и поддержки открытых технологий. Он также имеет большое сообщество разработчиков, что означает, что есть множество ресурсов для получения помощи при возникновении проблем.
1. Нейросеть запускал через oobabooga/text-generation-webui. 2. Нейронщики часто называют память видеокарты оперативной памятью потому что видеокарта выполняет операции и это логично, но я об этом забыл и неправильно понял. Поэтому в части про ошибку связанную с Above 4G Decoding имеется ввиду память видеокарты. 3. Vicuna-13B отвечает что она ChatGPT потому что в её обучающей выборке были ответы ChatGPT и она при обучении их "запомнила". P.S. Возможно стоило сказать это, но не хотел растягивать вступление
Братан, так а скорость генерации-то какая была? :) Интересует, че там у нас в ExLlama выдает Llama 2 13B. Чтобы можно было сравнить в профильном вопросе, тассазать, с другими.
Четко молодец, спасибо, тоже хотел купить тесла40 но теперь понял что не потяну проблем с железом. Думал есть решения без костылей и перепайки и тд, типа собрал и пользуся, но те камни которые ты показал, отпугнули меня от этой затеи.
У меня сейчас Asus Z270-P. Там есть виджет на рабочий стол с кнопками для управления оборотами, вообще каеф. Проц поменял на 6600к потому что было выгодное предложение недалеко от меня. На всех более современных платах должна быть необходимая опция
Вообще никогда не пользовался этими регуляторами вентиляторов. Вентиляторы лутьше подключать к системной плате и забыть. Плата сама по мере нагрева разгонит или понизит скорость вращения.
Стоит оно того по итогу? Замороч с теслой? При равной цене например она сильно производительнее будет в сравнении с теми же 1080ти работающих в паре? Вопрос не про игры. Видос про игры только что посмотрел
С кулерами возиться не стоило, я просто хотел чтобы все работало идеально. Очень жаль что первую теслу потеряли. В остальном доволен. Не знаю что лучше взять две 1080 ти или теслу, думаю зависит от задачи, но две 1080 ти будут в два раза дороже. Я бы тогда наверное взял две теслы
Добрый день, прошу Вас сделайте видео или тест и напишите сюда Stabile Diffusion на nvidia p40, чтоб увидеть время генерации 512 х 512 все по дефолту. Никто что то не сделвл подобного, только игрушки тестят. Хорошо бы еще p100 на подобную задачу прогнать. Хочу прикупить gpu хотелось бы сравнение увидеть 2070 генерит вроде бы в среднем за 15 - 17 сек.
Просто посмотрите в сравнении с 1080ti по факту будет тоже самое. Ибо чип один и тот же. А по нейронкам лучше переходить на 3000 серию карт, т.к из опыта 1080ti против 3090 в играх это производительность 2-2.5х в пользу 3090, то в задачах ии в иом же SD разница с 1080ti доходит до 5 раз. А так считайте p40 тоже самое что 1080ti, только памяти 24гб что позволяет в большем разрешении работать.
Добрый день! Я промониторил рынок карт на сковозную по моделям и ценам, 30 серия карт в общем уже мало доступна, на на ветке обсуждений по нейронкам в телеграмме посоветовали брать доступные в продаже 40 серию, т.к. они будут более производительные даже не флагманы. Я нашел огромные таблицы сравнения GPU на англоязычной WiKi (можно переключить на русский), и посравнивал доступные также пытался разговорить на эту тему GPT чат. Еще составил для ориентирования табличку куда включил 20 серию видеокарт и 40 серию крайний правый столбик примерная начальная цена. Тут самый главный фактор производительность/цена. Я потратился на superworkstation (superserver)7048 /2xxeon2630v3 2,6GHz 2x8Gb ОЗУ, и заказал на алике и получил 2хxeon 14яд. Поэтому мой бюджет сильно просел, я и ищу максимально мощьную GPU по минимальной цене (Установлена GTX750 1Gb). Шум не слабый но продуваемость корпуса запредельная. Нейронки запускал на CPU, ОС kali linux. Моя основная машина mac pro late 2013, поэтому только линукс хоть на нем они заводятся в разы сложнее. Очень много дельных и очень полезных советов дает ChatGPT.
Когда поднакоплю денег ОЗУ естественно прокачаю и возможно заменю процы. На серваке стоят 2 БП по 2000 Вт, так что видеокарточки можно поставить любые лишь бы по размеру влезли.
@@cubealex если посмотреть технические характеристики 3090 лучше чем 4080, и любой остальной неликвидный кал, а за цену 4080 можно поднакопить и купить уже 4090 в обеих моделях 24 гб видеопамяти. 4090 в два раза производительнее 3090. В остальных все упрется в видеопамять как и в производительность это выкинутые деньги. Это касается что для рисования нейросетями как и для работы с нейросетями. Цена 3090 650-700 евро бу, я пол года на нее капил и купил потому что мне не нуже урезанный кострат с которым будут в будущем проблемы, из-за роста размера моделей как и задач.
Да я уже понял, что чуда не будет все соразмерно цене. Но моя идея была в том чтобы подобрать так скажем точку вхождения по минимальной цене. Я в итоге нашел для себя удобное мерило для абсолютно любой видеокарты или процессора. Видеокарты рассматриваю только с приставкой - Ti и последние в ветках, других для меня нет. Перебрал актуальные абсолютно все модели на nvidia. Теперь смотрю только нюансы из полных технических характеристик, думаю что кроме меня это мало кого интересует. Но чтоб к этому прийти пришлось проделать просто нереальную работу.
Чтобы запускать более тяжелые нейронки нужно больше оперативки, я планирую собирать комп на двухголовой 2011-3 со стартовым модулем в 64гб, думаю мне хватит)
У меня одноголовый E5-2697 и 128 Гб. Оперативки. Через Koboldcpp получается запускать тяжелые модели, но скорость очень низкая. Модели на 30B обрабатывают примерно 1 токен/сек. Это дико медленно, учитывая, что обычно на 1 простой запрос нужно ~100-1000 токенов и еще столько же на ответ. Модели 70B соответственно работают еще в 2-3 раза медленнее. Учитывайте, что CPU на 2011 сокет под чипсеты x79 не поддерживают AVX2, а это важный момент для нейронок. Лучше смотрите как минимум в сторону на x99 материнки, с более современными процессорами на AVX2, а лучше AVX512. Для себя пришел к выводу, что нейронка на CPU это только чтобы попробовать большие модели. Ну или если задачи позволяют дохрена ждать, например отложенные вычисления. Для практического использования пока гоняю только 13B модели на GPU (1080Ti 11Gb). Больно уж долго ждать пока CPU по чайной ложке в час все переваривает. Но Ваш опыт с двумя CPU был бы интересен. Напишите как результат, если соберёте планируемый комп.
@@МихаилАлексеев-ц6ц Если вдруг вам будет интересны мои замеры. Процессор E5-2698 v3, памяти 32ГБ, видеокарта P40. Замеры проводил на двух моделях deepseek-coder-6.7b-instruct.Q5_K_M.gguf и deepseek-coder-33b-instruct.Q5_K_M.gguf в koboldcpp-1.61. Модель deepseek-coder-6.7b на процессоре при задействовании 32 потоков 4.22 Т/сек (загрузка CPU 95-96%) Модель deepseek-coder-6.7b на GPU 33,1 Т/сек (загрузка GPU 77-81%) Модель deepseek-coder-33b на процессоре при задействовании 32 потоков 1,04 Т/сек (загрузка CPU 98-99%) Модель deepseek-coder-33b разделяется чуть больше половины в память видеокарты остальное в обычную память. Обработка как я понял на GPU. 5,57 Т/сек (загрузка GPU 52-58%, CPU 28-31%) Не думаю, что с двумя процессорами увеличится производительность в два раза. Так что в любом случаи лучше обрабатывать на видеокарте. По ощущениям от 4 Т/сек вполне комфортно. Хотя конечно когда 30 и более, то это вообще класс. Начинал знакомство с локальными моделями на компе с процессором Q9550 и 8ГБ памяти, вообще без видеокарты. 0,4 Т/сек на модели deepseek-coder-6.7b это было вообще жесть.
Можно было этого вообще не делать, кулера всё равно не включаю. Но мои тараканы захотели чтобы восстановить всё как было, к сожалению пришлось сделать немного по-другому. Реобас это такая же плата просто в форм-факторе 5.25"
Я сначала купил сервер, так как моя написанная неиросеть на тот момент не поддерживала видео карты. Но как только я услышал звук сервера у себя дома чуть не оглох. Понял что 24 часа в сутки чтобы он работал это просто кошмар. Тепер переписал свою неиросеть на GPU. Купил дешовую видео карту RTX 2060 Super. Особую пребавку скорости не ошутил. Сервер был восми процесорный. Но я использовал только два процесора. 2xXeon 4116. Пребавку скорости получил от видео карты только 180%. Думал купит Tesla P100. Но тепер "шила на мыла" менять не стоит. Жду когда подешевеет например RTX 3080. Новые Tesla слишком дорогие. Хочется 24GB gddr6.
Ребят , купил охлад для теслы. Inno3d ichill x3. Собрал , все гуд. Подключаю. Оказывается у вентиляторов другой разьем , нежели 4pin. Кто знает какой переходник купить ? Ардуино 4pin не могу найти
Ну да, разъем для подключения кулеров видеокарты отличается от разъема подключения кулеров материнки, поэтому я и использовал ардуиновские провода. Добавлю ссылку на них в описание.
Привет! А можешь сделать (если это возможно) более подробное видео по данной теме? Так-как мало технической инфы. Я в видео не нашел у тебя даже простого GPU-Z, который зрителю указал бы важные показатели, такие как температура, и особенно загруженность VRAM конкретной языковой моделью etc. Я сам уже около месяца думаю собирать ли себе тоже для такого дела отдельный комп. Я остановился пока на старьёвом но еще довольно актуальном частично серверном железе - сокете 2011-v3 XEON 18-22 ядра оперативы 128-256ГБ DDR4 ECC, 1ТБ NVME, материнка Asus или Asrock. Ну а вот с видео картой тут стала дилемма! Я пересмотрел кучу вариантов начиная от 20хх серии в NVLink режиме до 40хх, а потом вспомнил про Tesla линейку. И оказалось что они у нас стоят, да в общем нифига они не стоят по сравнению с игровыми карточками. Например nVIDIA Tesla M10 32GB всего 270 Евро, а Nvidia Tesla K80 24GB вообще 125 евро! Вот у меня и вопрос на сколько разные модели типа LLAMA 1 или 2 или другие модели загружают Tesla видюху или вообще какую-то видео карту? Но раз у тебя уже есть какой-то опыт не мог бы поделится пожалуйста инфой по данному вопросу? Спасибо заранее!
@@MautozTech а эта конкретная Р40 на сколько загружена? И главное как быстро отвечает LLAMA. Пока использую её на 8 ядерном процессоре ноутбука, в котором 64 гига оперативы. На 8 гиговой видеокарте запускаться отказывается. Но тормоза неприятные - иногда минуту ответ ждать приходится.
@@dyvniy_vershitel Размер загружаемых в видеорам данных любой прикладной софт для нейронки (а он идет в комплекте) покажет вам при запуске, нейронка это не игра, где загрузка динамична, нейронка это просто файл гигантского размера содержащий весовые коэффициенты, он загружается при старте если памяти хватает или не загружается вовсе и вылетает в ошибку. Не нужны там никакие GPUZ, нечего там мониторить. Эта конкретная ХХХХ загружена будет всегда на 100, вернее загрузкой карты управляете вы на этапе запуска нейронки, различного рода всякие аналоги чата GPT можно затолкать и в 8G, но из всего что я видел размеры гуляют в пределах 14- 30G при рекомендуемых параметрах. Меньше иногда можно, но работать (теоретически) будет хуже. По сравнению с компьютером отвечает на порядок быстрее. У меня зеон 10 ядер 20 потоков, 32Гб при запуске одной и той же сетки на процессоре ответы ждешь секунд по десять а то и больше. На видеокарте при этом ответ прилетает с некоторой задержкой но это примерно 1-2 секунды, так что ускорение от 5 раз и выше даже по самым скромным подсчетам. Видеокарточка 1070Ti 8Gb.
Лучше брать на 24гб, размер батча можно будет больше поставить, вследствие чего обучение будет намного быстрее, да и разница в цене не такая большая между версиями на 12 и 24
тоже вот смотрю сейчас на теслу моей P104-100 мне не хватает, у нее 8Гб всего ( llama3.2-vision:11b не влезает, и хоть она параллелится между cpu и gpu, то, что полностью помещается в память видеокарты работает заметно шустрее
Сейчас уже вышли новые интересные модели такие как Mistral и Mixtral, Llama-3, WizardLM и Phi-3. Плюс не обязательно крутить их с веб интерфейсом. Можно из консоли, достаточно 5 строчек кода на Питоне написать, загрузка и запуск модели всё)
я запустил локально deepseek на 33б на процессоре чтоб проверить возможности, ответ на вопрос занял минут 35-40, но качество ответов меня капец сильно удивило... теперь появилось желание запускать локально 33б ллм модели, есть ли какой-то более-менее вменяемый сетап скажем из двух Р40, чтоб просто повторить по мануалу, без паяльника и дремеля, не то чтоб сильно боюсь паяльника и дремеля, но времени жалко может какие-то ресурсы профильные подскажите где такое собирают?, не сильно легко это гуглится чего-то
По некоторым тестам, свежая моделька mistral 7b превосходит вторую лламу на 13b, так что, вероятно, в недалёком будущем появятся добротные модели и на 13b сравнимые по качеству с текущими 30b.
@@LAFLAFF всё зависит от ваших потребностей. Нужна ли вам модель для кодинга, для чата или ещё для каких-то специфических задач. Я бы порекомендовал вам обратить внимание на модели "смесь экспертов" от мистралей, где 4x7b, например. Лламой давно не пользуюсь, так как для меня она потеряла актуальность.
Добрый день! У вас момент с тестами Vicuna ускорен на видео? Как себя показывает p40 в нейросетях? У меня на сервере стоит k80, скорость не устраивает. Есть смысл на p40 обновить? Как минимум архитектура новее и все 24GB VRAM доступны, а в k80 2 чипа на каждый по 12GB.
@@MautozTech Благодарю за ответ. Немного поковырялся, нашел на реддите, что около 1.67 it\s stable defusion выдает. У меня на k80 выдает 0.6 it\s. А на SDXL вообще все грустно. В принципе разница в 2.5 раза и не сильно большая, наверное лучше копить на карту RTX 4000 серии. Tesla A40 уже не подъёмно стоят.
@@RemX88 2.20 it/s в среднем 3080 10 Гб в Fooocus выдает. 1.67 не большая разница. Зато разница в ценах. Можно кластер из 4 p40 замутить за ценник 3080 даже на вторичке. Но и проц уже там надо с матерью пошустрее. Думаю Теслу в файловый домашний сервер воткнуть и GPT поднять. На 3080 GPT4All довольно бодро отвечает и даже на русском языке. Надо только ей это указать. Немного с акцентом.
@@СеменСеменыч-ч5и У меня не получилось K80 в кластере запустить ни в H2oGPT ни в SD. Боюсь с P40 та же история будет. Так что наверное нужно рассчитывать только на 1 карту. Либо запускать несколько нейросетей, каждая на своей карте.
Продают ли китайцы уже запакованные чипы от p40 в охладе 1080? Что бы избежать этого челленджа из видео. Я хотел бы себе в пару к моей 3060 на 12 поставить ещё и P40. Блок большой, места много. Запускаю 70B GGUF модельку на 13600K, получаю около 0.9 токена в секунду. Можно же слои обработки на карту скинуть. Я, может, что-то прослушал в видео. Возможно ничего на моей системе и не заработает такого.
@@MautozTech Я много тестил 13B модельки на карте чисто. В сложных творческих запросах они не годятся, особенно когда промпт большой в котором даже 70b модель путается иногда.
Обожаю когда сравнивают возможности моделей 13B и 175B (GPT 3.5). Аналог чата GPT локально запустить пока что вообще не получится. Во первых из за того что все опенсорсные модели базируются на открытой GPT 2 и слитой версии нейронки от Фейсбука, на основе которой получилась Lama, эти модели просто дообучают для каких-то определённых целей, датасета уровня GPT3 и выше у рукоделов просто нет. Во вторых из за необходимого размера памяти, максимальный размер опенсорсных моделей на данный момент 65B, и для локального запуска таких тебе понадобится от 64Гб памяти. Чтобы запустить это дело на видеокарте, нужен будет целый серверный стенд, так что обычно их грузят в ОЗУ и выполняют на процессоре, оочень медленно. (хотя я бы глянул видос про запуск Альпаки 65В на видеокартах) Насчёт того почему угабога выдаёт ошибку при загрузке модели 30B, возможно просто не хватает памяти. Попробуй добавить флаги --auto-devices и --gpu-memory 23 Опционально ещё можно --disk У меня 30B Alpaca занимает где-то 28 Гб оперативки. Алсо можно попробовать запустить через Kobold.cpp, он сейчас активно развивается и вроде бы даже может в видеокарты, а багов и траблов с запуском там значительно меньше, чем в угабоге.
1. Очевидно, что люди называют опенсорсные модели аналогами ChatGPT, потому что все остальные знают про ChatGPT, а названия опенсорсных моделей видят впервые. Да и в она является аналогом ChatGPT в плане функционала, пусть и не дотягивает по качеству. Тем не менее, многие задачи она решать способна. 2. В угабоге я багов не встретил. Работает адекватно, хотя сам интерфейс мне не сильно нравится. 3. Тут в комментах человек предлагал на видеоядре Райзена запускать модели которые весят больше 24 гб, но мне пока больше интересно автоматизировать перевод видео на англ, да и Ryzen 5600G я продал
Там эти 24 как 12 щас точно лучше взять ту же 3060 на 12гб и она будет быстрее да и в разы новее и дешевле) но за 10-13к имба щас и по 40 их пытаются продать 😅 кста такой ж корпус
Чел просто невероятен - потратил полгода на то, чтобы собрать и настроить платформу для использования видеокарты из мусора с авито, итоговая цена которого в заметно привысила цену вендорского б/у сервера (dell или hp) на lga 2011. В таком серваке не пришлось бы колхозить офхаждение к видюхе и не было бы проблем с процессором
Вроде как очевидные вещи которые я уже за*бался повторять, больше не буду т.к. хз чем вы слушаете и думаете. 1. Это охлаждение охлаждает лучше и оно тише, что при нахождении в квартире имеет очень большое значение 2. Время ушло на ожидание видеокарты, и потом второй видеокарты с таобао, а не на сборку. 3. Многоядерная производительность Зеона мне не нужна, а вот иметь видеоядро бывает удобно. 4. Это дёшево за это железо и в каком месте это мусор? 5. Я собрал то, что идеально выполняет мои задачи за низкую цену.
Парень реально невероятно крут: один, за счет личного весьма ограниченного бюджета проделал то что до него пытались делать целые институты с огромными бюджетами. Ему бы надо обратиться за поддержкой своей работы к Путину который в последнем обращении трижды акцентировал внимание на необходимости разработки отечественных систем искусственного интеллекта.
Пишу этот коммент через год. Тоже хочу купить p40, желательно 2. Так вот за год технологии нормально так шагнули. На моём сраном mac m1, llama 3 8b q4 отвечает нормально на все эти вопросы со скоростью в 2 раза быстрее. А мой комп по этим меркам невероятно древний и совсем уж не подходящий для ИИ. Вижу что головняка с p40 будет вагон и маленькая тележка. И если брать с рук то кто угодно на каком угодно моменте может кидануть (
Бери три. Сможешь нормально запускать модели 70B в шестом кванте. Больше 6 токенов в секунду скорость генерации. Потра...ся придётся: нужна плата, на которую влезут три двухслотовые видеокарты (и постарайся, чтобы второй-третий слоты не были сильно порезаны в плане PCIe линий) и большой корпус, в который войдёт по длине тесла с охлаждением (идеален Cougar MX600). Ещё нужен киловаттный БП с 6 "хвостами" PCIe. Бюджет сам прикидывай. Но в принципе всё можно найти - это самый край потребительского железа. Для 4 тесл уже сложнее.
Да, по охлаждению - на Авито продаются большие "улитки" с переходником, от 2,5к плюс доставка. Дорого, но это почти идеальный вариант. Охлаждают хорошо и тепло выводится наружу, а не остаётся в корпусе - а 3 теслы это 450 ватт в нагрузке, если с текстовыми моделями играться. В других задачах могут и сильнее греться.
Есть дохера способов решения этой задачи. Сходу могу назвать RDP, TeamViewer, AnyDesk, VNC. Я просто выбрал ту программу которая мне больше понравилась и которая на мой взгляд работает быстрее. В чем проблема?
Как приятно слышать, что не один я запоролся на материнках с Above 4G decoding) Тоже купил теслу М40, а материка была Asus H81M-P, весь биос перекопал, переобновлял, даже пытался через AMI модифицировать прошивку биоса, но нигде не было этого параметра. Ничего не оставалось, кроме как копить на новую мать
На гигабайтах 2xx чипсета тоже нет такого в биосе, но есть скрытый параметр, вынесенный за пределы основного меню, включал его через AMIBCP по-умолчанию, но вот чтобы вывести его в менюшку придётся знатно перелопачивать биос сторонними редакторами. Переходить на другую платформу жалко, уже и мутанта поставил топового и памяти нарастил под 64 и теслу заказал... придётся биться)
@@MautozTech, с какими параметрами и сколько токенов/сек удалось получить? Хотел в конце видео хотя бы краем увидеть лог и цифры из него, но увы. А без них не оценить. Было бы здорово увидеть сравнительную табличку по моделям с одинаковым промптом, максимальной длиной генерации и прочими параметрами. Можно конечно и в новом видео, но если есть возможность то хотелось бы узнать ответ побыстрее. Например на модели из видео сколько по скорости т/с удалось получить?
Вот ты варвар! Нужно было просто выпаять подстроечный резистор (крутилку/потенциометр) 3 -4 контакта и нормально его поставить в корпус на длинных проводах.
@@echbob6301 да, европейцы тоже жалуются, что цены на теслы минимум удвоились. Кто не успел, тот уже всё. Но насчёт 3090 тоже правда - хороший вариант так-то. Правда для счастья потребуется их минимум три штуки...
@@MautozTech кому что нравиться . я тож так подума. но после твего видоса пришла мысля совсем перерабооать сборку кардиально и на 1 год не тратя электричество вапще.
Читаю коменты, пипц много противоречивой информации. Попробую задать вопрос, мож. кто умный прочитает и ответит. Естьи сервер, состав такой: Платформа 4х процессорная Supermicro SuperServer 2049U-TR4 стоят Intel Xeon Gold 6240 (18-ядерный (36-потоковый), 24.75M Cache, 2.60 GHz, 150W)--4шт. 32GB PC4-23400 2933MHz DDR4 ECC Registered DIMM M393A4K40CB2-CVF-- 16шт., всего 512 GB соответсвтенно. Сервак этот мы испльзуем Под моделироване, там корона, там процессоры нужны. Хотим нарастить GPU для рендеринга, соответсвтенно встал вопрос о покупке видеокарт, желательно сервеных (так как корпус то серверный, игровые туда не влезут. Колхозить не хочется. Вот собственно ВОПРОС ЧТО ВЗЯТЬ В ПРЕДЕЛАХ 150к ЧТОБ ДЛЯ РЕНДЕРИНГА И ДЛЯ НЕЙРОНОК. Бюджет релиши до 150к что б взять одну карту, потом если дело пойдет поставтить еще. Так то платформа до 6ти 16ти канальных полноценных PCI-E 3.0 поддерживает. и до 12ТБ оперативки можно засунуть в дальнейшем. Всем добры и позитива)
Когда я изучал вопрос, RTX 3090 выглядила наиболее выгодным решением для подобных задач. Видел много компов в интернете на нескольких 3090, много кто выбирал этот вариант т.к. теслы были слабее и дороже. Сейчас уже есть RTX 4090. Я бы брал её, но я не настаиваю.
лошара, можно збс серверную платформу взять за 10к c 12 ядерным Xeon и 32Гб ECC оперативки ) + Tesla M40 за 11-12 через озон или алик. на корпус вообще нхй так тратится, главное вместительный и чтобы железо не фольга итого ты мог уложиться в 27-30к, вместе с БП и ssd.
Так себе заявления. Не знаю как я мог уложиться в 27-30к если М40 на 24 гб стоили под 25к на алике. 1. У 12 ядерного зеона есть видеоядро? Нет. Мне не нужна процессорная производительность. 2. P40 сильно мощнее чем M40, плюс не надо путать вариации на 12 гб и 24 гб - на 24 стоят дороже. 3. Средняя цена корпуса в игровых сборках прилично выше цены этого корпуса, несмотря на то что они сильно меньше. Это дёшево за Full Tower корпус в очень хорошем состоянии. Купил практически самые дешевые адекватные компоненты и всё равно пишут что дорого, пиздец Это всё железо примерно 30к и стоит
@@MautozTechну зато ты со своей выбранной платформой помаялся, ещё менял, взял бы серверную, меньше головняка изначально) плюсы серверной платформы очевидны, это мощь и потенциал, и купить такое добро за 10к или за фулл стоимость в 150к )) ну потратил бы ты ещё 1к на видео-затычку, зато у тебя полноценный сервак почти под любое направление, надоело с теслой экспериментировать, взял тупо виртуалку поднял под какиенить нужды, которая всегда висит параллельно не жря никакие ресурсы основного компа) у меня ещё и сервак не дома, опечатал и воткнул на работе в серверный шкаф, ляпота, нет энергозатрат, и сервак обитает в кайфовых условиях)
@@MautozTech ну и хз когда ты покупал, смотря по дате ролика можно было найти дешевле, я M40 месяц назад заказывал в озоне за 12к, за аналогичную сумму как минимум ещё 5 предложений на алике были, ну а сейчас да диапазон 15-25к.
@@MautozTech справедливости ради, видеоядро тут вообще не нужно. Я вставил карту-затычку на время установки винды, врубил RDP обычное, и все, поставил майнерскую видяху и забил.
Сколько в этом видео боли, а чел так спокойно об этом рассказывает
Ты про видюху за 40? Когда на практике надо за 200+ ?)
@@rtme846 меня больше задело то, что кто-то спер его видюхи в процессе доставки. Но тут уж как евреи говорят - спасибо тебе, Господи, что взял деньгами. =)
Аха-ха! Сеть думает что она Скайнет. Уже захватила чайник и тостер. Уговаривает пылесос присоединиться к борьбе с человеками 🤣
Огонь !!!
1:38
Корпус в корпусе имба 😂
Лайк, Респект, Подписка. Размышляю над сборки сервера для своей личной ИИ. Твоё видео дало хлеб для размышления
Хотелось бы написать по поводу запуска 30b нейросети. Сообщение планирую сделать большим, поэтому если кратко - нужен файл подкачки порядка 100 гб. Теперь подробнее. Сам недавно сталкивался с проблемой запуска 30b нейросети, долго не мог понять, в чем проблема. Как оказалось позже, она все это время была в оперативной памяти. Тут правда многое зависит от того, через какую библиотеку загружать GPTQ модель (лучший, на мой взгляд, способ - ExLLama, там и оперативной памяти задействовалось если не изменяет память 43 гб, и скорость генерации лично у меня выше чем в случае с GPTQ-For-LLama в 2 раза). AutoGPTQ и GPTQ-For-LLama задействовали как раз около 100 гб оперативной памяти. Вообще там история с ошибками и AutoGPTQ довольно интересная - когда оперативной памяти не хватает сильно (16 гб, файл подкачки отсутвовал), практически сразу вылетает Failed To Allocate CPU Memory (помню я тогда еще удивлялся и думал, что это он на CPU запускать планирует). Потом (16 гб RAM + 65 гб файл подкачки) ошибка пропала, но весь скрипт спустя какое-то время загрузки просто вылетал без каких-либо сообщений об ошибке. И наконец когда был выставлен размер файла подкачки 150 гб, нейросеть успешно загрузилась. Использовал я Wizard-Vicuna-30B-gptq, no groupsize (ей вроде бы приписывается 97% качества ChatGPT, хотя думаю квантование до 4 бит эти ее возможности несколько понизило). Она вроде бы сейчас лучшее, что возможно запустить на 24 гб видеопамяти (расход видеопамяти - чуть меньше 20 гб через GPTQ-For-LLama и 20,8 гб через ExLLama). LLaMa-2 34B еще не вышла в открытый доступ, а в возможности LLaMa-2 13B противостоять 30B модели я не особо верю (хотя в два раза увеличенный размер контекста - очень весомый аргумент).
Я следил за памятью во время запуска, у меня переполнялась именно память GPU. Если запускаете на проце, то да, но использование файла подкачки может быть узким местом
Добрый день, смотрю у Вас большой опыт, разьясните для новичка, p40 имеет смысл брать или сразу p100, благо цены более менее адекватные. Или gtx какую то по ценее сопоставимую лучше приобрести. Спасибо (заранее).
@@cubealex На мой взгляд, здесь все зависит сугубо от ваших целей. Для локального запуска больших языковых моделей NVidia Tesla P40 покажет себя даже лучше, чем P100, по причине большего объема видеопамяти (24 гб против 16 гб у P100), что позволит использовать с ней более крупные нейросети (которые обеспечивают достаточно высокое качество генерации, проще говоря они "умнее"). Но при этом P100 должна в теории показывать себя лучше при обучении нейросетей (которые влезут в ее видеопамять, которой у нее кстати столько же, сколько и у Tesla T4 из Google Colab, которой можно пользоваться бесплатно) в режиме Half-Precision (т.к. NVidia позиционирует ее изначально как решение для обучения, а сама видеокарта аппаратно поддерживает 16-битные (FP16) операции, которые активно используются при работе в Half-Precision). Для игровых задач скорее всего тоже будет лучше Tesla P40 (лучше, чем P100, но далеко не факт что она лучшая игровая видеокарта за эти деньги). Для работ с большими нейросетями вряд-ли есть GTX / RTX карты в данном ценовом сегменте, которые бы показали себя лучше, чем теслы, в силу огромного объема видеопамяти у последних. Та же RTX 3090, предлагающая аналогичный объем видеопамяти, стоит в разы дороже.
Огромное спасибо! Частично (чисто умозрительно) я пришел к подобным выводам. Игры в принципе не интересуют. Очень редко могу что то из старого запускать портированное на os x (GTA Vice City) на mac pro late 2013. Но скорее предпочту что нибудь смонтировать/перемонтировать и отрендерить в Blender либо сделать mix в reaper, играм.
Всегда можно использовать модели с квантованием, я так 30b модели на 3090 спокойно верчу
Запустил нейронку Wizard v1.2 GPT4All на rtx3080ti и поспрашал про то что лучше. Ответы как есть. Отвечает на русском.
-- Какие из видеокарт nvidia tesla P40 или M80 лучше подойдут для запуска нейронных сетей?
-- Обе эти видеокарты NVIDIA Tesla - P40 и M80 - являются мощными инструментами для обучения нейронных сетей. Они обе обладают высокой вычислительной мощностью, необходимой для обработки больших объемов данных и обучения сложным моделям.
Однако, существуют некоторые различия между этими двумя видеокартами:
1. **NVIDIA Tesla P40** - это более старая модель, но все же достаточно мощная для большинства задач в области машинного обучения и глубокого обучения. Она имеет 8 GB GDDR5X памяти и поддерживает технологию NVIDIA Volta Tensor Core.
2. **NVIDIA Tesla M80** - это более новый продукт, который использует архитектуру Maxwell с улучшенной производительностью по сравнению с P40. Он имеет 16 GB GDDR5 памяти и поддерживает технологию NVIDIA Pascal Tensor Core.
В целом, если вам нужна максимальная вычислительная мощность для обучения сложных нейронных сетей, то M80 - лучший выбор. Однако, если бюджет ограничен и вам достатожно мощности P40, это также может быть хорошим выбором.
Важно помнить, что для успешного обучения нейронных сетей не только видеокарта играет важную роль, но также и другие компоненты системы, такие как процессор, оперативная память и т.д.
-- Какой минимальный набор компонентов необходим для запуска нейронных сетей? Процессор (поколение, набор инструкций), оперативная память, видеокарта (процессор и размер видеопамяти)?
-- Для обучения нейронных сетей вам потребуется следующий минимальный набор компонентов:
1. **Процессор** - Вам потребуется процессор с поддержкой AVX2 (Advanced Vector Extensions 2) или более новых инструкций, таких как AVX-512. Это позволит вам обрабатывать большие объемы данных и обучать сложные модели.
2. **Оперативная память** - Вам потребуется достаточно оперативной памяти для хранения данных, моделей и программного обеспечения. Обычно, 16-32 ГБ оперативной памяти является достаточным для большинства задач в области машинного обучения и глубокого обучения.
3. **Видеокарта** - Вам потребуется видеокарта с поддержкой CUDA (NVIDIA) или OpenCL (AMD), чтобы ускорить обработку данных и обучение моделей. Выбор между P40 и M80 зависит от ваших требований к вычислительной мощности и бюджета.
Кроме того, вам потребуется операционная система (Windows, Linux или macOS), программное обеспечение для машинного обучения (TensorFlow, PyTorch, Keras и т.д.) и данные для обучения модели.
-- Какая операционная система лучше подходит для этих целей?
-- В большинстве случаев для задач машинного обучения и глубокого обучения наиболее популярными являются Linux (в частности, Ubuntu) и Windows. Оба этих операционных систем поддерживают большое количество инструментов и библиотек для машинного обучения и глубокого обучения, таких как TensorFlow, PyTorch, Keras и т.д.
Linux обычно предпочитается из-за его стабильности, безопасности и поддержки открытых технологий. Он также имеет большое сообщество разработчиков, что означает, что есть множество ресурсов для получения помощи при возникновении проблем.
очень неточно
1. Нейросеть запускал через oobabooga/text-generation-webui.
2. Нейронщики часто называют память видеокарты оперативной памятью потому что видеокарта выполняет операции и это логично, но я об этом забыл и неправильно понял. Поэтому в части про ошибку связанную с Above 4G Decoding имеется ввиду память видеокарты.
3. Vicuna-13B отвечает что она ChatGPT потому что в её обучающей выборке были ответы ChatGPT и она при обучении их "запомнила".
P.S. Возможно стоило сказать это, но не хотел растягивать вступление
Братан, так а скорость генерации-то какая была? :)
Интересует, че там у нас в ExLlama выдает Llama 2 13B. Чтобы можно было сравнить в профильном вопросе, тассазать, с другими.
Автору лайк и респпект только лишь за настойчивость и упорство, прямо-таки маниакальное!
Привет, ну ты красавчик. Ну главное собрал) Какие лучьше параметры пк для локальных нейросетей иметь? Моло инфы, может что то подскажешь?
Четко молодец, спасибо, тоже хотел купить тесла40 но теперь понял что не потяну проблем с железом. Думал есть решения без костылей и перепайки и тд, типа собрал и пользуся, но те камни которые ты показал, отпугнули меня от этой затеи.
2:00 33 В четверг четвёртого числа в четыре с четвертью часа лигурийский регулировщик регулировал в Лигурии))
Спасибо за видео! За мучался я с ошибкой код 12 со своей Nvidia Tesla P100, теперь хоть знаю какую мать докупать и проц.
У меня сейчас Asus Z270-P. Там есть виджет на рабочий стол с кнопками для управления оборотами, вообще каеф. Проц поменял на 6600к потому что было выгодное предложение недалеко от меня. На всех более современных платах должна быть необходимая опция
@@MautozTech Купил сет как в описании к ролику, более менее бюджетно вышло. Только ConfiUI нормально не запускается, ругается на CUDA...
@@artkovss7272 скорее всего дело в версии Cuda, CuDNN, драйвера или самого софта
@@MautozTech Две карты реально запустить на msi z170? Слоты PCI-E будут работать в режиме х8, а не х16...
@@MautozTech По управлению кулерами рулит Fan Control
14:10 ооооо, скоро будет ровно 8 лет с этих легендарных речей
Вообще никогда не пользовался этими регуляторами вентиляторов. Вентиляторы лутьше подключать к системной плате и забыть. Плата сама по мере нагрева разгонит или понизит скорость вращения.
спасибо за ценную информацию про p40 штука может и крутая,но под простого пользователя не подойдет
Стоит оно того по итогу? Замороч с теслой? При равной цене например она сильно производительнее будет в сравнении с теми же 1080ти работающих в паре? Вопрос не про игры. Видос про игры только что посмотрел
С кулерами возиться не стоило, я просто хотел чтобы все работало идеально. Очень жаль что первую теслу потеряли. В остальном доволен. Не знаю что лучше взять две 1080 ти или теслу, думаю зависит от задачи, но две 1080 ти будут в два раза дороже. Я бы тогда наверное взял две теслы
А нельзя как то припаять вентиляторы к плате Теслы, чтобы он сама могла регулировать обороты?
Я купил мать асус, у них есть виджет через который удобно регулировать обороты. Не уверен
Крутой ты тип. Молоток. Удачи во всем
Добрый день, прошу Вас сделайте видео или тест и напишите сюда Stabile Diffusion на nvidia p40, чтоб увидеть время генерации 512 х 512 все по дефолту. Никто что то не сделвл подобного, только игрушки тестят. Хорошо бы еще p100 на подобную задачу прогнать. Хочу прикупить gpu хотелось бы сравнение увидеть 2070 генерит вроде бы в среднем за 15 - 17 сек.
Просто посмотрите в сравнении с 1080ti по факту будет тоже самое. Ибо чип один и тот же. А по нейронкам лучше переходить на 3000 серию карт, т.к из опыта 1080ti против 3090 в играх это производительность 2-2.5х в пользу 3090, то в задачах ии в иом же SD разница с 1080ti доходит до 5 раз. А так считайте p40 тоже самое что 1080ti, только памяти 24гб что позволяет в большем разрешении работать.
Добрый день! Я промониторил рынок карт на сковозную по моделям и ценам, 30 серия карт в общем уже мало доступна, на на ветке обсуждений по нейронкам в телеграмме посоветовали брать доступные в продаже 40 серию, т.к. они будут более производительные даже не флагманы. Я нашел огромные таблицы сравнения GPU на англоязычной WiKi (можно переключить на русский), и посравнивал доступные также пытался разговорить на эту тему GPT чат. Еще составил для ориентирования табличку куда включил 20 серию видеокарт и 40 серию крайний правый столбик примерная начальная цена. Тут самый главный фактор производительность/цена. Я потратился на superworkstation (superserver)7048 /2xxeon2630v3 2,6GHz 2x8Gb ОЗУ, и заказал на алике и получил 2хxeon 14яд. Поэтому мой бюджет сильно просел, я и ищу максимально мощьную GPU по минимальной цене (Установлена GTX750 1Gb). Шум не слабый но продуваемость корпуса запредельная. Нейронки запускал на CPU, ОС kali linux. Моя основная машина mac pro late 2013, поэтому только линукс хоть на нем они заводятся в разы сложнее. Очень много дельных и очень полезных советов дает ChatGPT.
Когда поднакоплю денег ОЗУ естественно прокачаю и возможно заменю процы. На серваке стоят 2 БП по 2000 Вт, так что видеокарточки можно поставить любые лишь бы по размеру влезли.
@@cubealex если посмотреть технические характеристики 3090 лучше чем 4080, и любой остальной неликвидный кал, а за цену 4080 можно поднакопить и купить уже 4090 в обеих моделях 24 гб видеопамяти. 4090 в два раза производительнее 3090. В остальных все упрется в видеопамять как и в производительность это выкинутые деньги. Это касается что для рисования нейросетями как и для работы с нейросетями. Цена 3090 650-700 евро бу, я пол года на нее капил и купил потому что мне не нуже урезанный кострат с которым будут в будущем проблемы, из-за роста размера моделей как и задач.
Да я уже понял, что чуда не будет все соразмерно цене. Но моя идея была в том чтобы подобрать так скажем точку вхождения по минимальной цене. Я в итоге нашел для себя удобное мерило для абсолютно любой видеокарты или процессора. Видеокарты рассматриваю только с приставкой - Ti и последние в ветках, других для меня нет. Перебрал актуальные абсолютно все модели на nvidia. Теперь смотрю только нюансы из полных технических характеристик, думаю что кроме меня это мало кого интересует. Но чтоб к этому прийти пришлось проделать просто нереальную работу.
Чтобы запускать более тяжелые нейронки нужно больше оперативки, я планирую собирать комп на двухголовой 2011-3 со стартовым модулем в 64гб, думаю мне хватит)
У меня одноголовый E5-2697 и 128 Гб. Оперативки. Через Koboldcpp получается запускать тяжелые модели, но скорость очень низкая. Модели на 30B обрабатывают примерно 1 токен/сек. Это дико медленно, учитывая, что обычно на 1 простой запрос нужно ~100-1000 токенов и еще столько же на ответ. Модели 70B соответственно работают еще в 2-3 раза медленнее. Учитывайте, что CPU на 2011 сокет под чипсеты x79 не поддерживают AVX2, а это важный момент для нейронок. Лучше смотрите как минимум в сторону на x99 материнки, с более современными процессорами на AVX2, а лучше AVX512. Для себя пришел к выводу, что нейронка на CPU это только чтобы попробовать большие модели. Ну или если задачи позволяют дохрена ждать, например отложенные вычисления. Для практического использования пока гоняю только 13B модели на GPU (1080Ti 11Gb). Больно уж долго ждать пока CPU по чайной ложке в час все переваривает. Но Ваш опыт с двумя CPU был бы интересен. Напишите как результат, если соберёте планируемый комп.
@@МихаилАлексеев-ц6ц Если вдруг вам будет интересны мои замеры. Процессор E5-2698 v3, памяти 32ГБ, видеокарта P40. Замеры проводил на двух моделях deepseek-coder-6.7b-instruct.Q5_K_M.gguf и deepseek-coder-33b-instruct.Q5_K_M.gguf в koboldcpp-1.61.
Модель deepseek-coder-6.7b на процессоре при задействовании 32 потоков 4.22 Т/сек (загрузка CPU 95-96%)
Модель deepseek-coder-6.7b на GPU 33,1 Т/сек (загрузка GPU 77-81%)
Модель deepseek-coder-33b на процессоре при задействовании 32 потоков 1,04 Т/сек (загрузка CPU 98-99%)
Модель deepseek-coder-33b разделяется чуть больше половины в память видеокарты остальное в обычную память. Обработка как я понял на GPU. 5,57 Т/сек (загрузка GPU 52-58%, CPU 28-31%)
Не думаю, что с двумя процессорами увеличится производительность в два раза. Так что в любом случаи лучше обрабатывать на видеокарте.
По ощущениям от 4 Т/сек вполне комфортно. Хотя конечно когда 30 и более, то это вообще класс.
Начинал знакомство с локальными моделями на компе с процессором Q9550 и 8ГБ памяти, вообще без видеокарты. 0,4 Т/сек на модели deepseek-coder-6.7b это было вообще жесть.
Можете подсказать пожалуйста по поводу ссылки на p40 в алиэкспрессе там 3 варианта какой из них что непонятно
На али нормальных предложений временно нет
3:50 - А просто реобас купить разве нельзя было? В 5,25 ставится и все.
Видео интересное.
Можно было этого вообще не делать, кулера всё равно не включаю. Но мои тараканы захотели чтобы восстановить всё как было, к сожалению пришлось сделать немного по-другому. Реобас это такая же плата просто в форм-факторе 5.25"
Не показал чем хороши 24гб видеопамяти.
Крутилка регулировки кулеров разломила плату регулировку кулеров
Сколько токенов? Либо я прослушал, либо не говорилось...
Когда используешь пилу, надевай защитные очки - может оскочить будь осторожен
Не знаешь , эти теслы могут в рендер роликов?
Учитывая то что я в другом видео запускал на ней игры, не вижу проблем
Я сначала купил сервер, так как моя написанная неиросеть на тот момент не поддерживала видео карты. Но как только я услышал звук сервера у себя дома чуть не оглох. Понял что 24 часа в сутки чтобы он работал это просто кошмар. Тепер переписал свою неиросеть на GPU. Купил дешовую видео карту RTX 2060 Super. Особую пребавку скорости не ошутил. Сервер был восми процесорный. Но я использовал только два процесора. 2xXeon 4116. Пребавку скорости получил от видео карты только 180%. Думал купит Tesla P100. Но тепер "шила на мыла" менять не стоит. Жду когда подешевеет например RTX 3080. Новые Tesla слишком дорогие. Хочется 24GB gddr6.
Тесла из видео стоит наверное около 100$
а прикинь, если бы у тебя стояли процы с DL Boost. Зеоны 44хх, 45хх и выше. Ты бы вообще забыл что видюхи существуют😅
Нормально ли на этой карточке обуются LoRA для SDXL? А то мне не хватает 12 гб на 3060.
Абсолютно тот же вопрос
Подскажи, какие винты на торцах у P40? Я пробовал звёздочки T4, T5, не подходят, не могу раскрутить, чтобы систему охлаждения поменять.
Я продал охлаждение. Купите набор отверток, наверняка там будет нужная
У меня 2 набора было, ни в одном не было подходящей отвёртки. Получилось открутить плоской отвёрткой на 1.5 мм, надавив посильнее.
Там звездочки с потаем? Попробуйте посмотреть наборы Т5 с потаем, может, тот же силуэт
@@brfox_cosplay Да уже не надо, я раскрутил по-варварски, поменял охлаждение
Набор дюймовых шестигранников для прецизионных работ подойдёт, если кому ещё надо.
Ребят , купил охлад для теслы. Inno3d ichill x3. Собрал , все гуд. Подключаю. Оказывается у вентиляторов другой разьем , нежели 4pin. Кто знает какой переходник купить ? Ардуино 4pin не могу найти
Ну да, разъем для подключения кулеров видеокарты отличается от разъема подключения кулеров материнки, поэтому я и использовал ардуиновские провода. Добавлю ссылку на них в описание.
Привет! А можешь сделать (если это возможно) более подробное видео по данной теме? Так-как мало технической инфы. Я в видео не нашел у тебя даже простого GPU-Z, который зрителю указал бы важные показатели, такие как температура, и особенно загруженность VRAM конкретной языковой моделью etc. Я сам уже около месяца думаю собирать ли себе тоже для такого дела отдельный комп. Я остановился пока на старьёвом но еще довольно актуальном частично серверном железе - сокете 2011-v3 XEON 18-22 ядра оперативы 128-256ГБ DDR4 ECC, 1ТБ NVME, материнка Asus или Asrock.
Ну а вот с видео картой тут стала дилемма! Я пересмотрел кучу вариантов начиная от 20хх серии в NVLink режиме до 40хх, а потом вспомнил про Tesla линейку. И оказалось что они у нас стоят, да в общем нифига они не стоят по сравнению с игровыми карточками. Например nVIDIA Tesla M10 32GB всего 270 Евро, а Nvidia Tesla K80 24GB вообще 125 евро!
Вот у меня и вопрос на сколько разные модели типа LLAMA 1 или 2 или другие модели загружают Tesla видюху или вообще какую-то видео карту?
Но раз у тебя уже есть какой-то опыт не мог бы поделится пожалуйста инфой по данному вопросу?
Спасибо заранее!
GPU-Z можете загуглить
В Tesla M10 четыре видеочипа по 8 гб на каждом, я бы ее не брал
k80 тоже не советую, не хватает. Если еще актуально )
@@MautozTech а эта конкретная Р40 на сколько загружена? И главное как быстро отвечает LLAMA. Пока использую её на 8 ядерном процессоре ноутбука, в котором 64 гига оперативы. На 8 гиговой видеокарте запускаться отказывается. Но тормоза неприятные - иногда минуту ответ ждать приходится.
@@dyvniy_vershitel Размер загружаемых в видеорам данных любой прикладной софт для нейронки (а он идет в комплекте) покажет вам при запуске, нейронка это не игра, где загрузка динамична, нейронка это просто файл гигантского размера содержащий весовые коэффициенты, он загружается при старте если памяти хватает или не загружается вовсе и вылетает в ошибку. Не нужны там никакие GPUZ, нечего там мониторить. Эта конкретная ХХХХ загружена будет всегда на 100, вернее загрузкой карты управляете вы на этапе запуска нейронки, различного рода всякие аналоги чата GPT можно затолкать и в 8G, но из всего что я видел размеры гуляют в пределах 14- 30G при рекомендуемых параметрах. Меньше иногда можно, но работать (теоретически) будет хуже. По сравнению с компьютером отвечает на порядок быстрее. У меня зеон 10 ядер 20 потоков, 32Гб при запуске одной и той же сетки на процессоре ответы ждешь секунд по десять а то и больше. На видеокарте при этом ответ прилетает с некоторой задержкой но это примерно 1-2 секунды, так что ускорение от 5 раз и выше даже по самым скромным подсчетам. Видеокарточка 1070Ti 8Gb.
@@faIke5Нейронка не игра? ) Каким местом не игра? Вон как играете, никак не наиграетесь! )
А tesla m40 на 12gb вообще имеет сейчас смысл? Просто хочется тоже таким попробовать позаниматься, но не хочется сразу много денег тратить.
Начните с Google Colab, там бесплатная видюха на 16 гб
Лучше брать на 24гб, размер батча можно будет больше поставить, вследствие чего обучение будет намного быстрее, да и разница в цене не такая большая между версиями на 12 и 24
тоже вот смотрю сейчас на теслу моей P104-100 мне не хватает, у нее 8Гб всего ( llama3.2-vision:11b не влезает, и хоть она параллелится между cpu и gpu, то, что полностью помещается в память видеокарты работает заметно шустрее
Сейчас уже вышли новые интересные модели такие как Mistral и Mixtral, Llama-3, WizardLM и Phi-3. Плюс не обязательно крутить их с веб интерфейсом. Можно из консоли, достаточно 5 строчек кода на Питоне написать, загрузка и запуск модели всё)
я запустил локально deepseek на 33б на процессоре чтоб проверить возможности, ответ на вопрос занял минут 35-40, но качество ответов меня капец сильно удивило... теперь появилось желание запускать локально 33б ллм модели, есть ли какой-то более-менее вменяемый сетап скажем из двух Р40, чтоб просто повторить по мануалу, без паяльника и дремеля, не то чтоб сильно боюсь паяльника и дремеля, но времени жалко может какие-то ресурсы профильные подскажите где такое собирают?, не сильно легко это гуглится чего-то
По некоторым тестам, свежая моделька mistral 7b превосходит вторую лламу на 13b, так что, вероятно, в недалёком будущем появятся добротные модели и на 13b сравнимые по качеству с текущими 30b.
@@SizorCloud какие умные модели 13b и 20b можете порекомендовать?
@@LAFLAFF всё зависит от ваших потребностей. Нужна ли вам модель для кодинга, для чата или ещё для каких-то специфических задач. Я бы порекомендовал вам обратить внимание на модели "смесь экспертов" от мистралей, где 4x7b, например. Лламой давно не пользуюсь, так как для меня она потеряла актуальность.
Когда железки болгаркой пилите - очки одевайте обязательно!!!1
Добрый день! У вас момент с тестами Vicuna ускорен на видео? Как себя показывает p40 в нейросетях? У меня на сервере стоит k80, скорость не устраивает. Есть смысл на p40 обновить? Как минимум архитектура новее и все 24GB VRAM доступны, а в k80 2 чипа на каждый по 12GB.
Посмотрел в проекте, видео без ускорения. P40 мне нравится, K80 не рассматривал
@@MautozTech Благодарю за ответ. Немного поковырялся, нашел на реддите, что около 1.67 it\s stable defusion выдает. У меня на k80 выдает 0.6 it\s. А на SDXL вообще все грустно. В принципе разница в 2.5 раза и не сильно большая, наверное лучше копить на карту RTX 4000 серии. Tesla A40 уже не подъёмно стоят.
@@RemX88 2.20 it/s в среднем 3080 10 Гб в Fooocus выдает. 1.67 не большая разница. Зато разница в ценах. Можно кластер из 4 p40 замутить за ценник 3080 даже на вторичке. Но и проц уже там надо с матерью пошустрее. Думаю Теслу в файловый домашний сервер воткнуть и GPT поднять. На 3080 GPT4All довольно бодро отвечает и даже на русском языке. Надо только ей это указать. Немного с акцентом.
@@СеменСеменыч-ч5и У меня не получилось K80 в кластере запустить ни в H2oGPT ни в SD. Боюсь с P40 та же история будет. Так что наверное нужно рассчитывать только на 1 карту. Либо запускать несколько нейросетей, каждая на своей карте.
Продают ли китайцы уже запакованные чипы от p40 в охладе 1080? Что бы избежать этого челленджа из видео.
Я хотел бы себе в пару к моей 3060 на 12 поставить ещё и P40. Блок большой, места много.
Запускаю 70B GGUF модельку на 13600K, получаю около 0.9 токена в секунду. Можно же слои обработки на карту скинуть.
Я, может, что-то прослушал в видео. Возможно ничего на моей системе и не заработает такого.
Наверное продают, искать надо.
В вашем случае я бы нашел модель которая влезет на видеокарту и запускал бы её на видеокарте, 12 гб это прилично
@@MautozTech Я много тестил 13B модельки на карте чисто. В сложных творческих запросах они не годятся, особенно когда промпт большой в котором даже 70b модель путается иногда.
Игры ты на ней не запустишь, вроде только на m40 можно, но не на p40
11:25
Когда искал медь (про питание Tasla P40), а нашел золото :)
какой же колхоз! Но это офигенно! Продолжай :)
Интересное видео!
Видео карта Kolkhoz Home RTX collective farm 24 Gb
Обожаю когда сравнивают возможности моделей 13B и 175B (GPT 3.5). Аналог чата GPT локально запустить пока что вообще не получится. Во первых из за того что все опенсорсные модели базируются на открытой GPT 2 и слитой версии нейронки от Фейсбука, на основе которой получилась Lama, эти модели просто дообучают для каких-то определённых целей, датасета уровня GPT3 и выше у рукоделов просто нет. Во вторых из за необходимого размера памяти, максимальный размер опенсорсных моделей на данный момент 65B, и для локального запуска таких тебе понадобится от 64Гб памяти. Чтобы запустить это дело на видеокарте, нужен будет целый серверный стенд, так что обычно их грузят в ОЗУ и выполняют на процессоре, оочень медленно. (хотя я бы глянул видос про запуск Альпаки 65В на видеокартах)
Насчёт того почему угабога выдаёт ошибку при загрузке модели 30B, возможно просто не хватает памяти. Попробуй добавить флаги --auto-devices и --gpu-memory 23
Опционально ещё можно --disk
У меня 30B Alpaca занимает где-то 28 Гб оперативки.
Алсо можно попробовать запустить через Kobold.cpp, он сейчас активно развивается и вроде бы даже может в видеокарты, а багов и траблов с запуском там значительно меньше, чем в угабоге.
1. Очевидно, что люди называют опенсорсные модели аналогами ChatGPT, потому что все остальные знают про ChatGPT, а названия опенсорсных моделей видят впервые. Да и в она является аналогом ChatGPT в плане функционала, пусть и не дотягивает по качеству. Тем не менее, многие задачи она решать способна.
2. В угабоге я багов не встретил. Работает адекватно, хотя сам интерфейс мне не сильно нравится.
3. Тут в комментах человек предлагал на видеоядре Райзена запускать модели которые весят больше 24 гб, но мне пока больше интересно автоматизировать перевод видео на англ, да и Ryzen 5600G я продал
интересно глянуть ее в играх ) с 1080ти сравнение
нашел Р40 на Озоне 16 т.р. из-за рубежа. сейчас 30 дек 2023
Я заказал 6го декабря, 19го забрал. Пытаюсь теперь охлад придумать ей😁
@@ai.egoizm2.059 заказал вчера, китаец сразу снял видео с моей картой, за сколько дней интересно доберёшься до Урала, в ожидании своего первого ГПУ...
Сейчас цена доходит до 40к, что как бы намекает, что выбор был правильным :)
Там эти 24 как 12 щас точно лучше взять ту же 3060 на 12гб и она будет быстрее да и в разы новее и дешевле) но за 10-13к имба щас и по 40 их пытаются продать 😅 кста такой ж корпус
Чел просто невероятен - потратил полгода на то, чтобы собрать и настроить платформу для использования видеокарты из мусора с авито, итоговая цена которого в заметно привысила цену вендорского б/у сервера (dell или hp) на lga 2011. В таком серваке не пришлось бы колхозить офхаждение к видюхе и не было бы проблем с процессором
Вроде как очевидные вещи которые я уже за*бался повторять, больше не буду т.к. хз чем вы слушаете и думаете.
1. Это охлаждение охлаждает лучше и оно тише, что при нахождении в квартире имеет очень большое значение
2. Время ушло на ожидание видеокарты, и потом второй видеокарты с таобао, а не на сборку.
3. Многоядерная производительность Зеона мне не нужна, а вот иметь видеоядро бывает удобно.
4. Это дёшево за это железо и в каком месте это мусор?
5. Я собрал то, что идеально выполняет мои задачи за низкую цену.
Парень реально невероятно крут: один, за счет личного весьма ограниченного бюджета проделал то что до него пытались делать целые институты с огромными бюджетами. Ему бы надо обратиться за поддержкой своей работы к Путину который в последнем обращении трижды акцентировал внимание на необходимости разработки отечественных систем искусственного интеллекта.
nu blin lutshe ne ekanomit chem tak rabotat starayesa za ekanomit i prasherayesh dengi
Забавно, что по таким сборкам уже 10 месяцев нет новых русскоязычных видео. Впрочем кто хотел, те уже собрали себе.
Ничего забавного, просто нет смысла снимать одно и то же
годно, что сказать
но затея выгляджит как задел на далёкое будущее иначе все эти знания да и вложение денег не имеют пользы в будущем
В будущем эта система будет как Pentium 4 сейчас
Пишу этот коммент через год. Тоже хочу купить p40, желательно 2. Так вот за год технологии нормально так шагнули. На моём сраном mac m1, llama 3 8b q4 отвечает нормально на все эти вопросы со скоростью в 2 раза быстрее. А мой комп по этим меркам невероятно древний и совсем уж не подходящий для ИИ. Вижу что головняка с p40 будет вагон и маленькая тележка. И если брать с рук то кто угодно на каком угодно моменте может кидануть (
Бери три. Сможешь нормально запускать модели 70B в шестом кванте. Больше 6 токенов в секунду скорость генерации. Потра...ся придётся: нужна плата, на которую влезут три двухслотовые видеокарты (и постарайся, чтобы второй-третий слоты не были сильно порезаны в плане PCIe линий) и большой корпус, в который войдёт по длине тесла с охлаждением (идеален Cougar MX600). Ещё нужен киловаттный БП с 6 "хвостами" PCIe. Бюджет сам прикидывай. Но в принципе всё можно найти - это самый край потребительского железа. Для 4 тесл уже сложнее.
Да, по охлаждению - на Авито продаются большие "улитки" с переходником, от 2,5к плюс доставка. Дорого, но это почти идеальный вариант. Охлаждают хорошо и тепло выводится наружу, а не остаётся в корпусе - а 3 теслы это 450 ватт в нагрузке, если с текстовыми моделями играться. В других задачах могут и сильнее греться.
жестко )
Спросил бы про норм комп для нервных сеток, в Яндексе и не страдал бы емае))
Подключение к удаленному компу по VNC? Чувак, ты серьезно? Про RDP слышал?
Есть дохера способов решения этой задачи. Сходу могу назвать RDP, TeamViewer, AnyDesk, VNC. Я просто выбрал ту программу которая мне больше понравилась и которая на мой взгляд работает быстрее. В чем проблема?
Он слышал,что Украина - это страна Европы. Чего ты от него ожидаешь?)))
Как приятно слышать, что не один я запоролся на материнках с Above 4G decoding) Тоже купил теслу М40, а материка была Asus H81M-P, весь биос перекопал, переобновлял, даже пытался через AMI модифицировать прошивку биоса, но нигде не было этого параметра. Ничего не оставалось, кроме как копить на новую мать
Да на форумах полно сообщений от людей с этой ошибкой
На гигабайтах 2xx чипсета тоже нет такого в биосе, но есть скрытый параметр, вынесенный за пределы основного меню, включал его через AMIBCP по-умолчанию, но вот чтобы вывести его в менюшку придётся знатно перелопачивать биос сторонними редакторами. Переходить на другую платформу жалко, уже и мутанта поставил топового и памяти нарастил под 64 и теслу заказал... придётся биться)
Мощно задвинул😅😅😅😅😅
13:23 почему Украина закрашена белым?
Это Канада
А по украинскому глобусу Украина😅.
юмор странный, просто бы подписал Канада, закрашивать зачем
Kcas, о хосподи 😂😂😂
Судя по скринам ты качал квантированную до 4х бит модель. Попробуй оригинальную 16 битную, она должна быть повеселее
В 24 гб не залезет, а так бы с радостью
@@MautozTech, с какими параметрами и сколько токенов/сек удалось получить? Хотел в конце видео хотя бы краем увидеть лог и цифры из него, но увы. А без них не оценить. Было бы здорово увидеть сравнительную табличку по моделям с одинаковым промптом, максимальной длиной генерации и прочими параметрами.
Можно конечно и в новом видео, но если есть возможность то хотелось бы узнать ответ побыстрее. Например на модели из видео сколько по скорости т/с удалось получить?
@@MautozTech ну вот теперь можно llama 2 попробовать.
@@alx8439 вот автоматический (или полуавтоматический) перевод видосов было бы интересно реализовать, а генерация пока не особо интересна
@@MautozTech whisper.cpp в зубы и вперёд
Это ты так паяешь? У меня опыт монтажа 25 лет, я не могу на это смотреть))) Я в 7 лет паял в 10 раз чище.
Бедная нейруха, не знает, что ее создавали через лом
Вот ты варвар! Нужно было просто выпаять подстроечный резистор (крутилку/потенциометр) 3 -4 контакта и нормально его поставить в корпус на длинных проводах.
Сейчас цены на P40 по 30к...
Зато 3090 намного дешевле чем были тогда, плюс на Таобао Теслы могут быть дешевле
@@MautozTech на таобао месяца 4 назад были по 10к, сейчас 21к . Без учета доставки
@@echbob6301 да, европейцы тоже жалуются, что цены на теслы минимум удвоились. Кто не успел, тот уже всё. Но насчёт 3090 тоже правда - хороший вариант так-то. Правда для счастья потребуется их минимум три штуки...
Пособие как не надо делать:
Обучать нейронки , на 1 старой Тесле... Отличная работа, ты не только деньги проебал, но и время. Молодец
1. Она мощнее карты в колабе
2. Можно поставить больше карт
3. Железо можно продать и получить деньги назад
4. ...
@@MautozTech кому что нравиться . я тож так подума. но после твего видоса пришла мысля совсем перерабооать сборку кардиально и на 1 год не тратя электричество вапще.
по идимому лучше дизайна чем майнинг риг не получится.
Ну в идеале да
Читаю коменты, пипц много противоречивой информации. Попробую задать вопрос, мож. кто умный прочитает и ответит. Естьи сервер, состав такой: Платформа 4х процессорная Supermicro SuperServer 2049U-TR4
стоят Intel Xeon Gold 6240 (18-ядерный (36-потоковый), 24.75M Cache, 2.60 GHz, 150W)--4шт.
32GB PC4-23400 2933MHz DDR4 ECC Registered DIMM M393A4K40CB2-CVF-- 16шт., всего 512 GB соответсвтенно.
Сервак этот мы испльзуем Под моделироване, там корона, там процессоры нужны.
Хотим нарастить GPU для рендеринга, соответсвтенно встал вопрос о покупке видеокарт, желательно сервеных (так как корпус то серверный, игровые туда не влезут. Колхозить не хочется.
Вот собственно ВОПРОС ЧТО ВЗЯТЬ В ПРЕДЕЛАХ 150к ЧТОБ ДЛЯ РЕНДЕРИНГА И ДЛЯ НЕЙРОНОК.
Бюджет релиши до 150к что б взять одну карту, потом если дело пойдет поставтить еще. Так то платформа до 6ти 16ти канальных полноценных PCI-E 3.0 поддерживает. и до 12ТБ оперативки можно засунуть в дальнейшем. Всем добры и позитива)
Когда я изучал вопрос, RTX 3090 выглядила наиболее выгодным решением для подобных задач. Видел много компов в интернете на нескольких 3090, много кто выбирал этот вариант т.к. теслы были слабее и дороже. Сейчас уже есть RTX 4090. Я бы брал её, но я не настаиваю.
"avx инструкцию покажи " аахаха
еепт я два назад тоже мать коротнул чере цпу фан
0))
Скупой платит дважды
13.22 осуждаю
лошара, можно збс серверную платформу взять за 10к
c 12 ядерным Xeon и 32Гб ECC оперативки )
+ Tesla M40 за 11-12 через озон или алик.
на корпус вообще нхй так тратится, главное вместительный и чтобы железо не фольга
итого ты мог уложиться в 27-30к, вместе с БП и ssd.
Так себе заявления.
Не знаю как я мог уложиться в 27-30к если М40 на 24 гб стоили под 25к на алике.
1. У 12 ядерного зеона есть видеоядро? Нет. Мне не нужна процессорная производительность.
2. P40 сильно мощнее чем M40, плюс не надо путать вариации на 12 гб и 24 гб - на 24 стоят дороже.
3. Средняя цена корпуса в игровых сборках прилично выше цены этого корпуса, несмотря на то что они сильно меньше. Это дёшево за Full Tower корпус в очень хорошем состоянии.
Купил практически самые дешевые адекватные компоненты и всё равно пишут что дорого, пиздец
Это всё железо примерно 30к и стоит
@@MautozTechну зато ты со своей выбранной платформой помаялся, ещё менял, взял бы серверную, меньше головняка изначально)
плюсы серверной платформы очевидны, это мощь и потенциал, и купить такое добро за 10к или за фулл стоимость в 150к ))
ну потратил бы ты ещё 1к на видео-затычку, зато у тебя полноценный сервак почти под любое направление, надоело с теслой экспериментировать, взял тупо виртуалку поднял под какиенить нужды, которая всегда висит параллельно не жря никакие ресурсы основного компа) у меня ещё и сервак не дома, опечатал и воткнул на работе в серверный шкаф, ляпота, нет энергозатрат, и сервак обитает в кайфовых условиях)
@@MautozTech ну и хз когда ты покупал, смотря по дате ролика можно было найти дешевле, я M40 месяц назад заказывал в озоне за 12к, за аналогичную сумму как минимум ещё 5 предложений на алике были, ну а сейчас да диапазон 15-25к.
@@MautozTech справедливости ради, видеоядро тут вообще не нужно.
Я вставил карту-затычку на время установки винды, врубил RDP обычное, и все, поставил майнерскую видяху и забил.
@@BahamutCH в майнерской есть rt ядра?
такого дичного колхоза я еще не видел( еле досмотрел до средины