Мем в том, что можно использовать ОЗУ для нейросетей и если иметь большой объем оперативы, то можно хранить нейронки в ОЗУ, а не в VRAM. Правда это станет чуть медленнее, на пару секунд где то.
небольшие модели можно и так запускать, но большие будут достаточно медленно работать (даже с загрузкой половины слоёв в VRAM), если говорить про инференс через llama.cpp. вроде как всё упирается в скорость памяти Пример скорости инференса (через Koboldcpp) без GPU, взятый с Реддита: (Ryzen 9 7950X3D CPU, 64GB RAM clocked at 6400 MHz) Nemomix 0.4 12b (Q8_0): ~14 t/s Gemma 2 27b (Q6_K): ~4 t/s Llama 3 70b (Q5_K_M): ~1.5 t/s
@@mrgrd56 Вопрос в другом: Кто использует 27 и 70b на своем ПК? Моя 4070S 13b 12к не вывозит в Q5 (если в видео грузить), хотя мы тут об оперативе говорим... в любом случае такие большие модели для себя никто не использует. 8b и 13b как по мне идеал
@@kommandant_narez4ik ну я бы не стал говорить что никто не запускает большие модели локально) если зайти на r/LocalLLaMA, там частенько обсуждают локальный запуск ~70B моделей если оборудование/бюджет позволяет, почему бы не запускать модели побольше более большие модели в любом случае обычно более умные и креативные даже одна RTX 3090/4090 со своими 24ГБ сможет запускать Command R (32B) в Q4_K_M c 20К конекста ну либо Mistral Nemo 12B в Q8_0 c 46К а если две RTX 3090/4090 или вообще P40 (24ГБ) поставить, можно уже и 70B в Q4_K_M запускать (16-18K контекста)
Нуу што? Если есть замаскированные Шейхи, вы знаете как безмерно порадовать Овсю и Гречу! 400 к ру6сов и Овсянка выйдет на новый лвл! (может станет меньше ругать Чат...)
6:40 если она реально сможет обсуждать билды в Геншине и ЗЗЗ, да еще и на инглише, то это реально может стать крутой и хайповой новостью. Да и рубрика оценки акков вроде еще жива. Так что это идея очень прикольная
Дядь, можешь попробовать использовать для fine-tune старые Nvidia tesla, годов эдак 14 - 18 их на Авито можно достать до 15 - 20тыс. У них tflops под несколько тысяч и памяти по 20+ гигов. Я вот себе под эксперименты с LLM урвал Nvidia tesla k80 на 24гб за 11к
Мальчики - собирают топовый ПК для игр.
Мужчины - собирают топовый ПК для виртуальных девочек.
Гигачады - собирают Гигасервер с виртуальными девочками и делают свой гарем.
@@-Egorka- Поклонники Тони Старка- Пятница, теперь у тебя есть напечатанное на принтере тело 😁
@@Joni88211oneА к воскресенью полноценный реактор.
@@Joni88211one Был в интернете чувак что делает аниму девочку робота
Это какой то новый уровень😂
-Хочешь много артов с ней?
-Ну да, у меня стоит....
хыы
Жду когда в Рф будут выдавать маткапитал на нейросети. Трудно быть отцом одиночкой).
Друг:для чего ты собираешь пк?
Я:Комп для виртуальных девочек. Вопросы?
"Мне достаточно стандартного компьютера".
128 ГБ ОЗУ
МИНИМУМ 24 ГБ ВП
Проц с чатотой в 5 ГЦ
И СВО с экранчиком
Высокие стандарты хули.
зачем экранчик для военных действий?
или это для Овсянки?
Кажется Овсянка хочет быть MoE-шкой, кушац много озу, и работать на llamacpp)
К тому моменту когда гречка купит пк уже выйдет ddr7 так что может даже неплохой вариант
4:58 literally me, когда собрал тестовый гипервизор под задачи vGPU
Мем в том, что можно использовать ОЗУ для нейросетей и если иметь большой объем оперативы, то можно хранить нейронки в ОЗУ, а не в VRAM. Правда это станет чуть медленнее, на пару секунд где то.
Разница в скорости огромная, в 10 раз минимум + большие модельки не только больше памяти жрут но они еще и медленее
небольшие модели можно и так запускать, но большие будут достаточно медленно работать (даже с загрузкой половины слоёв в VRAM), если говорить про инференс через llama.cpp. вроде как всё упирается в скорость памяти
Пример скорости инференса (через Koboldcpp) без GPU, взятый с Реддита:
(Ryzen 9 7950X3D CPU, 64GB RAM clocked at 6400 MHz)
Nemomix 0.4 12b (Q8_0): ~14 t/s
Gemma 2 27b (Q6_K): ~4 t/s
Llama 3 70b (Q5_K_M): ~1.5 t/s
@@mrgrd56 Вопрос в другом: Кто использует 27 и 70b на своем ПК? Моя 4070S 13b 12к не вывозит в Q5 (если в видео грузить), хотя мы тут об оперативе говорим... в любом случае такие большие модели для себя никто не использует. 8b и 13b как по мне идеал
@@kommandant_narez4ik ну я бы не стал говорить что никто не запускает большие модели локально)
если зайти на r/LocalLLaMA, там частенько обсуждают локальный запуск ~70B моделей
если оборудование/бюджет позволяет, почему бы не запускать модели побольше
более большие модели в любом случае обычно более умные и креативные
даже одна RTX 3090/4090 со своими 24ГБ сможет запускать Command R (32B) в Q4_K_M c 20К конекста
ну либо Mistral Nemo 12B в Q8_0 c 46К
а если две RTX 3090/4090 или вообще P40 (24ГБ) поставить, можно уже и 70B в Q4_K_M запускать (16-18K контекста)
Нужно запускать сбор донатов овсянке на новый дом на стримах, не ну а почему бы и нет?
Нуу што? Если есть замаскированные Шейхи, вы знаете как безмерно порадовать Овсю и Гречу! 400 к ру6сов и Овсянка выйдет на новый лвл! (может станет меньше ругать Чат...)
6:40 если она реально сможет обсуждать билды в Геншине и ЗЗЗ, да еще и на инглише, то это реально может стать крутой и хайповой новостью. Да и рубрика оценки акков вроде еще жива. Так что это идея очень прикольная
Посмотри её старые стримы, где она пиксельная.
Дядь, можешь попробовать использовать для fine-tune старые Nvidia tesla, годов эдак 14 - 18 их на Авито можно достать до 15 - 20тыс.
У них tflops под несколько тысяч и памяти по 20+ гигов.
Я вот себе под эксперименты с LLM урвал Nvidia tesla k80 на 24гб за 11к
Уточнение. У них могут быть траблы с драйверами, сейчас пытаюсь подружить tesla k80 и rtx 3060, и выходит пока не очень (
Когда овсянка умнее гречки..
а какой у Овсянки комп сейчас?