I fine tune di DeepSeek funzionano bene? Mettiamo alla prova il 32B.

S1: they reproduced o1 mini with 6$ of GPU cost! Let's study it and reproduce a small part.

APPLE VISION PRO È STATO UN FALLIMENTO?

I Upgraded to MAX Dragon Fruit in Blox Fruits Update

Victim - Animator vs. Animation 11

How Employees Are Coffee Badging To Avoid Full Days At The Office

[parte 2] Qwen 2.5 72B contro la rete neurale che stampa il logo di Twitter.

Salvatore Sanfilippo

Просмотров 1,7 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 5 фев 2025

Комментарии • 18

@chillone-d1g 7 дней назад ⁺²
grazie per i tuoi video 🙏 ci aiuti a capire cosa e come pensa un grande professionista come te
@genecaptrue 7 дней назад ⁺¹
Ciao Salvatore, il tuo canale sta diventando uno spazio interessante, unico in Italia. Tornando all' oggetto del video, hai provato con un modello specializzato per il codice (tipo qwen coder) ?
@antirez 7 дней назад ⁺¹
Ciao, e grazie per il tuo commento. Non ho provato a dire il vero, anche se ne ho diversi scaricati qui in locale, ma purtroppo il tempo è limitato. Però ho messo in descrizione il link al programma, così è facile da testare con altri LLM senza doverlo ridigitare.
@FedericoGiampietro 4 дня назад
Salvatore, se un piccolo gruppo di aziende volessero conrirziarsi per acquistare un server capace di eseguire R1 full (non quantizzato), di che tipo di risorse avrebbero bisogno?
Ovviamente il server non dovrebbe gestire utenti da tutto il mondo e non sarebbe molto importante garantire risposte realtime.
@antirez 4 дня назад
@@FedericoGiampietro poca roba. 3000 euro. Non credo sia neppure necessario un consorzio.
@FedericoGiampietro 4 дня назад
@antirez
3000€?
Solo???
Ma per il modello da 670 miliardi non quantizzato?
A me non sembra possibile.
@nometutentegiapreso 8 дней назад
Sono sorpreso, data la premessa a 1:12 e tutto il ragionamento dopo, mi sarei aspettato che qwen2.5 72b avrebbe performato peggio di R1 32b. Ho seguito male il discorso, oppure si tratta di un caso anomalo (di modello trained in maniera tradizionale che, a parita' di dimensioni della rete neurale, batte un distillato)?
@antirez 8 дней назад ⁺¹
No in realtà il discorso era proprio contrario: la chain of thoughts aiuta i modelli grossi a cercare soluzioni dentro il loro spazio rappresentativo, ma allo stato attuale mica cambia la dinamica in maniera così brusca. Così come Claude Sonnet non aveva problemi a capire tutto senza la CoT, allo stesso modo Qwen2.5, che è più grande di Qwen 32B distillato, e che è un modello di alta qualità, funziona meglio anche senza CoT.
@nometutentegiapreso 7 дней назад
@@antirez Si' forse non sono stato super preciso. La premessa a 1:12 a cui faccio riferimento e' "I modelli distillati hanno comunque performance solitamente migliori degli stessi modelli delle stesse dimensioni che hanno fatto il training in maniera normale", e con "tutto il ragionamento dopo" mi riferisco alle ragioni che hai dato per le quali il training di modelli distillati ha diversi vantaggi rispetto al training tradizionale. Unendo le due cose nella mia testa, ho pensato "R1 32B e' distillato, performera' meglio di Qwen 2.5 72B che non e' distillato ed e' di dimensioni comparabili". Poi la conclusione che "solo perche' un modello ha la CoT non significa che sia migliore di un modello di pari o simili dimensioni senza CoT allo stato attuale", quello e' chiaro.
Fammi tranquillamente sapere se ci sono errori nelle premesse, nel ragionamento, nelle affermazioni, sono sinceramente interessato ad imparare e capirne di piu' 🙂
@antirez 7 дней назад ⁺¹
@ la distillazione della chain of though e solo uno dei tanti parametri. Qwen 2.5 è grande il doppio e ha fatto un training di base con una quantità di token davvero enorme.
Però qui la cosa è interessante perché stiamo confrontando qwen contro un suo fine tune. In questo caso essere due volte più grande conta di più del resto.
@nometutentegiapreso 7 дней назад
Questo in effetti è un po' scoraggiante, visto che se la grandezza del modello è ancora un parametro così importante, per realizzare delle applicazioni di un certo livello bisogna comunque avere a disposizione dell'hardware davvero potente e costoso (banalmente, non riuscirei mai a far girare Qwen 2.5 72b sul mio laptop con 32G di memoria, dovrei upgradare). Un prossimo breakthrough interessante sarebbe davvero poter cavarsela con minori risorse allo stesso livello di qualità, speriamo presto 🙂
@Aristocle 8 дней назад ⁺¹
che hardware usi?
@antirez 8 дней назад ⁺³
MacBook M3 max 128GB / 4TB
@ncpeaksean4278 8 дней назад
Please subtitles :(
@antirez 8 дней назад ⁺¹
I upload subtitles with every video, you should be able to see them translated. Are they working?
@IsaíasMachado-99 7 дней назад ⁺¹
Subtitles working here! Ty for the content @@antirez

Следующие

Автовоспроизведение

I fine tune di DeepSeek funzionano bene? Mettiamo alla prova il 32B.

I fine tune di DeepSeek funzionano bene? Mettiamo alla prova il 32B.

S1: they reproduced o1 mini with 6$ of GPU cost! Let's study it and reproduce a small part.

S1: they reproduced o1 mini with 6$ of GPU cost! Let's study it and reproduce a small part.

APPLE VISION PRO È STATO UN FALLIMENTO?

APPLE VISION PRO È STATO UN FALLIMENTO?

I Upgraded to MAX Dragon Fruit in Blox Fruits Update

I Upgraded to MAX Dragon Fruit in Blox Fruits Update

Victim - Animator vs. Animation 11

Victim - Animator vs. Animation 11

How Employees Are Coffee Badging To Avoid Full Days At The Office

How Employees Are Coffee Badging To Avoid Full Days At The Office

Felix "Unfair" | [Stray Kids : SKZ-PLAYER]

Felix "Unfair" | [Stray Kids : SKZ-PLAYER]

Come ha fatto il giovane Elon a diventare Elon Musk? Il racconto di Marco Travaglio

Come ha fatto il giovane Elon a diventare Elon Musk? Il racconto di Marco Travaglio

Nessuno sa cosa è la massa - Massa#01 - CURIUSS

Nessuno sa cosa è la massa - Massa#01 - CURIUSS

DeepSeek vs ChatGPT vs Claude AI

DeepSeek vs ChatGPT vs Claude AI

La rivoluzione di NVIDIA le novità che devi sapere

La rivoluzione di NVIDIA le novità che devi sapere

Elon Musk’s DOGE Team: 19-Year-Olds Running US government? | Vantage with Palki Sharma | N18G

Elon Musk’s DOGE Team: 19-Year-Olds Running US government? | Vantage with Palki Sharma | N18G

Da VisiCalc a ChatGPT: La democratizzazione del coding

Da VisiCalc a ChatGPT: La democratizzazione del coding

I BOUGHT THE HUMANOID ROBOT OF THE FUTURE (It's scary)

I BOUGHT THE HUMANOID ROBOT OF THE FUTURE (It's scary)

Allucinazioni AI - intuizione geometrica

Allucinazioni AI - intuizione geometrica

Siamo Soli nell'Universo? Astrofisico risponde

Siamo Soli nell'Universo? Astrofisico risponde

Живу 24 Часа Как Дональд Трамп #трамп #челлендж #серый #24часа

Живу 24 Часа Как Дональд Трамп #трамп #челлендж #серый #24часа

ЗЕНИТ - ЦСКА: обзор матча и серия ПЕНАЛЬТИ

ЗЕНИТ — ЦСКА: обзор матча и серия ПЕНАЛЬТИ

мифы о здоровье💊 в какой верили до этого видео? #медицина #здоровье #питание

мифы о здоровье💊 в какой верили до этого видео? #медицина #здоровье #питание

ВИРУСНЫЕ ВИДЕО / Самый умный кот 😅

ВИРУСНЫЕ ВИДЕО / Самый умный кот 😅

How Harley Quinn got out#Harley Quinn #joker

How Harley Quinn got out#Harley Quinn #joker

МОЕГО ПУПСИКА УДАРИЛИ😱 И КРАЛИ ЕГО КОТЕЙКУ😾! #robloxshorts #roblox #brookhaven

МОЕГО ПУПСИКА УДАРИЛИ😱 И КРАЛИ ЕГО КОТЕЙКУ😾! #robloxshorts #roblox #brookhaven

中国功夫：拔刀术练成了！Chinese Kung Fu: The sword-drawing technique has been mastered!

中国功夫：拔刀术练成了！Chinese Kung Fu: The sword-drawing technique has been mastered!