Ciao Salvatore, il tuo canale sta diventando uno spazio interessante, unico in Italia. Tornando all' oggetto del video, hai provato con un modello specializzato per il codice (tipo qwen coder) ?
Ciao, e grazie per il tuo commento. Non ho provato a dire il vero, anche se ne ho diversi scaricati qui in locale, ma purtroppo il tempo è limitato. Però ho messo in descrizione il link al programma, così è facile da testare con altri LLM senza doverlo ridigitare.
Salvatore, se un piccolo gruppo di aziende volessero conrirziarsi per acquistare un server capace di eseguire R1 full (non quantizzato), di che tipo di risorse avrebbero bisogno? Ovviamente il server non dovrebbe gestire utenti da tutto il mondo e non sarebbe molto importante garantire risposte realtime.
Sono sorpreso, data la premessa a 1:12 e tutto il ragionamento dopo, mi sarei aspettato che qwen2.5 72b avrebbe performato peggio di R1 32b. Ho seguito male il discorso, oppure si tratta di un caso anomalo (di modello trained in maniera tradizionale che, a parita' di dimensioni della rete neurale, batte un distillato)?
No in realtà il discorso era proprio contrario: la chain of thoughts aiuta i modelli grossi a cercare soluzioni dentro il loro spazio rappresentativo, ma allo stato attuale mica cambia la dinamica in maniera così brusca. Così come Claude Sonnet non aveva problemi a capire tutto senza la CoT, allo stesso modo Qwen2.5, che è più grande di Qwen 32B distillato, e che è un modello di alta qualità, funziona meglio anche senza CoT.
@@antirez Si' forse non sono stato super preciso. La premessa a 1:12 a cui faccio riferimento e' "I modelli distillati hanno comunque performance solitamente migliori degli stessi modelli delle stesse dimensioni che hanno fatto il training in maniera normale", e con "tutto il ragionamento dopo" mi riferisco alle ragioni che hai dato per le quali il training di modelli distillati ha diversi vantaggi rispetto al training tradizionale. Unendo le due cose nella mia testa, ho pensato "R1 32B e' distillato, performera' meglio di Qwen 2.5 72B che non e' distillato ed e' di dimensioni comparabili". Poi la conclusione che "solo perche' un modello ha la CoT non significa che sia migliore di un modello di pari o simili dimensioni senza CoT allo stato attuale", quello e' chiaro. Fammi tranquillamente sapere se ci sono errori nelle premesse, nel ragionamento, nelle affermazioni, sono sinceramente interessato ad imparare e capirne di piu' 🙂
@ la distillazione della chain of though e solo uno dei tanti parametri. Qwen 2.5 è grande il doppio e ha fatto un training di base con una quantità di token davvero enorme. Però qui la cosa è interessante perché stiamo confrontando qwen contro un suo fine tune. In questo caso essere due volte più grande conta di più del resto.
Questo in effetti è un po' scoraggiante, visto che se la grandezza del modello è ancora un parametro così importante, per realizzare delle applicazioni di un certo livello bisogna comunque avere a disposizione dell'hardware davvero potente e costoso (banalmente, non riuscirei mai a far girare Qwen 2.5 72b sul mio laptop con 32G di memoria, dovrei upgradare). Un prossimo breakthrough interessante sarebbe davvero poter cavarsela con minori risorse allo stesso livello di qualità, speriamo presto 🙂
grazie per i tuoi video 🙏 ci aiuti a capire cosa e come pensa un grande professionista come te
Ciao Salvatore, il tuo canale sta diventando uno spazio interessante, unico in Italia. Tornando all' oggetto del video, hai provato con un modello specializzato per il codice (tipo qwen coder) ?
Ciao, e grazie per il tuo commento. Non ho provato a dire il vero, anche se ne ho diversi scaricati qui in locale, ma purtroppo il tempo è limitato. Però ho messo in descrizione il link al programma, così è facile da testare con altri LLM senza doverlo ridigitare.
Salvatore, se un piccolo gruppo di aziende volessero conrirziarsi per acquistare un server capace di eseguire R1 full (non quantizzato), di che tipo di risorse avrebbero bisogno?
Ovviamente il server non dovrebbe gestire utenti da tutto il mondo e non sarebbe molto importante garantire risposte realtime.
@@FedericoGiampietro poca roba. 3000 euro. Non credo sia neppure necessario un consorzio.
@antirez
3000€?
Solo???
Ma per il modello da 670 miliardi non quantizzato?
A me non sembra possibile.
Sono sorpreso, data la premessa a 1:12 e tutto il ragionamento dopo, mi sarei aspettato che qwen2.5 72b avrebbe performato peggio di R1 32b. Ho seguito male il discorso, oppure si tratta di un caso anomalo (di modello trained in maniera tradizionale che, a parita' di dimensioni della rete neurale, batte un distillato)?
No in realtà il discorso era proprio contrario: la chain of thoughts aiuta i modelli grossi a cercare soluzioni dentro il loro spazio rappresentativo, ma allo stato attuale mica cambia la dinamica in maniera così brusca. Così come Claude Sonnet non aveva problemi a capire tutto senza la CoT, allo stesso modo Qwen2.5, che è più grande di Qwen 32B distillato, e che è un modello di alta qualità, funziona meglio anche senza CoT.
@@antirez Si' forse non sono stato super preciso. La premessa a 1:12 a cui faccio riferimento e' "I modelli distillati hanno comunque performance solitamente migliori degli stessi modelli delle stesse dimensioni che hanno fatto il training in maniera normale", e con "tutto il ragionamento dopo" mi riferisco alle ragioni che hai dato per le quali il training di modelli distillati ha diversi vantaggi rispetto al training tradizionale. Unendo le due cose nella mia testa, ho pensato "R1 32B e' distillato, performera' meglio di Qwen 2.5 72B che non e' distillato ed e' di dimensioni comparabili". Poi la conclusione che "solo perche' un modello ha la CoT non significa che sia migliore di un modello di pari o simili dimensioni senza CoT allo stato attuale", quello e' chiaro.
Fammi tranquillamente sapere se ci sono errori nelle premesse, nel ragionamento, nelle affermazioni, sono sinceramente interessato ad imparare e capirne di piu' 🙂
@ la distillazione della chain of though e solo uno dei tanti parametri. Qwen 2.5 è grande il doppio e ha fatto un training di base con una quantità di token davvero enorme.
Però qui la cosa è interessante perché stiamo confrontando qwen contro un suo fine tune. In questo caso essere due volte più grande conta di più del resto.
Questo in effetti è un po' scoraggiante, visto che se la grandezza del modello è ancora un parametro così importante, per realizzare delle applicazioni di un certo livello bisogna comunque avere a disposizione dell'hardware davvero potente e costoso (banalmente, non riuscirei mai a far girare Qwen 2.5 72b sul mio laptop con 32G di memoria, dovrei upgradare). Un prossimo breakthrough interessante sarebbe davvero poter cavarsela con minori risorse allo stesso livello di qualità, speriamo presto 🙂
che hardware usi?
MacBook M3 max 128GB / 4TB
Please subtitles :(
I upload subtitles with every video, you should be able to see them translated. Are they working?
Subtitles working here! Ty for the content @@antirez