[parte 2] Qwen 2.5 72B contro la rete neurale che stampa il logo di Twitter.

Поделиться
HTML-код
  • Опубликовано: 5 фев 2025

Комментарии • 18

  • @chillone-d1g
    @chillone-d1g 7 дней назад +2

    grazie per i tuoi video 🙏 ci aiuti a capire cosa e come pensa un grande professionista come te

  • @genecaptrue
    @genecaptrue 7 дней назад +1

    Ciao Salvatore, il tuo canale sta diventando uno spazio interessante, unico in Italia. Tornando all' oggetto del video, hai provato con un modello specializzato per il codice (tipo qwen coder) ?

    • @antirez
      @antirez  7 дней назад +1

      Ciao, e grazie per il tuo commento. Non ho provato a dire il vero, anche se ne ho diversi scaricati qui in locale, ma purtroppo il tempo è limitato. Però ho messo in descrizione il link al programma, così è facile da testare con altri LLM senza doverlo ridigitare.

  • @FedericoGiampietro
    @FedericoGiampietro 4 дня назад

    Salvatore, se un piccolo gruppo di aziende volessero conrirziarsi per acquistare un server capace di eseguire R1 full (non quantizzato), di che tipo di risorse avrebbero bisogno?
    Ovviamente il server non dovrebbe gestire utenti da tutto il mondo e non sarebbe molto importante garantire risposte realtime.

    • @antirez
      @antirez  4 дня назад

      @@FedericoGiampietro poca roba. 3000 euro. Non credo sia neppure necessario un consorzio.

    • @FedericoGiampietro
      @FedericoGiampietro 4 дня назад

      @antirez
      3000€?
      Solo???
      Ma per il modello da 670 miliardi non quantizzato?
      A me non sembra possibile.

  • @nometutentegiapreso
    @nometutentegiapreso 8 дней назад

    Sono sorpreso, data la premessa a 1:12 e tutto il ragionamento dopo, mi sarei aspettato che qwen2.5 72b avrebbe performato peggio di R1 32b. Ho seguito male il discorso, oppure si tratta di un caso anomalo (di modello trained in maniera tradizionale che, a parita' di dimensioni della rete neurale, batte un distillato)?

    • @antirez
      @antirez  8 дней назад +1

      No in realtà il discorso era proprio contrario: la chain of thoughts aiuta i modelli grossi a cercare soluzioni dentro il loro spazio rappresentativo, ma allo stato attuale mica cambia la dinamica in maniera così brusca. Così come Claude Sonnet non aveva problemi a capire tutto senza la CoT, allo stesso modo Qwen2.5, che è più grande di Qwen 32B distillato, e che è un modello di alta qualità, funziona meglio anche senza CoT.

    • @nometutentegiapreso
      @nometutentegiapreso 7 дней назад

      @@antirez Si' forse non sono stato super preciso. La premessa a 1:12 a cui faccio riferimento e' "I modelli distillati hanno comunque performance solitamente migliori degli stessi modelli delle stesse dimensioni che hanno fatto il training in maniera normale", e con "tutto il ragionamento dopo" mi riferisco alle ragioni che hai dato per le quali il training di modelli distillati ha diversi vantaggi rispetto al training tradizionale. Unendo le due cose nella mia testa, ho pensato "R1 32B e' distillato, performera' meglio di Qwen 2.5 72B che non e' distillato ed e' di dimensioni comparabili". Poi la conclusione che "solo perche' un modello ha la CoT non significa che sia migliore di un modello di pari o simili dimensioni senza CoT allo stato attuale", quello e' chiaro.
      Fammi tranquillamente sapere se ci sono errori nelle premesse, nel ragionamento, nelle affermazioni, sono sinceramente interessato ad imparare e capirne di piu' 🙂

    • @antirez
      @antirez  7 дней назад +1

      @ la distillazione della chain of though e solo uno dei tanti parametri. Qwen 2.5 è grande il doppio e ha fatto un training di base con una quantità di token davvero enorme.
      Però qui la cosa è interessante perché stiamo confrontando qwen contro un suo fine tune. In questo caso essere due volte più grande conta di più del resto.

    • @nometutentegiapreso
      @nometutentegiapreso 7 дней назад

      Questo in effetti è un po' scoraggiante, visto che se la grandezza del modello è ancora un parametro così importante, per realizzare delle applicazioni di un certo livello bisogna comunque avere a disposizione dell'hardware davvero potente e costoso (banalmente, non riuscirei mai a far girare Qwen 2.5 72b sul mio laptop con 32G di memoria, dovrei upgradare). Un prossimo breakthrough interessante sarebbe davvero poter cavarsela con minori risorse allo stesso livello di qualità, speriamo presto 🙂

  • @Aristocle
    @Aristocle 8 дней назад +1

    che hardware usi?

    • @antirez
      @antirez  8 дней назад +3

      MacBook M3 max 128GB / 4TB

  • @ncpeaksean4278
    @ncpeaksean4278 8 дней назад

    Please subtitles :(

    • @antirez
      @antirez  8 дней назад +1

      I upload subtitles with every video, you should be able to see them translated. Are they working?

    • @IsaíasMachado-99
      @IsaíasMachado-99 7 дней назад +1

      Subtitles working here! Ty for the content ​@@antirez