Claude 3.5 Sonnet batte ChatGPT? Il mio test

Поделиться
HTML-код
  • Опубликовано: 6 сен 2024

Комментарии • 9

  • @matthia_s
    @matthia_s Месяц назад +1

    Da come si legge in giro Sonnet 3.5 doveva essere qualche piccolo gradino in più di 4o, dalla tua prova invece sembra il contrario. Alla fine per completezza sembra sempre che il prodotto OpenAI sia sempre quello con qualcosa in più, ovviamente più o meno i prodotti si equivalgono e magari come dici ognuno ha i suoi punti di forza qui e là. Speriamo nei reasoners :)

  • @matthia_s
    @matthia_s Месяц назад

    Ciao, iniziano i primi confronti fra 4o e 4o mini, assurdamente sembrano simili se non addirittura qualcosina in meglio il mini, soprattutto nei confronti di logica dove il mini ha fallito di meno, infatti qualcuno sospetta che forse sia stato inserito qualche prova di reasorer (boh, ipotizzano qualche algoritmo di Catena di Pensiero o altro). Anche se è molto più veloce del 4o, ma pare cha quando verifica un'immagine invece 'pensa prima più tempo' del 4o e poi sputa la risposta più velocemente (e stranamente usa molti più tokens rispetto al 4o)

    • @VincenzoCosenza
      @VincenzoCosenza  Месяц назад

      Mah non hanno senso questi confronti. Ovvio che il mini non possa essere superiore. È pensato per usi diversi. Se lo fosse in OpenAI sarebbero scemi a farlo pagare di meno

    • @matthia_s
      @matthia_s Месяц назад

      Vabbè sono confronti basati su alcuni test. Ad ogni modo, OpenAI sta ragionando sul principio della sostenibilità perché i costi iniziando ad essere esorbitanti quindi questi mini modelli aiutano molto. Però se questo mini ha confronti molto simili al 4o ed ha meno parametri, avrà subito un training magari con i nuovi dataset sintetici, e qualche algoritmo di ragionamento aggiuntivo a volte potrebbe compensare il divario. Poi boh sono opinioni di chi sa poco ma ha passione 😅

    • @VincenzoCosenza
      @VincenzoCosenza  Месяц назад

      Si vero

  • @paolomerzek
    @paolomerzek Месяц назад

    Ma…il GPTS Cyberavvocato? So che non ci azzecca con video ma ho visto nei GPTS…non lo trovo nello store

  • @stefanocorradiniplus
    @stefanocorradiniplus Месяц назад

    Ho il sentore che se tu avessi testato il tutto con contenuti in inglese l’esperienza sarebbe stata migliore in entrambe gli strumenti. Sbaglio?

    • @VincenzoCosenza
      @VincenzoCosenza  Месяц назад

      sicuramente sappiamo che i modelli sono stati addestrati soprattutto su testi anglosassoni, quindi la knowledge base è formata su testi non italiani. Però la domanda in italiano non incide sulle performance. Diverse è se chiedi di avere contenuti che richiedono una knowledge specifica.