Ecco i capitoli: 0:00 La nostra Privacy 3:05 Vantaggi e Svantaggi 6:45 Installiamo la Nostra GenAI 11:40 Quanto Consuma? 15:50 Installazione su Embedded 17:55 Interfaccia grafica come ChatGPT 21:00 Come usare i Modelli AI 24:00 Creare modelli Personalizzati 28:25 Modificare le Impostazioni di OWebUI
Ciao Projecto, motlo chiaro anche per chi è alle prime armi. Perché non ci fai vedere installazione di Stable Diffusion (anche per colo CPU, sono oggi in questa condizione) e collegarlo ad Open Webui. Grazie!! Ps: anche il progetto con Raspberry è forte come idea)
Si, è la stessa procedura svolta su Ubuntu. Conviene provare solo su raspberry pi 5 8GB, qualsiasi altro modello sicuramente non è in grado di supportare un LLM
Complimenti, video chiaro, esplicativo ed estremamente utile! Ti seguo sempre!!! Ti prego prosegui con questa serie sulle IA, sarebbe interessante approfondire sul fine tuning per piattaforme appunto Pi5 o PC portatili con CUDA... Integrazioni personalizzate con python per scopi specifici, come usarlo come Lam per eseguire azioni.. Ottimo lavoro!!!!!!
Sto usando Ollama su un macbook pro con M4 (16 gb di ram e 512 ssd). Modelli come llama 3.2 3b o Gemma 2b funzionano davvero bene, molto veloci, quasi istantanei. Un Mac Mini con m4 costa sui 700 euro (16gb ram e 256 ssd). Se hai occasione di metterci le mani facci un bel video. Complimenti per i contenuti che porti
In merito ai problemi di privacy dell'app IO è vero che i dati sono presenti nei sistemi locali ma poi sono condiviso tramite una piattaforma cloud basata negli USA. Ma una condizione di questo tipo non è contraria al GDPR?
non penso proprio che i database siano dislocati al di fuori dell'unione europea, facendo un lookup del dns si ottiene l'host che ospita il webserver, ma i dati possono essere salvati da tutt'altra parte
@@ProjectoOfficial la mia non era una supposizione ma un fatto giacché il dns non mente. L'ho condivisa qui nel contesto delle problematiche connesse alle privacy in generale e in specialmente per quanto concerne le AI. Pensavo che tu avessi informazioni concrete in merito. Concordo nel non usare le AI pubbliche in ambito business senza le applicate le opportune strategie di mitigazione del rischio privacy.
Ospitare i database sui server di accesso che rispondono alle richieste del DNS è una scelta, in termini di sicurezza informatica, pessima. O no? Inoltre basterebbe attaccare tutti i server che rispondono per mettere in ginocchio tutta l'infrastruttura cloud. Non ha senso, e chi sviluppa questi sistemi lo sa. Di conseguenza è altamente improbabile che i dati si trovano sui server che rispondono alle richieste del DNS.
@ProjectoOfficial correggimi pure se sbaglio ma credo che siamo fuori tema. Il tuo video è stato imperniato sull'utilizzo delle AI in ambito business era di problemi di privacy, tema che ribadisco di condividere. In questo contesto ho pensato di interpellati in quanto mi sei sembrato sensibile al problema privacy anche fuori dal contesto AI. Purtroppo l'Italia ha dimostrato in più occasioni la sua arretratezza in ambito tecnologico e di cybersecurity, nel provato e nel pubblico. Immagino cosa puoi aver pensato quando avevano nominato Cirino Pomicino capo della commissione per le AI... Quindi, considerando che altri paesi UE che utilizzano app simili alla nostra IO non hanno il webserver (al netto della tua precisazione), in una legislazione fatta per favorire l'acquisizione di informazioni sensibili, pensare male non è gridate al complotto ma essere consapevoli che il lupo perde il pelo ma non il vizio. Concludendo, il non difendo per partito preso l'operato dietro l'app IO ma, considerando il retaggio italiano suddetto, mi piacerebbe avere dei riscontri. Concludendo, spero di aver chiarito che siamo sulla stessa lunghezza d'onda, presumo, ovvero seguire sempre le best practices.
Non siamo fuori tema, il tema è sempre l'app io, la privacy, e anche le infrastrutture di rete a quanto pare. Non è vero che gli altri paesi UE non utilizzano web server, in quanto è un componente fondamentale dei servizi web (it.wikipedia.org/wiki/Server_web). Non è nemmeno vero che cirino pomicino è presidente della commissione AI: www.unigre.it/it/eventi-e-comunicazione/comunicazione/notizie-e-comunicati/nomine-presidente-commissione-ai-per-linformazione/ Per quanto riguarda la composizione dell'organico nella commissione possiamo ritenerci soddisfatti, ci sono tante figure di merito: innovazione.gov.it/notizie/articoli/strategia-italiana-per-l-intelligenza-artificiale-2024-2026/ Nonostante ciò il livello di analfabetizzazione informatica in Italia è molto alto, tant'è che le competenze spesso mancano anche all'interno degli istituti. Tuttavia, giudicare l'operato delle istituzioni senza possedere un minimo di competenze tecniche rimane comunque sbagliato, o meglio, per poter giudicare è necessario studiare e conoscere a priori. Il giudizio o la critica, inoltre, dovrebbero essere sempre accompagnati da una soluzione ai problemi messi in evidenza perché la discussione possa avere un riscontro positivo. A seguito del report pubblicato da istat a riguardo (www.istat.it/it/files/2023/06/cs-competenzedigitali.pdf), risulta difficile che la maggior parte delle discussioni in merito di privacy, gestione dei dati e così via siano accurate. Perciò questi discorsi diventano spesso conversazioni di politica e di etica personale, mentre i veri problemi tecnici che andrebbero affrontati, vengono trascurati. In sintesi, da cittadini è fondamentale difendere la privacy, sia in ambito domestico che lavorativo, ma non ci sono le competenze per farlo. Noi attraverso i contenuti pubblicati possiamo metterci una pezza, ma comunque non è sufficiente. Sarebbe necessario che ognuno si impegnasse a studiare, attraverso scuole o corsi, in modo tale da possedere le competenze sufficienti per giudicare e offrire un contributo nei temi di privacy, sicurezza, e informatica in generale. Purtroppo però questa propensione allo studio è assente, e noi lo notiamo benissimo quando pubblichiamo contenuti di natura tecnica.
Ehi, ciao! Video piuttosto interessante per chi come me è alle primissime armi. Provo a chiedere a te perché sto cercando come un matto, ma non riesco a trovare nulla che non sia da programmare da 0 in Phyton. Per caso sai se esistono modelli per Ollama / programmi che riescano a fare Handwritten Text Recognition? Per motivi di tempo purtroppo non riesco a mettermi sotto e programmarlo (anche perché prima dovrei effettivamente imparare il linguaggio). E grazie mille ancora per il contenuto! Chiaro e ben esposto!
uso Ollama e i suoi modelli da quasi quando è nato chatgpt :-) il problema è che anche con 16 Gb di Ram, massimo puoi far girare benino un modello da 7B
dovrei dare un occhio al paper ma non l'ho trovato. In ogni caso i modelli STT dovrebbero riuscire a funzionare anche su microcontrollori a seconda della complessità e del numero di parametri, altrimenti credo non ci siano problemi ad eseguirli su una gpu relativamente recente. Se intendi quanto costa in termini di ricerca scientifica, è difficile da stimare, si tratta di mesi di lavoro e il training (a differenza dell'inference) richiede tanto tempo e tanta energia oltre ad un hardware piuttosto costoso
Complimenti per la chiarezza con cui spiegate, mi piacerebbe molto vedere come si potrebbero usare i modelli di genereazione della voce sulla Jetson Orin, l'ho appena ordinata ma mi arriverà a fine Gennaio (si lo so' è scesa di prezzo e sono stato fortunato confronto a voi che l'avete presa a 500 €). Grazie ancora !
sono riuscito a farlo funzionare su un i5 11400f con 16GB di ram, windows 10 e una GTX 1660. Con modelli da 8B fa fatica, ma modelli 1/3B girano bene. L'importante è avere una GPU, possibilmente migliore di una GTX 1060 (sul sito di ollama c'è scritto anche quali gpu radeon o intel arc supporta)
In realtà è sufficiente un budget molto più contenuto. Se si esegue su GPU, la CPU non serve a molto, il suo unico scopo è solo quello di trasferire i dati sulla GPU. LLama3.2 3B gira bene e abbastanza in real-time su una GTX 1660, modelli più grandi invece generalmente necessitano di tanta VRAM (ad esempio llama 3 8B con pesi in float16 arriva ad occupare 16GB di memoria). Se si vuole utilizzare un modello che richiede più VRAM di quella che si ha a disposizione, basta prenderne una versione quantizzata, e a seconda del livello di quantizzazione si può arrivare ad occupare anche la metà della memoria richiesta in origine. In termini di real-timeness, siccome questi modelli di solito sono ottimizzati per eseguire sui tensor core, può essere sufficiente anche una GPU da gaming anche piuttosto datata, come una RTX 2070, o una GPU entry-level come una 3060ti con un po' più di VRAM. Per un consumatore è quasi impossibile andare oltre, con una 3090 si possono usare leggermente modelli più grandi, ma comunque non si può eseguire, ad esempio, LLama 3.3 70B. Per poter provare tutti i modelli su Ollama servirebbe un server con 4 Tesla A100 80GB, roba che non hanno neanche le università italiane.
Grazie Daniel per questi bellissimi video che stai facendo! Secondo te oggi acquistare una rtx 3090, magari usata, per farci girare generative AI può avere senso o c'è il rischio che diventi obsoleta troppo a breve?
Io la 3090 l'ho acquistata usata per allenare modelli, in teoria per l'inference può essere sufficiente un hardware meno potente. Inoltre dipende anche se i modelli da usare in inference sono stati successivamente castati a float 16 o quantizzati ad interi (in tal caso eseguono molto più efficientemente e richiedono meno VRAM. Il mio consiglio è quello di fare una prova su l'hardware che hai a disposizione, e successivamente fare un upgrade se necessario. In ogni caso la 3090 per le prestazioni che mette a disposizione difficilmente diventa obsoleta nel breve termine, e rimane comunque facile da vendere anche in futuro. Comunque si, puoi usare anche servizi sul cloud (dipende poi se ti consentono di aprire porte sul server). Il problema è che dubito che ti lascino un server GPU a lungo termine, o comunque i costi di utilizzo sono veramente alti. Per risparmiare in termini energetici conviene acquistare le Nvidia Quadro (ad esempio le RTX a4000 o a5000). Costano tanto di più ma sono più efficienti e più affidabili.
Grazie! È la canon che fa schifo, in manuale vengo spesso sfuocato, in automatico la messa a fuoco sbarella in 4K. Appena riesco voglio passare a una sony
E se invece di acquistare una Jetson Orin da 500 euro,mi compro 5 schede raspberry 5 da 8 GB di memoria ognuna e le collego tutte insieme in clustering ? non ottengo una potenza analoga ad una Orin ?
è una domanda interessante ma ho dei dubbi che il rapporto sul numero di raspberry nel cluster/prestazioni della rete in inference scali linearmente. In ogni caso, a mio parere, il focus di questi dispositivi è un altro: quanta potenza ho a disposizione ad un consumo di X Watt. Ad esempio, a parità di consumo, è più efficiente raspberry pi 5 (magari con Hailo) o la Orin? Anche se ormai hanno una potenza assurda, questi dispositivi sono progettati per applicazioni embedded: automobili, aerei, droni, satelliti, rover, smart home, e così via. Poi, se l'architettura X86_64 non sarà possibile renderla ulteriormente efficiente in futuro, credo che i processori ARM andranno man mano a sostituirla (almeno sul lato desktop computing). Al momento però il divario rimane ancora piuttosto importante, si può tamponare costruendo cluster, ma è complicato e richiede frequente manutenzione. Comunque in termini di prestazioni, SeedLabs ha pubblicato un benchmark di yolov8 dove raspberry pi 5 con hailo va più forte della orin, ma onestamente ho grossi dubbi su come sono stati svolti questi esperimenti. Purtroppo non avendo l'Hailo non posso verificare, spero di riuscire a prenderne uno
la versione instruct dovrebbe essere stata finetuned per rispondere in modo più naturale e per comprendere meglio il contesto in prompt contenenti istruzioni. Q3_K_L indica il livello di quantizzazione, in pratica questa versione è stata ottimizzata tanto in casi in cui si ha poca RAM, a scapito della qualità degli output
@@ProjectoOfficial secondo te con 160Gb di Vram quale é il modello migliore ? 😀 nel piccolo server sono state cambiare le 2 4090 con 2 Schede A100 80Gb
Ecco i capitoli:
0:00 La nostra Privacy
3:05 Vantaggi e Svantaggi
6:45 Installiamo la Nostra GenAI
11:40 Quanto Consuma?
15:50 Installazione su Embedded
17:55 Interfaccia grafica come ChatGPT
21:00 Come usare i Modelli AI
24:00 Creare modelli Personalizzati
28:25 Modificare le Impostazioni di OWebUI
Si possono usare più PC o Raspberry in cluster?
Ammazza che bravo!
Ciao Projecto, motlo chiaro anche per chi è alle prime armi. Perché non ci fai vedere installazione di Stable Diffusion (anche per colo CPU, sono oggi in questa condizione) e collegarlo ad Open Webui. Grazie!! Ps: anche il progetto con Raspberry è forte come idea)
Ciao e grazie per il video. Come siinstalla su Raspberry? Nello stesso modo? Grazie ancora :)
Si, è la stessa procedura svolta su Ubuntu. Conviene provare solo su raspberry pi 5 8GB, qualsiasi altro modello sicuramente non è in grado di supportare un LLM
Complimenti, video chiaro, esplicativo ed estremamente utile! Ti seguo sempre!!! Ti prego prosegui con questa serie sulle IA, sarebbe interessante approfondire sul fine tuning per piattaforme appunto Pi5 o PC portatili con CUDA... Integrazioni personalizzate con python per scopi specifici, come usarlo come Lam per eseguire azioni.. Ottimo lavoro!!!!!!
ciao, mi interessa un modello per ollama che sia molto efficiente nel descrivere il contenuto di una fotografia,
Sto usando Ollama su un macbook pro con M4 (16 gb di ram e 512 ssd). Modelli come llama 3.2 3b o Gemma 2b funzionano davvero bene, molto veloci, quasi istantanei. Un Mac Mini con m4 costa sui 700 euro (16gb ram e 256 ssd).
Se hai occasione di metterci le mani facci un bel video. Complimenti per i contenuti che porti
In merito ai problemi di privacy dell'app IO è vero che i dati sono presenti nei sistemi locali ma poi sono condiviso tramite una piattaforma cloud basata negli USA. Ma una condizione di questo tipo non è contraria al GDPR?
non penso proprio che i database siano dislocati al di fuori dell'unione europea, facendo un lookup del dns si ottiene l'host che ospita il webserver, ma i dati possono essere salvati da tutt'altra parte
@@ProjectoOfficial la mia non era una supposizione ma un fatto giacché il dns non mente. L'ho condivisa qui nel contesto delle problematiche connesse alle privacy in generale e in specialmente per quanto concerne le AI. Pensavo che tu avessi informazioni concrete in merito. Concordo nel non usare le AI pubbliche in ambito business senza le applicate le opportune strategie di mitigazione del rischio privacy.
Ospitare i database sui server di accesso che rispondono alle richieste del DNS è una scelta, in termini di sicurezza informatica, pessima. O no? Inoltre basterebbe attaccare tutti i server che rispondono per mettere in ginocchio tutta l'infrastruttura cloud. Non ha senso, e chi sviluppa questi sistemi lo sa. Di conseguenza è altamente improbabile che i dati si trovano sui server che rispondono alle richieste del DNS.
@ProjectoOfficial correggimi pure se sbaglio ma credo che siamo fuori tema.
Il tuo video è stato imperniato sull'utilizzo delle AI in ambito business era di problemi di privacy, tema che ribadisco di condividere. In questo contesto ho pensato di interpellati in quanto mi sei sembrato sensibile al problema privacy anche fuori dal contesto AI.
Purtroppo l'Italia ha dimostrato in più occasioni la sua arretratezza in ambito tecnologico e di cybersecurity, nel provato e nel pubblico. Immagino cosa puoi aver pensato quando avevano nominato Cirino Pomicino capo della commissione per le AI...
Quindi, considerando che altri paesi UE che utilizzano app simili alla nostra IO non hanno il webserver (al netto della tua precisazione), in una legislazione fatta per favorire l'acquisizione di informazioni sensibili, pensare male non è gridate al complotto ma essere consapevoli che il lupo perde il pelo ma non il vizio.
Concludendo, il non difendo per partito preso l'operato dietro l'app IO ma, considerando il retaggio italiano suddetto, mi piacerebbe avere dei riscontri.
Concludendo, spero di aver chiarito che siamo sulla stessa lunghezza d'onda, presumo, ovvero seguire sempre le best practices.
Non siamo fuori tema, il tema è sempre l'app io, la privacy, e anche le infrastrutture di rete a quanto pare. Non è vero che gli altri paesi UE non utilizzano web server, in quanto è un componente fondamentale dei servizi web (it.wikipedia.org/wiki/Server_web). Non è nemmeno vero che cirino pomicino è presidente della commissione AI: www.unigre.it/it/eventi-e-comunicazione/comunicazione/notizie-e-comunicati/nomine-presidente-commissione-ai-per-linformazione/
Per quanto riguarda la composizione dell'organico nella commissione possiamo ritenerci soddisfatti, ci sono tante figure di merito: innovazione.gov.it/notizie/articoli/strategia-italiana-per-l-intelligenza-artificiale-2024-2026/
Nonostante ciò il livello di analfabetizzazione informatica in Italia è molto alto, tant'è che le competenze spesso mancano anche all'interno degli istituti. Tuttavia, giudicare l'operato delle istituzioni senza possedere un minimo di competenze tecniche rimane comunque sbagliato, o meglio, per poter giudicare è necessario studiare e conoscere a priori. Il giudizio o la critica, inoltre, dovrebbero essere sempre accompagnati da una soluzione ai problemi messi in evidenza perché la discussione possa avere un riscontro positivo. A seguito del report pubblicato da istat a riguardo (www.istat.it/it/files/2023/06/cs-competenzedigitali.pdf), risulta difficile che la maggior parte delle discussioni in merito di privacy, gestione dei dati e così via siano accurate. Perciò questi discorsi diventano spesso conversazioni di politica e di etica personale, mentre i veri problemi tecnici che andrebbero affrontati, vengono trascurati.
In sintesi, da cittadini è fondamentale difendere la privacy, sia in ambito domestico che lavorativo, ma non ci sono le competenze per farlo. Noi attraverso i contenuti pubblicati possiamo metterci una pezza, ma comunque non è sufficiente. Sarebbe necessario che ognuno si impegnasse a studiare, attraverso scuole o corsi, in modo tale da possedere le competenze sufficienti per giudicare e offrire un contributo nei temi di privacy, sicurezza, e informatica in generale. Purtroppo però questa propensione allo studio è assente, e noi lo notiamo benissimo quando pubblichiamo contenuti di natura tecnica.
Differenza con lo Stregatto ? Mai usato? Bellissimo video ❤
Ehi, ciao! Video piuttosto interessante per chi come me è alle primissime armi.
Provo a chiedere a te perché sto cercando come un matto, ma non riesco a trovare nulla che non sia da programmare da 0 in Phyton. Per caso sai se esistono modelli per Ollama / programmi che riescano a fare Handwritten Text Recognition?
Per motivi di tempo purtroppo non riesco a mettermi sotto e programmarlo (anche perché prima dovrei effettivamente imparare il linguaggio).
E grazie mille ancora per il contenuto! Chiaro e ben esposto!
uso Ollama e i suoi modelli da quasi quando è nato chatgpt :-) il problema è che anche con 16 Gb di Ram, massimo puoi far girare benino un modello da 7B
Bravo
Attendo con ansia una scheda CUDA e non la schedina anonima dei PC da ufficio, lo installerei volentieri LLama 😀
Cosa ne pensi di deepspeech v3 ? Che costo avrebbe realizzare una macchina così?
dovrei dare un occhio al paper ma non l'ho trovato. In ogni caso i modelli STT dovrebbero riuscire a funzionare anche su microcontrollori a seconda della complessità e del numero di parametri, altrimenti credo non ci siano problemi ad eseguirli su una gpu relativamente recente. Se intendi quanto costa in termini di ricerca scientifica, è difficile da stimare, si tratta di mesi di lavoro e il training (a differenza dell'inference) richiede tanto tempo e tanta energia oltre ad un hardware piuttosto costoso
Complimenti per la chiarezza con cui spiegate, mi piacerebbe molto vedere come si potrebbero usare i modelli di genereazione della voce sulla Jetson Orin, l'ho appena ordinata ma mi arriverà a fine Gennaio (si lo so' è scesa di prezzo e sono stato fortunato confronto a voi che l'avete presa a 500 €). Grazie ancora !
Ciao, che pc usi? Il minimo di ram per avere una risposta adeguata da llama 1b,quale potrebbe essere?
sono riuscito a farlo funzionare su un i5 11400f con 16GB di ram, windows 10 e una GTX 1660. Con modelli da 8B fa fatica, ma modelli 1/3B girano bene. L'importante è avere una GPU, possibilmente migliore di una GTX 1060 (sul sito di ollama c'è scritto anche quali gpu radeon o intel arc supporta)
@@ProjectoOfficial Se non metti hw piu' prestante, sei limitato a llm "giocattolo"
e quale sarebbe l'hardware performante?
@@ProjectoOfficial direi almeno una CPU 16 core, 32/64GB di RAM e una 3090 con 16GB di VRAM.
In realtà è sufficiente un budget molto più contenuto. Se si esegue su GPU, la CPU non serve a molto, il suo unico scopo è solo quello di trasferire i dati sulla GPU. LLama3.2 3B gira bene e abbastanza in real-time su una GTX 1660, modelli più grandi invece generalmente necessitano di tanta VRAM (ad esempio llama 3 8B con pesi in float16 arriva ad occupare 16GB di memoria). Se si vuole utilizzare un modello che richiede più VRAM di quella che si ha a disposizione, basta prenderne una versione quantizzata, e a seconda del livello di quantizzazione si può arrivare ad occupare anche la metà della memoria richiesta in origine.
In termini di real-timeness, siccome questi modelli di solito sono ottimizzati per eseguire sui tensor core, può essere sufficiente anche una GPU da gaming anche piuttosto datata, come una RTX 2070, o una GPU entry-level come una 3060ti con un po' più di VRAM.
Per un consumatore è quasi impossibile andare oltre, con una 3090 si possono usare leggermente modelli più grandi, ma comunque non si può eseguire, ad esempio, LLama 3.3 70B. Per poter provare tutti i modelli su Ollama servirebbe un server con 4 Tesla A100 80GB, roba che non hanno neanche le università italiane.
Grazie Daniel per questi bellissimi video che stai facendo! Secondo te oggi acquistare una rtx 3090, magari usata, per farci girare generative AI può avere senso o c'è il rischio che diventi obsoleta troppo a breve?
Volevo anche chiederti, è possibile ulilizzare ollama facendo girare i modelli su GPU in cloud (ad esempio seeweb)?
Io la 3090 l'ho acquistata usata per allenare modelli, in teoria per l'inference può essere sufficiente un hardware meno potente. Inoltre dipende anche se i modelli da usare in inference sono stati successivamente castati a float 16 o quantizzati ad interi (in tal caso eseguono molto più efficientemente e richiedono meno VRAM. Il mio consiglio è quello di fare una prova su l'hardware che hai a disposizione, e successivamente fare un upgrade se necessario. In ogni caso la 3090 per le prestazioni che mette a disposizione difficilmente diventa obsoleta nel breve termine, e rimane comunque facile da vendere anche in futuro.
Comunque si, puoi usare anche servizi sul cloud (dipende poi se ti consentono di aprire porte sul server). Il problema è che dubito che ti lascino un server GPU a lungo termine, o comunque i costi di utilizzo sono veramente alti. Per risparmiare in termini energetici conviene acquistare le Nvidia Quadro (ad esempio le RTX a4000 o a5000). Costano tanto di più ma sono più efficienti e più affidabili.
Relativamente ai prezzi c'è la nuova Jetson che costa la metà del vecchio modello ed è pure più performante
Tieni fisso il fuoco... Per il resto ottimo video
Grazie! È la canon che fa schifo, in manuale vengo spesso sfuocato, in automatico la messa a fuoco sbarella in 4K. Appena riesco voglio passare a una sony
😊
E se invece di acquistare una Jetson Orin da 500 euro,mi compro 5 schede raspberry 5 da 8 GB di memoria ognuna e le collego tutte insieme in clustering ? non ottengo una potenza analoga ad una Orin ?
è una domanda interessante ma ho dei dubbi che il rapporto sul numero di raspberry nel cluster/prestazioni della rete in inference scali linearmente. In ogni caso, a mio parere, il focus di questi dispositivi è un altro: quanta potenza ho a disposizione ad un consumo di X Watt. Ad esempio, a parità di consumo, è più efficiente raspberry pi 5 (magari con Hailo) o la Orin?
Anche se ormai hanno una potenza assurda, questi dispositivi sono progettati per applicazioni embedded: automobili, aerei, droni, satelliti, rover, smart home, e così via. Poi, se l'architettura X86_64 non sarà possibile renderla ulteriormente efficiente in futuro, credo che i processori ARM andranno man mano a sostituirla (almeno sul lato desktop computing). Al momento però il divario rimane ancora piuttosto importante, si può tamponare costruendo cluster, ma è complicato e richiede frequente manutenzione.
Comunque in termini di prestazioni, SeedLabs ha pubblicato un benchmark di yolov8 dove raspberry pi 5 con hailo va più forte della orin, ma onestamente ho grossi dubbi su come sono stati svolti questi esperimenti. Purtroppo non avendo l'Hailo non posso verificare, spero di riuscire a prenderne uno
@@ProjectoOfficial : Tutto molto interessante bro. Teniamoci in contatto.
Mi fai volare
Giga come "gibbone", non siamo americani 😅
mi sai dire che differenza c'é tra llama3.2 1b e varianti tipo llama3.2 1b-instruct-q3_K_L
la versione instruct dovrebbe essere stata finetuned per rispondere in modo più naturale e per comprendere meglio il contesto in prompt contenenti istruzioni. Q3_K_L indica il livello di quantizzazione, in pratica questa versione è stata ottimizzata tanto in casi in cui si ha poca RAM, a scapito della qualità degli output
@@ProjectoOfficial secondo te con 160Gb di Vram quale é il modello migliore ? 😀
nel piccolo server sono state cambiare le 2 4090 con 2 Schede A100 80Gb