OLLAMA: L’AI Che Cambia le Regole del Gioco! Privacy, Potenza e Semplicità 🔒🤖

Поделиться
HTML-код
  • Опубликовано: 15 янв 2025

Комментарии • 46

  • @ProjectoOfficial
    @ProjectoOfficial  Месяц назад +3

    Ecco i capitoli:
    0:00 La nostra Privacy
    3:05 Vantaggi e Svantaggi
    6:45 Installiamo la Nostra GenAI
    11:40 Quanto Consuma?
    15:50 Installazione su Embedded
    17:55 Interfaccia grafica come ChatGPT
    21:00 Come usare i Modelli AI
    24:00 Creare modelli Personalizzati
    28:25 Modificare le Impostazioni di OWebUI

  • @lelez75
    @lelez75 10 дней назад +1

    Si possono usare più PC o Raspberry in cluster?

  • @giuseppedipierri5164
    @giuseppedipierri5164 11 дней назад +1

    Ammazza che bravo!

  • @mingomai
    @mingomai 25 дней назад +1

    Ciao Projecto, motlo chiaro anche per chi è alle prime armi. Perché non ci fai vedere installazione di Stable Diffusion (anche per colo CPU, sono oggi in questa condizione) e collegarlo ad Open Webui. Grazie!! Ps: anche il progetto con Raspberry è forte come idea)

  • @syntartica
    @syntartica Месяц назад +1

    Ciao e grazie per il video. Come siinstalla su Raspberry? Nello stesso modo? Grazie ancora :)

    • @ProjectoOfficial
      @ProjectoOfficial  Месяц назад

      Si, è la stessa procedura svolta su Ubuntu. Conviene provare solo su raspberry pi 5 8GB, qualsiasi altro modello sicuramente non è in grado di supportare un LLM

  • @valeriovettori4738
    @valeriovettori4738 Месяц назад

    Complimenti, video chiaro, esplicativo ed estremamente utile! Ti seguo sempre!!! Ti prego prosegui con questa serie sulle IA, sarebbe interessante approfondire sul fine tuning per piattaforme appunto Pi5 o PC portatili con CUDA... Integrazioni personalizzate con python per scopi specifici, come usarlo come Lam per eseguire azioni.. Ottimo lavoro!!!!!!

  • @DinoBaldi
    @DinoBaldi 3 дня назад

    ciao, mi interessa un modello per ollama che sia molto efficiente nel descrivere il contenuto di una fotografia,

  • @ensimox
    @ensimox 8 дней назад

    Sto usando Ollama su un macbook pro con M4 (16 gb di ram e 512 ssd). Modelli come llama 3.2 3b o Gemma 2b funzionano davvero bene, molto veloci, quasi istantanei. Un Mac Mini con m4 costa sui 700 euro (16gb ram e 256 ssd).
    Se hai occasione di metterci le mani facci un bel video. Complimenti per i contenuti che porti

  • @OneKingArthur
    @OneKingArthur 10 дней назад +2

    In merito ai problemi di privacy dell'app IO è vero che i dati sono presenti nei sistemi locali ma poi sono condiviso tramite una piattaforma cloud basata negli USA. Ma una condizione di questo tipo non è contraria al GDPR?

    • @ProjectoOfficial
      @ProjectoOfficial  10 дней назад

      non penso proprio che i database siano dislocati al di fuori dell'unione europea, facendo un lookup del dns si ottiene l'host che ospita il webserver, ma i dati possono essere salvati da tutt'altra parte

    • @OneKingArthur
      @OneKingArthur 9 дней назад

      @@ProjectoOfficial la mia non era una supposizione ma un fatto giacché il dns non mente. L'ho condivisa qui nel contesto delle problematiche connesse alle privacy in generale e in specialmente per quanto concerne le AI. Pensavo che tu avessi informazioni concrete in merito. Concordo nel non usare le AI pubbliche in ambito business senza le applicate le opportune strategie di mitigazione del rischio privacy.

    • @ProjectoOfficial
      @ProjectoOfficial  9 дней назад

      Ospitare i database sui server di accesso che rispondono alle richieste del DNS è una scelta, in termini di sicurezza informatica, pessima. O no? Inoltre basterebbe attaccare tutti i server che rispondono per mettere in ginocchio tutta l'infrastruttura cloud. Non ha senso, e chi sviluppa questi sistemi lo sa. Di conseguenza è altamente improbabile che i dati si trovano sui server che rispondono alle richieste del DNS.

    • @OneKingArthur
      @OneKingArthur 9 дней назад

      @ProjectoOfficial correggimi pure se sbaglio ma credo che siamo fuori tema.
      Il tuo video è stato imperniato sull'utilizzo delle AI in ambito business era di problemi di privacy, tema che ribadisco di condividere. In questo contesto ho pensato di interpellati in quanto mi sei sembrato sensibile al problema privacy anche fuori dal contesto AI.
      Purtroppo l'Italia ha dimostrato in più occasioni la sua arretratezza in ambito tecnologico e di cybersecurity, nel provato e nel pubblico. Immagino cosa puoi aver pensato quando avevano nominato Cirino Pomicino capo della commissione per le AI...
      Quindi, considerando che altri paesi UE che utilizzano app simili alla nostra IO non hanno il webserver (al netto della tua precisazione), in una legislazione fatta per favorire l'acquisizione di informazioni sensibili, pensare male non è gridate al complotto ma essere consapevoli che il lupo perde il pelo ma non il vizio.
      Concludendo, il non difendo per partito preso l'operato dietro l'app IO ma, considerando il retaggio italiano suddetto, mi piacerebbe avere dei riscontri.
      Concludendo, spero di aver chiarito che siamo sulla stessa lunghezza d'onda, presumo, ovvero seguire sempre le best practices.

    • @ProjectoOfficial
      @ProjectoOfficial  9 дней назад

      Non siamo fuori tema, il tema è sempre l'app io, la privacy, e anche le infrastrutture di rete a quanto pare. Non è vero che gli altri paesi UE non utilizzano web server, in quanto è un componente fondamentale dei servizi web (it.wikipedia.org/wiki/Server_web). Non è nemmeno vero che cirino pomicino è presidente della commissione AI: www.unigre.it/it/eventi-e-comunicazione/comunicazione/notizie-e-comunicati/nomine-presidente-commissione-ai-per-linformazione/
      Per quanto riguarda la composizione dell'organico nella commissione possiamo ritenerci soddisfatti, ci sono tante figure di merito: innovazione.gov.it/notizie/articoli/strategia-italiana-per-l-intelligenza-artificiale-2024-2026/
      Nonostante ciò il livello di analfabetizzazione informatica in Italia è molto alto, tant'è che le competenze spesso mancano anche all'interno degli istituti. Tuttavia, giudicare l'operato delle istituzioni senza possedere un minimo di competenze tecniche rimane comunque sbagliato, o meglio, per poter giudicare è necessario studiare e conoscere a priori. Il giudizio o la critica, inoltre, dovrebbero essere sempre accompagnati da una soluzione ai problemi messi in evidenza perché la discussione possa avere un riscontro positivo. A seguito del report pubblicato da istat a riguardo (www.istat.it/it/files/2023/06/cs-competenzedigitali.pdf), risulta difficile che la maggior parte delle discussioni in merito di privacy, gestione dei dati e così via siano accurate. Perciò questi discorsi diventano spesso conversazioni di politica e di etica personale, mentre i veri problemi tecnici che andrebbero affrontati, vengono trascurati.
      In sintesi, da cittadini è fondamentale difendere la privacy, sia in ambito domestico che lavorativo, ma non ci sono le competenze per farlo. Noi attraverso i contenuti pubblicati possiamo metterci una pezza, ma comunque non è sufficiente. Sarebbe necessario che ognuno si impegnasse a studiare, attraverso scuole o corsi, in modo tale da possedere le competenze sufficienti per giudicare e offrire un contributo nei temi di privacy, sicurezza, e informatica in generale. Purtroppo però questa propensione allo studio è assente, e noi lo notiamo benissimo quando pubblichiamo contenuti di natura tecnica.

  • @soloper-c9l
    @soloper-c9l 12 дней назад

    Differenza con lo Stregatto ? Mai usato? Bellissimo video ❤

  • @alessioprincipe2304
    @alessioprincipe2304 15 дней назад

    Ehi, ciao! Video piuttosto interessante per chi come me è alle primissime armi.
    Provo a chiedere a te perché sto cercando come un matto, ma non riesco a trovare nulla che non sia da programmare da 0 in Phyton. Per caso sai se esistono modelli per Ollama / programmi che riescano a fare Handwritten Text Recognition?
    Per motivi di tempo purtroppo non riesco a mettermi sotto e programmarlo (anche perché prima dovrei effettivamente imparare il linguaggio).
    E grazie mille ancora per il contenuto! Chiaro e ben esposto!

  • @fabriziocasula
    @fabriziocasula 28 дней назад +2

    uso Ollama e i suoi modelli da quasi quando è nato chatgpt :-) il problema è che anche con 16 Gb di Ram, massimo puoi far girare benino un modello da 7B

  • @Roberto-qs4xg
    @Roberto-qs4xg 16 дней назад

    Bravo

  • @silvanosoligo3403
    @silvanosoligo3403 29 дней назад

    Attendo con ansia una scheda CUDA e non la schedina anonima dei PC da ufficio, lo installerei volentieri LLama 😀

  • @andreabartoli1727
    @andreabartoli1727 15 дней назад

    Cosa ne pensi di deepspeech v3 ? Che costo avrebbe realizzare una macchina così?

    • @ProjectoOfficial
      @ProjectoOfficial  14 дней назад

      dovrei dare un occhio al paper ma non l'ho trovato. In ogni caso i modelli STT dovrebbero riuscire a funzionare anche su microcontrollori a seconda della complessità e del numero di parametri, altrimenti credo non ci siano problemi ad eseguirli su una gpu relativamente recente. Se intendi quanto costa in termini di ricerca scientifica, è difficile da stimare, si tratta di mesi di lavoro e il training (a differenza dell'inference) richiede tanto tempo e tanta energia oltre ad un hardware piuttosto costoso

  • @DavideCaminati
    @DavideCaminati 26 дней назад

    Complimenti per la chiarezza con cui spiegate, mi piacerebbe molto vedere come si potrebbero usare i modelli di genereazione della voce sulla Jetson Orin, l'ho appena ordinata ma mi arriverà a fine Gennaio (si lo so' è scesa di prezzo e sono stato fortunato confronto a voi che l'avete presa a 500 €). Grazie ancora !

  • @fabrizio.dipietro
    @fabrizio.dipietro Месяц назад

    Ciao, che pc usi? Il minimo di ram per avere una risposta adeguata da llama 1b,quale potrebbe essere?

    • @ProjectoOfficial
      @ProjectoOfficial  Месяц назад

      sono riuscito a farlo funzionare su un i5 11400f con 16GB di ram, windows 10 e una GTX 1660. Con modelli da 8B fa fatica, ma modelli 1/3B girano bene. L'importante è avere una GPU, possibilmente migliore di una GTX 1060 (sul sito di ollama c'è scritto anche quali gpu radeon o intel arc supporta)

    • @truffatorenapoletano90tratbas
      @truffatorenapoletano90tratbas 29 дней назад

      @@ProjectoOfficial Se non metti hw piu' prestante, sei limitato a llm "giocattolo"

    • @ProjectoOfficial
      @ProjectoOfficial  29 дней назад

      e quale sarebbe l'hardware performante?

    • @truffatorenapoletano90tratbas
      @truffatorenapoletano90tratbas 29 дней назад

      @@ProjectoOfficial direi almeno una CPU 16 core, 32/64GB di RAM e una 3090 con 16GB di VRAM.

    • @ProjectoOfficial
      @ProjectoOfficial  29 дней назад +3

      In realtà è sufficiente un budget molto più contenuto. Se si esegue su GPU, la CPU non serve a molto, il suo unico scopo è solo quello di trasferire i dati sulla GPU. LLama3.2 3B gira bene e abbastanza in real-time su una GTX 1660, modelli più grandi invece generalmente necessitano di tanta VRAM (ad esempio llama 3 8B con pesi in float16 arriva ad occupare 16GB di memoria). Se si vuole utilizzare un modello che richiede più VRAM di quella che si ha a disposizione, basta prenderne una versione quantizzata, e a seconda del livello di quantizzazione si può arrivare ad occupare anche la metà della memoria richiesta in origine.
      In termini di real-timeness, siccome questi modelli di solito sono ottimizzati per eseguire sui tensor core, può essere sufficiente anche una GPU da gaming anche piuttosto datata, come una RTX 2070, o una GPU entry-level come una 3060ti con un po' più di VRAM.
      Per un consumatore è quasi impossibile andare oltre, con una 3090 si possono usare leggermente modelli più grandi, ma comunque non si può eseguire, ad esempio, LLama 3.3 70B. Per poter provare tutti i modelli su Ollama servirebbe un server con 4 Tesla A100 80GB, roba che non hanno neanche le università italiane.

  • @Riccardo-p3r
    @Riccardo-p3r Месяц назад

    Grazie Daniel per questi bellissimi video che stai facendo! Secondo te oggi acquistare una rtx 3090, magari usata, per farci girare generative AI può avere senso o c'è il rischio che diventi obsoleta troppo a breve?

    • @Riccardo-p3r
      @Riccardo-p3r Месяц назад

      Volevo anche chiederti, è possibile ulilizzare ollama facendo girare i modelli su GPU in cloud (ad esempio seeweb)?

    • @ProjectoOfficial
      @ProjectoOfficial  Месяц назад

      Io la 3090 l'ho acquistata usata per allenare modelli, in teoria per l'inference può essere sufficiente un hardware meno potente. Inoltre dipende anche se i modelli da usare in inference sono stati successivamente castati a float 16 o quantizzati ad interi (in tal caso eseguono molto più efficientemente e richiedono meno VRAM. Il mio consiglio è quello di fare una prova su l'hardware che hai a disposizione, e successivamente fare un upgrade se necessario. In ogni caso la 3090 per le prestazioni che mette a disposizione difficilmente diventa obsoleta nel breve termine, e rimane comunque facile da vendere anche in futuro.
      Comunque si, puoi usare anche servizi sul cloud (dipende poi se ti consentono di aprire porte sul server). Il problema è che dubito che ti lascino un server GPU a lungo termine, o comunque i costi di utilizzo sono veramente alti. Per risparmiare in termini energetici conviene acquistare le Nvidia Quadro (ad esempio le RTX a4000 o a5000). Costano tanto di più ma sono più efficienti e più affidabili.

  • @GiuseppeTavera
    @GiuseppeTavera 9 дней назад

    Relativamente ai prezzi c'è la nuova Jetson che costa la metà del vecchio modello ed è pure più performante

  • @pait6451
    @pait6451 Месяц назад +1

    Tieni fisso il fuoco... Per il resto ottimo video

    • @ProjectoOfficial
      @ProjectoOfficial  Месяц назад +4

      Grazie! È la canon che fa schifo, in manuale vengo spesso sfuocato, in automatico la messa a fuoco sbarella in 4K. Appena riesco voglio passare a una sony

  • @MyXaver
    @MyXaver Месяц назад

    😊

  • @ZioMarietto
    @ZioMarietto 15 дней назад

    E se invece di acquistare una Jetson Orin da 500 euro,mi compro 5 schede raspberry 5 da 8 GB di memoria ognuna e le collego tutte insieme in clustering ? non ottengo una potenza analoga ad una Orin ?

    • @ProjectoOfficial
      @ProjectoOfficial  14 дней назад

      è una domanda interessante ma ho dei dubbi che il rapporto sul numero di raspberry nel cluster/prestazioni della rete in inference scali linearmente. In ogni caso, a mio parere, il focus di questi dispositivi è un altro: quanta potenza ho a disposizione ad un consumo di X Watt. Ad esempio, a parità di consumo, è più efficiente raspberry pi 5 (magari con Hailo) o la Orin?
      Anche se ormai hanno una potenza assurda, questi dispositivi sono progettati per applicazioni embedded: automobili, aerei, droni, satelliti, rover, smart home, e così via. Poi, se l'architettura X86_64 non sarà possibile renderla ulteriormente efficiente in futuro, credo che i processori ARM andranno man mano a sostituirla (almeno sul lato desktop computing). Al momento però il divario rimane ancora piuttosto importante, si può tamponare costruendo cluster, ma è complicato e richiede frequente manutenzione.
      Comunque in termini di prestazioni, SeedLabs ha pubblicato un benchmark di yolov8 dove raspberry pi 5 con hailo va più forte della orin, ma onestamente ho grossi dubbi su come sono stati svolti questi esperimenti. Purtroppo non avendo l'Hailo non posso verificare, spero di riuscire a prenderne uno

    • @ZioMarietto
      @ZioMarietto 14 дней назад

      @@ProjectoOfficial : Tutto molto interessante bro. Teniamoci in contatto.

  • @francescocitterio54
    @francescocitterio54 26 дней назад

    Mi fai volare

  • @IoDavide1
    @IoDavide1 7 дней назад

    Giga come "gibbone", non siamo americani 😅

  • @TimelessX974
    @TimelessX974 29 дней назад

    mi sai dire che differenza c'é tra llama3.2 1b e varianti tipo llama3.2 1b-instruct-q3_K_L

    • @ProjectoOfficial
      @ProjectoOfficial  29 дней назад

      la versione instruct dovrebbe essere stata finetuned per rispondere in modo più naturale e per comprendere meglio il contesto in prompt contenenti istruzioni. Q3_K_L indica il livello di quantizzazione, in pratica questa versione è stata ottimizzata tanto in casi in cui si ha poca RAM, a scapito della qualità degli output

    • @TimelessX974
      @TimelessX974 28 дней назад

      @@ProjectoOfficial secondo te con 160Gb di Vram quale é il modello migliore ? 😀
      nel piccolo server sono state cambiare le 2 4090 con 2 Schede A100 80Gb