GPU in Proxmox durchreichen und OLLAMA2 nutzen..

Поделиться
HTML-код
  • Опубликовано: 13 сен 2024
  • 🚩 Aktuelle Osterangebote: amzn.to/4aqHIzu
    #ollama #gpu #llm
    IT-Dienstleistungen (Coaching, Training, Beratung, Einrichtung)
    bit.ly/3b20wc5
    ██ MINI PCs für Proxmox / pfSense / OPNsense / Server ██
    Preis-/ Leistungssieger: amzn.to/2S92wJC
    Leistungskiller: amzn.to/3glDHlM
    Bester & Billig*: amzn.to/3crj9a2
    ██ NAS Systeme für Zuhause oder im Büro ██
    Meine Empfehlung: amzn.to/2T8Awpf
    Für Zuhause: amzn.to/34TBGYD
    Preis-/Leistungssieger: amzn.to/3gfiXvL
    ██ Mini Reise Router Empfehlungen ██
    Günstigster: amzn.to/3vWo4HQ
    Der Sieger: amzn.to/3puC9Ke
    Anfänger geeignet: amzn.to/2TPgEYQ
    🔔 Social Media 🔔
    📲 Zweitkanal: / @dennis-schroeder
    🔴 Twitch: / rpicloud
    🐓 Twitter: / dennis_schroed
    💿 Discord: / discord
    💻 Website: schroederdenni...
    💻 DynDNS: ipv64.net
    💿Mein VPN Provider: go.getproton.m...
    ► 20€ Hetzner Geschenkt: bit.ly/3s7188g
    ► Spenden bit.ly/3saiyRn
    Impressum bit.ly/3gfQANZ
    *Als Amazon-Partner verdiene ich an qualifizierten Verkäufen. Vielen Dank für deine Unterstützung.

Комментарии • 50

  • @autobargmann4036
    @autobargmann4036 5 месяцев назад +4

    Endlich mal was neues und Interessantes. Weiter so. Macht Lust auf was neues. Ein paar "nützliche" Anwendungen wären auch schön.

  • @SuperLKproduction
    @SuperLKproduction 5 месяцев назад +1

    Super. Ich freue mich auf die kommenden Videos die auf die internen Inhalte trainiert werden

  • @DennisPlagge
    @DennisPlagge 5 месяцев назад +1

    Oh, der Schröder Dennis macht wieder was Interessantes. Bin sehr gespannt, meine Tesla P4 hab ich letztes Jahr gekauft, musste aber leider dringendere Dinge erledigen. Da gibt es ja ein paar Sachen zu beachten beim Durchreichen und bisher fehlte halt leider die Zeit. Also sehr cooles Projekt, passt wie die Faust aufs Auge.

  • @cheebadigga4092
    @cheebadigga4092 5 месяцев назад +5

    Open WebUI arbeitet wahrscheinlich auf der CPU, weil der Container nicht mit dem Kernel direkt sprechen kann. Starte das Ding als privileged Container mit host Network, dann sieht das Ergebnis sehr wahrscheinlich so aus wie in der CLI.

  • @florian7679
    @florian7679 5 месяцев назад +13

    Das 13b Model passt nicht vollständig in den "kleinen" VRAM der Tesla-GPU und muss zum Teil auch in den normalen RAM geladen werden.
    Dies führt dazu, dass auch die CPU mitackern muss.
    In der Beschreibung des llama2 (Q4) Models auf ollama steht:
    7b models generally require at least 8GB of RAM
    13b models generally require at least 16GB of RAM
    70b models generally require at least 64GB of RAM

    • @RaspberryPiCloud
      @RaspberryPiCloud  5 месяцев назад +5

      Danke, aufgenommen und verstanden.

    • @alcar32sharif
      @alcar32sharif 5 месяцев назад

      Das ist leider das größte Problem von Large Language Models der VRAM Hunger ist immens. Aus meiner Sicht ist da auch viel Redundanz und Datenmüll in diesen größen Modellen. Man kann nur hoffen, dass die Themen Model Shrinking (Datenmüll bereinigen) und Model Kompression (Kompression beinhaltet ja eine starke Redundanz Reduktion) mehr Fokus und Praxis erhalten.

    • @407wrld3
      @407wrld3 5 месяцев назад

      @@alcar32sharif 1.56bit llms sind die lösung. Das mit dem Speicher liegt daran, dass grosse floats genutzt werden...

    • @407wrld3
      @407wrld3 5 месяцев назад

      @@alcar32sharif 1.56bit llms sind die lösung. Das mit dem Speicher liegt daran, dass grosse floats genutzt werden...

  • @cabanossiDE
    @cabanossiDE Месяц назад +1

    Tolles Video - wann geht es denn weiter mit dem Projekt?

  • @-.Gaba-.
    @-.Gaba-. 5 месяцев назад +7

    Interessant aber bereits beim ausbinden der PCIe aus dem OS (Proxmox) bin ich leider nicht mehr mitgekommen. Bin noch auf Lernstufe 2 (Tutorial Niveau) aber danke für die ausblicke wofür es sich zum lernen lohnt.

    • @Animizio2024
      @Animizio2024 5 месяцев назад +1

      Würde mir auch gerne noch mehr in Hinsicht Tutorial Niveau wünschen. Anschauen um Spaß zu bekommen ist toll, wenn man es aber nachmachen möchte und nicht mehr mitkommt ist es doch etwas schade. Ich würde mir die Kiste auch sofort kaufen, wenn ich wüßte wie ich damit konkret arbeiten kann.. :)

  • @AndreasCordes
    @AndreasCordes 5 месяцев назад

    Interessant, bin gespannt auf das Video zum Finetuning von den Modellen. Eine Übersicht über GPU's zum Mieten wäre da noch ganz gut

  • @agent4701
    @agent4701 3 месяца назад +1

    Wie heißt denn das Tool im HIntergrund auf dem Fernseher?

  • @mcluckey84
    @mcluckey84 5 месяцев назад +3

    Wie hast Du die Kühlung der GPU geplant? Soweit ich das verstehe ich die GraKa zwar passiv gekühlt, braucht aber wie in Server gewöhnlich einen entsprechenden aktiven Luftstrom.

    • @Scho7544
      @Scho7544 5 месяцев назад

      That is what I was wondering too, but looking at the temps its managing pretty good...

  • @Bananen_Paul
    @Bananen_Paul 2 месяца назад

    Danke für die Erklärung! Musste ich direkt mal testen ... jedoch bemerke ich das llama3 bei mir nur die CPU belastet und nicht die GPU obwohl diese erkannt wird und alles ... auch hab ich bemerkt, dass das Modell nicht in die GPU geladen wird. Hast du da vielleicht noch einen kleinen kniff auf Lager ? :)

  • @Klemmi.
    @Klemmi. 5 месяцев назад

    @RaspberryPiCloud: Zum Speicherplatz-Problem:
    Rein bildlich gesprochen, kann man auch die Anzahl der enthaltenen "hard facts" im Modell auf die Anzahl der Gewichte mappen.
    Ich finde, die Metapher einer "Datenbank" + "Datenverabreitungsroutinen" => "Anzahl der Gewichte" (z.B. 7b, 13b, 70b) recht eingänglich.
    Ein Modell kann nur dann effizient angewendet werden, wenn alle (relevanten) Gewichte im VRAM der Grafikkarte liegen. Das ist leider bei den größeren Modellen (bei dir z.B. das Llama 13b) nicht mehr der Fall. Deshalb greift es dann in deinem Test (10:30) auf den normalen RAM und Prozessor zurück.

  • @stephanschulze2873
    @stephanschulze2873 3 месяца назад

    Wie immer tolles Video. Würde Open Web UI mit Ollama auf einem Nitel Nuc Sinn machen?

  • @julfoi2139
    @julfoi2139 5 месяцев назад

    Die Frage ist jetzt nur welches Model willst du verwenden von den allen die es gibt um dieses zu traineren und zu füttern mit IPV64? Bzw hast du dich schon entschieden für ein Model welches du verwenden möchtest für IPv64?

  • @dustingarder7409
    @dustingarder7409 Месяц назад

    Ich habe die GPU gebypassed und treiber laufen auch und nvidia-smi sieht die karte auch aber wenn ich ollama und ein languange modell installiere dann geht es nur über die cpu......
    ich habe 2x 4090 installiert

  • @joerschDE
    @joerschDE 5 месяцев назад +4

    Da feiern jetzt Kim und Gina Party. 😁

    • @RaspberryPiCloud
      @RaspberryPiCloud  5 месяцев назад +1

      Uhhiiii oder die beiden kommen sich in die Quere.

  • @mr.dislike2486
    @mr.dislike2486 4 месяца назад

    Sind das vorgefertigte Images / Infos oder kann man die selber anlernen bzw. füttern mit Infos

  • @MarksWassersportFAQ
    @MarksWassersportFAQ 5 месяцев назад

    Bin dann Mal gespannt, wie das Modell dann portiert wird auf andere Hardware

  • @Scho7544
    @Scho7544 3 месяца назад

    Sooooo, i saw this video and of course i thought it was a cool project so i bought a minsforum MS-01 and a Tesla P4 (Ofcourse not just because of this video ;-). But as i am expirimenting with it i cant get ollama to use the Tesla P4 card. I have installed the drivers and the cuda drivers for the card. Can someone tell me what i am doing wrong?... Thanks!

  • @renepape6388
    @renepape6388 5 месяцев назад

    Hallo, was ist das denn für eine Maus, die Du benutzt? VG René

  • @Cabel330
    @Cabel330 5 месяцев назад

    Hallo,
    Sehr interessantes Projekt. Gibt es die Möglichkeit zb meine Bücher einzuscannen u dann die Texte in die KI einzupflegen,so dass ich ihr Fragen stellen kann u sie mir aus dem Wissen der Bücher heraus antwortet?
    Vielen lieben Dank
    /Nick

    • @RaspberryPiCloud
      @RaspberryPiCloud  5 месяцев назад

      Ja genau so könnte man das machen.

    • @Cabel330
      @Cabel330 5 месяцев назад

      @@RaspberryPiCloud
      Vielen Dank für deine Antwort. Hast du denn zufällig vor das als Projekt zu realisieren?
      Oder ähnliche Projekte,so dass man aus diesen das genannte zusammen basteln könnte?

    • @AlexAppleStar
      @AlexAppleStar 5 месяцев назад

      Man braucht wahrscheinlich viel Zeit um ein 500 Seiten Buch einzuscannen. Lieber gleich ein ebook kaufen.😅

  • @MK-ob8tc
    @MK-ob8tc 5 месяцев назад +1

    Die tesla verglüht doch in dem Gehäuse 😂

    • @RaspberryPiCloud
      @RaspberryPiCloud  5 месяцев назад

      Deswegen wird diese gerade von mir Aktiv gekühlt.

    • @Workbench3
      @Workbench3 5 месяцев назад

      ​@@RaspberryPiCloudzeige mal bitte deine Kühllösung, denn die Kühlung der P4 hat mich davon abgehalten die kleine Kiste zu kaufen und läuft noch mit 3d-Gedruckten Lüfteradapter im 2U-Rack :)

    • @nofloxx
      @nofloxx 5 месяцев назад +1

      @@Workbench3Aktuelle Notkühllösung: USB-Ventilator 😂

  • @damichi84
    @damichi84 4 месяца назад

    Geht gpu pass through mit dem auch in true as zb fúr ne ai App?

  • @CornGer
    @CornGer 5 месяцев назад

    Probiers mal mit anders herum statz nur so kurz wie möglich zu schreiben. Rum kann die ki wenn es aleune steht als frei sortieren werten. Und alphabetisch ist einfach das einfachste das es gibt. Bei anders herum sollte die ki in derlage sein das rückwärts zu werten und dann auch zu machen. Der teufel steckt im deteil. Nicht in der kurzform. Weil wir mit denken macht das die ki nicht. Ohne ehrfarung nimmt das auch jeder wörtlich.

  • @kalobyte
    @kalobyte 5 месяцев назад

    vdi ist auch interessant
    besonders mit thin client

    • @RaspberryPiCloud
      @RaspberryPiCloud  5 месяцев назад

      Kostet aber Lizenzgebühren über NVIDIA.. Sonst geht es leider nicht.

    • @kalobyte
      @kalobyte 5 месяцев назад

      @@RaspberryPiCloud
      und ohne grafik karte? terminal server oder sonst noch was?

  • @_T3rm1_
    @_T3rm1_ 5 месяцев назад

    7:50 CPU ebenfalls 98 % auf einem Kern.

    • @RaspberryPiCloud
      @RaspberryPiCloud  5 месяцев назад

      Auf einem, aber nicht alle.

    • @cheebadigga4092
      @cheebadigga4092 5 месяцев назад +1

      Das ist nur, weil die CPU dafür zuständig ist, den Text auf stdout (Terminal) auszugeben. 98%, weil die GPU den Input so schnell an die CPU liefert.

  • @pts0
    @pts0 5 месяцев назад

    KIm ... :)