Parabéns pelos videos. Realmente é sensacional o Ollama e facilita muito para usar os modelos. Se alguém foi mais além e souber alguma forma fácil de treinar um modelo (para adicionar por exemplo documentação de produtos ou fontes de um projeto a um modelo já existente, como codellama ou llama2) me fale por favor. Valeu.
Aula incrível e de auto nível como sempre, Jeff, teria algum conteúdo demonstrando realizar fine tuning usando essa metodologia uso de LLM com Kubernetes!
Olá tenho duas perguntas: 1- é possível combinar as GPUs por exemplo 2 de 24gb e rodar um modelo de 70b? E 2- Eu consigo somar placas de vídeo de fábricantes diferentes nvidia e AMD no kubernets? Vlw
@@LinuxTips Eu subi um kubernetes com dois computadores 1- master e 1- worker, cada um tem uma gpu nvidia A5000 com 24GB de VRAM, em modelos de LLM até 35B roda de boa em 1 gpu, porém para o llama 3 de 70B não dá conta do recado, neste caso eu precisaria distribuir a carga nas duas GPU's, você sabe como eu posso fazer isso?
@@LinuxTips cara, eu fiz aqui, o desempenho é muito ruim cara, 40min pra baixar o modelo, e pra responder ele manda 1 palavra de 5 em 5 minutos... to num apple m1, 16GB de RAM...
Fala Jef... TOP estes videos de LLM hein... manda a V3 com mais infos pra nós !!!!
Cuidado com as EC2 ligada sem uso galeraaaa rsrsrs prevejo váaarios terraform apply com instância G4 depois desse vídeo rsrsrsrs
Ainda na propaganda... tome like!
Top. Vídeo bem legal. Seria top pegar essa llm privada usar um private gpt ou outro recurso para consultar documentos privados.
Parabéns, muito top testarei aqui no docker e depois subir no k8s
Parabéns pelos videos. Realmente é sensacional o Ollama e facilita muito para usar os modelos.
Se alguém foi mais além e souber alguma forma fácil de treinar um modelo (para adicionar por exemplo documentação de produtos ou fontes de um projeto a um modelo já existente, como codellama ou llama2) me fale por favor.
Valeu.
costumo usar notebooks prontos (kaggle ou google colab) buscando no github, e adapto conforme preciso
Como "treinar" o llama para tarefas específicas com contexto, como o exemplo que o cara deu ali em baixo de documentação de produtos ou códigos fonte?
Sensacional havia testado em docker, achei muito bom. Agora vou para k8s, bora subir um eks 😂
Perfeito !!!! A nova onda !!!!
show, muito top mesmo
Sensacional!!!
você é o melhor
Parabéns Jeff top demais o video !
top primo, valeu pelas dicas
Top demais!!
Jeferson consegui botar pra rodar o Ollama no cluster k3s raspberry pi!!!
Queremos vídeo! hahaha
Muito bom brincadeira pra fds vlws...
Fantástico. Seria possível treinar esses modelos em algum tema/conteúdo específico?
Sim Sim
Parabéns e Obrigado
Ótimo o vídeo, agora verei como ele consome um banco de dados e arquivos.
Aula incrível e de auto nível como sempre, Jeff, teria algum conteúdo demonstrando realizar fine tuning usando essa metodologia uso de LLM com Kubernetes!
Farei em breve
@@LinuxTips ❤️
Toma o meu Like ai.. voce merece! hehehe Obrigado mano!
tooop de maaaiss
rapah, bagulho é doido mesmo!
isso serve para usar em uma vps ??
Bom dia,
Podes me dizer qual e capacidade da sua máquina do laboratório
Qual a vantagem de instalar Ollama no kubernetes?
👏
Muito bom. vi, revi e verei novamente kkkk. p.s qual é o termina que vc ta usando?
Warp
A documentação na descrição do vídeos não está funcionando
muito bom véi!
monstro !!!
Show!!
Olá tenho duas perguntas: 1- é possível combinar as GPUs por exemplo 2 de 24gb e rodar um modelo de 70b? E 2- Eu consigo somar placas de vídeo de fábricantes diferentes nvidia e AMD no kubernets? Vlw
sim sim. :)
@@LinuxTips Eu subi um kubernetes com dois computadores 1- master e 1- worker, cada um tem uma gpu nvidia A5000 com 24GB de VRAM, em modelos de LLM até 35B roda de boa em 1 gpu, porém para o llama 3 de 70B não dá conta do recado, neste caso eu precisaria distribuir a carga nas duas GPU's, você sabe como eu posso fazer isso?
Subindo lab aqui né. Num tem jeito. =D
no caso ai vc fez deploy etc etc mas posso subir um container do ollama localmente mesmo, e usar ollama no meu navegador?
Sim sim
@@LinuxTips cara, eu fiz aqui, o desempenho é muito ruim cara, 40min pra baixar o modelo, e pra responder ele manda 1 palavra de 5 em 5 minutos... to num apple m1, 16GB de RAM...
brabo!!
Top!!!!
Alguém calculou o custo por hora para implantar esse projeto em uma cloud?
#vaiiii
O repo do ollama esta fora
Phoda esse bichinho ai hein, Ollama neles rs!
Error response from daemon: could not select device driver "" with capabilities: [[gpu]]. está dando este erro alguem pode ajudar?
❤