¡Eres un crack, tío, mil gracias! :D Llevaba intentando instalar Open WebUI desde hacía semanas (no me gustaba la idea de usar LM Studio habiendo una alternativa Open Source), y en un par de minutos me has solucionado todas las dudas y lo tengo funcionando. Pedazo de tutorial.
Me encanta saber que estás utilizando este contenido para crear tu servidor. Ya nos contarás si se te ocurre algún caso o utilidad que no hayamos pensado todavía. Nos leemos!
Ahora RUclips posiciona los anuncios usando algoritmos para localizar los mejores momentos y poner el mejor anuncio. A veces pone de estos no saltables que son un horror, pero no me deja elegir cuáles va a mostrar. Si por mi fuera, ¡sólo pondría anuncios saltables!
Excelente video y canal !!! Seria interesante poder implementar con Python (con FastApi como alternativa) una api que consuma el modelo LLM, con LangChain implementar RAG, llamadas a funciones externas, etc. Además así queda abierta la posibilidad de poder conectarse desde distintos clientes (Mobile, Web, Desktop) y con distintos lenguajes. Ahi ya queda en cada uno poder implementer medidas de control para cantidad de usuarios en paralelo, control de acceso, entre otras cosas. Saludos cordiales desde Chile.
Gracias por la sugerencia Guillermo. Hay varios proyectos de este tipo que sirven llamadas del Langchain utilizando Streamlit como interface. He escogido Open WebUI para esta serie porque ofrece muchas funcionalidades de base y está en constante desarrollo. Para usos más avanzados, ciertamente pueden implementarse muchas funcionalidades extras con Langchain, LlamaIndex, etc. Saludos para todos los chilenos que ven La Hora Maker!
Genial el vídeo, muchas gracias. ¿Qué tal si lo llevamos al siguiente nivel y tenemos un vídeo de opciones para hostearlo en internet? Igual comprar una gráfica o montarse un equipo no es siempre una opción, y tenerlo compartido con más gente en internet para que salga más barato podría ser un camino para mucha gente. Y otro vídeo también podría ser cómo usar el mismo servidor (local o hosteado) para tener diferentes servicios, como generar imágenes con stable difussion o así. Pero vaya, lo más importante, muchas gracias por el vídeo 🙂
Muchas gracias a ti por comentar. Tengo pendiente de crear un vídeo en el que levantamos uno de estos servicios en Runpod, que es un proveedor online donde se puede obtener servicio por horas con GPUs bastante más potentes. En cuanto a la parte de compartir el servidor, la principal limitación de la configuración actual con Ollama es que cuando se lanzan muchas consultas, éstas se encolan dentro del servidor y no es capaz de paralelizarlos. Si quisiéramos generar un servicio en el que podamos responder consultas de forma paralela, lo más interesante sería montar una solución como vLLM que nos permite realizar esta labor en paralelo y no encolarlas. Apuntado el video en la lista de pendientes!
Ahi vamos. Otro gran creador de contenido. Espero verte crecer y llegar de inicio a los 100M. Podrías crear un ejemplo que utilice datos financieros de una Empresa para dar Insights y generación de KPIs.
Excelente video! muchas gracias y funcionó muy bien. ¿tienes un tutorial para que ollama busque en mis documentos y aprenda de ellos? (por ejemplo documentos word, pdf's etc)
Maestro!!!!!! muchas gracias con todo esto se habra un sin fin de posibilidades... una consulta y si tengo en mi servidor local el ollama ejecutandose y quiero hacerlo publico para poder abrirlo desde cualquier parte del mundo por el navegador de internet, entiendo que tambien se podria
Aquí hay un detalle y es la tarjeta gráfica 2060, estamos hablando de un consumo 24/7 . Yo me iría por el Orange PI 5 Plus en términos energéticos con su ventilador y lo necesario para que no se caliente. Ollama no me ha corrido bien el modelo QWEN1.5-7B, hasta me respondía vacío, el que si me funcionó fue el LMA Studio desplegando su función de servidor y bastante rápido. Sería genial un video para poder usar esto por "Internet" y lo más importante como llamarías a tu IA local utilizando servicios en la nube como AWS o Azure.
Creo que la orange pi que mencionas tiene algunas cositas en su cpu para IA?. Es la mejor opción. Lamentablemente hay que esperar a que progresen más las NPU integradas en ARM
El único problema con la NPU de la placa es que hayq ue convertir los modelos usando el toolkit de Rockchip y parece que este está pensado más para modelos de visión que LLM. Hay una iniciativa llamada MLC que usa la GPU Mali para hacer inferencia acelerada y que consigue una mejora de rendimiento.
LM Studio requiere interfaz para funcionar, por lo que no se le puede poner en modo servidor desde linea de comandos. En cambio Ollama si que se puede configurar directamente para que escuche a través de internet, modificando las variables de entorno
wow, me encantó, muy bien explicado. No existe configuración similar aplicable en mac? digamos en mac studio? se que suena tonta la pregunta pero solo quiero saber por curiosidad. Me interesaría crear un proyecto de una IA en local que analice archivos legales (soy abogado y programador y entendí la parte técnica de tu video) y pueda generar texto. Cual sería el mejor enfoque?
Hola Juan, tanto Ollama como Open WebUI pueden funcionar en Mac. La configuración será similar a la de Linux en la parte servidor. (Como no tengo un Mac con mucha memoria para probar, no había contemplado el escenario). Gracias por la pregunta!
Hola Cesar muchas gracias por compartir su trabajo. Tengo mi biblioteca de PDFs: algunos de medicina, otros de historia, etc. Me gustaría limitar mis consultas a estos documentos. Esto que presenta aquí se puede personalizar para lograr ese objetivo? Gracias por su respuesta.
Hola Carlos, Se puede hacer con esta configuración lo que pides. Para ello, lo único que tendrías es que etiquetar los contenidos cuando los des de alta con una etiqueta, por ejemplo, medicina o tecnología. Luego, cuando vas a lanzar tu consulta, pulsas el botón almohadilla y ahí te salen las colecciones disponibles de tal forma que puedes limitar la búsqueda a cualquiera de las etiquetas que has utilizado antes. Espero que te resulte muy útil. Un saludo y nos vemos en los próximos vídeos.
Cada uno de los modelos te van a ocupar entre 5-20 GB. Lo cierto es que podrías tener un sólo modelo que te guste corriendo todo el tiempo y no dedicarle mucho más espacio. Ahora bien, si vas a probar modelos y a cambiar habitualmente de configuraciones, el disco acaba lleno en muy poco tiempo. Un factor a tener en cuenta es que la velocidad del disco influye también en el tiempo que tarda en cargarse hasta la memoria. En mi caso, reutilicé un disco NVMe 3.0 de 512 GB para uno de los equipos. Posiblemente hubiera valido con uno de 256 GB o con un SSD SATA, pero era lo que tenía a mano. Como curiosidad, este disco fue sustituido por otro de 1 TB, porque de tanto probar modelos, siempre me acabo quedando sin sitio en todos lados :D
Por temas de compatibilidad de drivers y soporte para distintas funcionalidades y optimizaciones recientes te recomendaría la 3060. Es muy similar a la que uso en mis vídeos y está muy bien de precio
Tendria sentido seguir este tutorial para uso propio? Porque he estado probando con LLMs en LM Studio y algunas pesadas van bastante lentas. A lo mejor me interesa la velocidad que comentas? O seria la misma? Porque como mencionas que se usa con mas gente.
Muchas gracias por la pregunta. La configuración que presento aquí puede usarse tanto para una persona como para varias. LM Studio es muy comodo para una persona y la interfaz está muy pulida. Ahora bien, esta configuración de Ollama + OpenWebUI te ofrece la posibilidad de realizar consultas a tus propios documentos y sitios web, guardar prompts favoritos y algo, no menor, acceder a la interfaz web desde el móvil. En cuanto a la velocidad será la misma, si se ejecuta todo en la misma máquina con la misma GPU.
Hola Cesar de nuevo.... para instalar "llama3 70b" en local, ¿que requisitos minimos deberia tener el ordenador? ¿Cuanta RAM, cual RTX de NVIDIA y cuanto disco duro?.
La pregunta fundamental es ¿para qué quieres usar principalmente tus modelos? Si es para uso general suelo recomendar Solar. Para algo que siga más el prompt Nous Hermes y sus variantes. Para código la serie Dolphin va bastante bien. Cada modelo tiene fecha de actualización propia y si se pueden personalizar, aunque todavía no lo hemos visto en el canal
Gracias por el vídeo, yo tengo una macbook pro m1 pro con 16gb ram y 1tb ssd, corre muy rápido todo los modelos en local. Ahora dinos como hacer un servidor de IA que procese Imágenes y genera imágenes.
Para procesar imágenes puedes usar modelos multimodales como Llava, usando la misma interfaz. Para generar imágenes, lo más fácil sería utilizar un instalador tipo Pinokio para instalar Flux, o cualquiera de las interfaces para Stable Diffusion como Automatic1111.
Gracias por hacer el video amigo Cesar... valdrá la pena intentarlo con la Orange Pi 5 ? Aguantará, se le podrá poner una Tarjeta Gráfica? Digo por el coste
Una 2060 funcionando 24/7 no saldría económico para algo hogareño, Nvidia creo que tiene gráficas especializadas para esto. La Orange no consume casi nada y está optimizado en su procesador con AI Accelerator, NPU 3.0 en el caso de la Pi 5 Plus. Yo creo que valdría más la pena la Orange PI 5/5 Plus
@@terranovich8471 Ollama no tira de ese procesador. Aún nadie a usado ese NPU en la Orange pi 5 plus. Me gustaría saber si alguien hace esto con la Orange Pi 5 Plus, cuantos usuarios al mismo tiempo es capaz de aguantar...
@@royotech Ollama es lento hasta en mi PC Gamer con una RTX 4070, sin embargo, con LM Studio me ha ido muy bien, tocará probar el LM Studio en el Orange Pi 5 Plus para ver rendimiento.
Excelente contenido, tengo un servidor Proxmox, y estoy usando una instancia de Linux para AI, hasta ahora Ollama corre perfecto, descargo los modelos y corre bien desde la consola, tengo instalado OpenWebui en docker en la misma isntancia y tambien puedo acceder desde cualquier maquina sin problemas, ahora bie el problema esta en que no puedo hacer que mi OpenWebui tome los modelos que tengo descargados en Ollama, tienes Patreon u otra plataforma donde asesores? haces este tipo de servicios?
Hola @geekendzone, se me ocurren varias cosas que pueden estar pasando. La más probable es que no tengas configurado al Ollama que escuche en 0.0.0.0 sino en localhost. Con esto te funcionaría en la terminal local, pero no te respondería en remoto. Para configurar esto hay que configurar la variable de entorno OLLAMA_HOST y asignarle la IP 0.0.0.0. Luego reinicias Ollama y listo (tienes todos los detalles en la FAQ de Ollama) La mejor forma de verificarlo es irte por a la máquina del openwebui y tratar de contactar a la ip del Ollama usando HTTP y conectando al puerto 11434. Si no te sale Ollama is running, eso es que el Ollama no está escuchando en la IP publica. Pruébalo a ver si con esto te funciona!
@@LaHoraMaker oh wow gracias por la respuesta tiene que ser esto, porque he intentado lo que dices, la ip:11434 y no me abre nada voy a probar eato, mil gracias.
@@LaHoraMaker Hermano mil gracias, segui tu consejo y me fui a Ollama faq, solo tuve editar `systemctl edit ollama.service` incluyendo en la primera linea: [Service] Environment="OLLAMA_HOST=0.0.0.0" Ahora tengo ollama corriendo en una instancia de Ubuntu en mi servidor Proxmox, y OpenWEBUI corriendo en otra instancia en Docker, puedo acceder desde cualquier parte de el mundo ya que tengo un Tunnel de Cloudfare y accedo con mi dominio personalizado, es una maravilla. Gracias por responder, estoy en deuda contigo. Un abrazo.
@@jorglct Si uso una VM con Ubuntu para Ollama, OpenWebUI corre desde mi instancia de Docker que corre en un LXC, esta corriendo todo perfecto, si uso GPU, tengo 8 cores y 32GB ram en la VM.
Muchas gracias por tu comentario. Desde mi punto de vista existen varias ventajas de este método. La primera que no sabemos si Bing Chat seguirá estando disponible a futuro o será un servicio de pago ya que como sabes todos estos procesos de inferencia requieren unas GPUs y es posible que en el futuro servicios que hoy en día son gratuitos pasen a ser servicio de suscripción o están incluidos en algún tipo de plan de precios por parte de los fabricantes. Por otra parte cada vez que estamos enviando nuestras consultas en muchos de los casos estas consultas se están utilizando para reentrenar los modelos y no queda muy claro qué se hace con nuestros datos y es por eso que creo que es importante también apostar por soluciones locales que no dependan de tener la conexión de internet y que no dependan de un proveedor externo. Es decir, si nos quedamos sin conexión a internet no podremos consultar Bing Chat y tampoco podemos consultar ChatGPT o cualquiera del resto de servicios. Así que creo que tener disponibles estos modelos locales puede ayudar aparte de otras cuestiones meramente técnicas como la latencia o en ciertos casos, aquellas relacionadas con la privacidad
Excelente video, por cuestiones de tiempo no he revisado todo tu material, pero sabes de algún modelo al que pueda limitar sus respuestas y entrenar con información en especifico o un video que tengas donde lo expliques o quizás sea idea para un próximo video, Saludos.
Gracias por tu comentario. En principio todos estos modelos abiertos pueden personalizarse usando fine-tuning para limitar la respuesta y adaptarla a escenarios diferentes. Lo comentaré en detalle en un próximo vídeo!
Los GPTs de OpenAI pueden sumarse a las conversaciones con una mencion tipo @agentesmith @agenteverde. Por lo que leo en la documentación de OpenWebUI esto también esta soportado: 👥 '@' Model Integration: By seamlessly switching to any accessible local or external model during conversations, users can harness the collective intelligence of multiple models in a single chat. This can done by using the @ command to specify the model by name within a chat. docs.openwebui.com/features/
Amigo excelente video te felicito. Para el caso mio me funciona unas veces realizando consultas de LLM como llama2 con open-weui en localhost:3000 pero a veces me sale este error "Uh-oh! There was an issue connecting to Ollama." porfa colaborame que puedo hacer??.. volvia borrar ollama y volvi a montar los LLM y me sigue saliendo el error.
Hola Master, antes que todo darte las gracias por tu contenido por que he aprendido bastante. Quiero hacer una consulta : Tengo este equipo en mi casa e instale ollama y estoy ocupando gemma2:2b y lo estoy ocupando para hacer un asistente virtual y hacer pruebas. El tema es que el primer mensaje se demora en responder y luego es mas fluido, me imagino que esto es por que se activa al momento de tener la primera interacción. ¿Mi duda es, esto se puede configurar para que responda mas rapido o que siempre esté cargado? SO : UBUNTU 24.04 LTS COMPONENTES INCLUIDOS: 1 x Procesador AMD: RYZEN 5 5600GT 6-Core 3.6/4.6Ghz 1 x Placa Madre AMD: Asus Prime A520M-K, 2xDDR4 2 x Memoria Ram DDR4: 8GB DDR4 3200Mhz Kingston 1 x Almacenamiento SSD: M.2 500GB Kingston SNV2S/500G NVMe PCIe Gen 4.0 1 x Video Integrado en el procesador: Radeon Graphics 1 x Gabinete: Clio SLIM CL-S605 c/fuente slim 500W (generica), 1xFan, 2xUSB 1 x Adaptador WiFi: Tp-Link TL-WN881ND, 2.4Ghz, Pci-e, 300Mb, 2 Ant. 1 x Refrigeración CPU: AMD Stock Cooler Muchas gracias de antemano!!!!!
Ollama funciona en modo servicio y cuando llega una petición para usar un modelo lo carga en memoria (de ahí el primer parón inicial). Una vez cargado en memoria se quedará en memoria, hasta que pase un tiempo y nadie pida utilizar este modelo de nuevo (por defecto son cinco minutos). Revisando la información de Ollama hay un parámetro nuevo de keep_alive que te permite indicarle cuánto tiempo quieres que esté el modelo en memoría (incluyendo siempre). github.com/ollama/ollama/pull/2146 Gemma2:2B te funcionará medio bien, pero para agentes, seguramente necesites usar herramientas (o llamadas a función). El equipo donde grabo buena parte de los videos es un poco peor que el tuyo con un Ryzen 5 2600 y discos NVMe. Lo que hace toda la diferencia es una RTX2060 que compré de segunda mano. Si puedes coger una RTX2060 o RTX 3060 de 12GB, verás que se te abren muchas posibilidades. Si no, siempre puedes usar como endpoint Groq, que de momento es gratuito. Saludos, César
Gracias por el vídeo, pero y si le das un vuelta de tuerca? Es decir un su puesto de 3 servidores con rtx los tres y poder aprovechar ese poder de cómputo, x ejemplo para hacer este mismo esquema pero con los modelos gordos de LLMs, no se si me explico...
Hola, sí, me queda totalmente claro. En los últimos meses he visto algunos proyectos para trabajar de forma distribuida y creo que veremos a futuro muchos más proyectos de este tipo. Ahora bien, en estos frameworks no están soportadas todos los modelos recientes, por ejemplo, como Llama 2: github.com/X-rayLaser/DistributedLLM Otra opción posible para utilizar distintos equipos y poder sacar el máximo partido es utilizar un framework como Autogen en el que distintos agentes ejecutan distintos modelos. Uno de ellos, por ejemplo, podría dedicarse a codificación, otro podría dedicarse a planificación de tareas, revisión del código, etc. Tengo pendiente de hacer un vídeo sobre este tema, pero todavía no he cubierto las bases en los vídeos del canal para poderlo abordar. Así que te recomiendo que le des un vistazo a los próximos vídeos donde vamos a ir a escenarios un pelín más complicados y avanzados.
Impresionante vídeo, maestro!!! Como Siempre. Una duda, conoces AI21 Studio? Se podría implementar dentro de estos servidores con Ollama Y OWUI en local?
Hasta dónde sé AI21 Studio es un servicio alojado que no tiene licencias abiertas, por lo que no se podría implementar en esta configuración con Ollama y Open Web UI. Ahora bien, sería interesante ver qué funcionalidades ofrece este modelo de AI21 Studio y tratar de buscar el modelo abierto equivalente que pudiera dar un rendimiento similar, aunque quizás no sea tan óptimo e ideal.
Creo que te puede interesar mucho el último video que hemos publicado al respecto: ruclips.net/video/M4rdx-MEbQQ/видео.html Si quieres revisar la parte de contenidos locales, comienza aproximadamente en el minuto 67 del video (o a las 01:07)
como aprovecho al gpu, porque noto que usa la memoria normal ... tengo AMD Radeon RX Vega 11 Graphics, será que no la soporta? tengo la ultima version de ollama
Hola! Es posible ejecutar esta configuración en un VPS, aunque para que te funcione rápido debería disponer de GPU. Posiblemente también debas poner otro servicio delante de Open WebUI para levantar https ya que por defecto funciona con http.
Hola. Excelente video, una duda, ¿crees que sea posible instalar Open WebUI, Docker y Ollama en instancias de Google Colab? Necesito saber si podemos instalar el ambiento multiusuario de open webui en ese tipo de instancias, mi objetivo es implementar un Chat IA que tenga acceso a documentos compartidos entre usuarios. ¿Crees que sea posible? alguna idea. Muchas gracias!
Muy bueno lastima que ollama no te deja elegir el directorio o la unidad para instalar todo los Modelos por lo tanto ya que mucho el disco C: lo usa para el sistema operativo y programas pero se complica al bajar un Models de 500Gb o mas.-
Hola LoboViejo, puedes configurar la variable de entorno OLLAMA_MODELS para indicarle donde debe guardar y cargar los modelos. En las FAQ de Ollama aparece cómo hacerlo para los distintos sistemas operativos
¡Buenos días! He montado el servidor, pero el problema que tengo es que mi tarjeta gráfica es AMD y parece que Ollama no está detectándola, por lo que el modelo está ejecutandose directamente sobre la CPU. ¿Dónde puedo activar el uso de mi tarjeta gráfica, algún config?
Ese PC que estas usando ¿cuantas conexiones simultáneas te aguantará? Y si quiero más conexiones simultáneas, ¿se pueden instalar 2 tarjetas gráficas en el PC para aumentar ese poder de procesamiento simultáneo?
El servidor Ollama te ofrece la posibilidad de generar los textos. Con Open Web UI puedes hacer una especie de mini RAG. Aquí tienes el ejemplo de cómo hacerlo: ruclips.net/user/liveM4rdx-MEbQQ?si=A0ubWe_Nh0aBXAiZ&t=4022 Ahora bien, si quieres algo más complejo, necesitarás usar LangChain o algo similar para tomar los documentos de origen, calcular los embeddings, almacenarlos en una BD vectorial, calcular la similaridad e inyectarlos en la consulta para la generación.
Buen video!!! Alguna alternativa a Open WebUI que solo proporcione una API, que gestione múlti usuarios y que permita licencia comercial.. De antemanos gracias.
Creo que lo que requieres en tu caso es un endpoint api y la gestión de distintas claves para distintos usuarios. Dale un vistazo a LiteLLM: github.com/BerriAI/litellm
Que pasa cuando 2 usuarios lo usan a la vez, se reduce exactamente a la mitad los tokens por segndo? 3 o mas? Podrias mostrar en algun video algunos benchmarks basicos? Please!
Cuando dos usuarios lo usan a la vez, el servidor procesa primero una petición y después la otra. Si tienes muchos usuarios en paralelo es mejor buscar soluciones específicas como el servidor vLLM en lugar de Ollama. ¿Qué tipo de benchmarks te gustaría ver?
@@LaHoraMaker Genio!! gracias por la respusesta este finde voy a armar este server siguiendo tus instruciones, justamente en mi caso es mas util que procese el request a toda velocidad y luego siga con los otros, estoy obteniendo unos 26 tk/s con Qwen 1.5 con una 3090. Al ser alta la cantidad de toquens los tiempos de espera no son altos para quien quede en cola de espera. Muchos de nosotros buscamos darle algun uso comercial asi es que siempre es bueno saber velocidad, modelo usado en el video, hardware etc,. Yo estaba bastante verde, en pocas semans APRENDI MUCHO, y gracias en gran parte a tu canal. Gracias! A los que van llegadno nuevos, datos de performance simpre seran utiles, si queda pesado repetir en todos los vidoes, podria ser algo que quede en la descripcion, ejemplo: Modelo Quantizacion Tokens/s Hardware usado. Dicho sea de paso muestra Qwen, es lo mejor que probe, pra usos generales relacionados con escritura, el modelo 14b, quantizado 8. Modelo mas pequños de Qwen 1.5, no los recomiendo para usos serios, pero es interesante sus habilidad multilingue, mejor que otros modleos gigantes incluso.
Dale un ojo a las instrucciones para recuperar la password en la documentación de OpenWebUi. En función del tipo de instalación. Se hace de una u otra forma: docs.openwebui.com/troubleshooting/#reset-admin-password
Es justo lo que estaba necesitando! tienes canal de discord para ir consultando? estoy desarrollando un proyecto para la escuela secundaria donde doy clases, y me serviría algo de ayuda.
Muchas gracias por la pregunta. Comentarte que durante el video de ayer estuvimos durante el directo hablando sobre la posible solución y pasa por utilizar librerías como Langchain para transcribir estos consultas de texto a consultas SQL y devolver los datos de la base de datos local. Ahora bien, en este caso, Ollama simplemente funciona con un motor de inferencia configurado en Langchain. Y es esta librería por encima la que utiliza y ofrece los componentes que te permiten consultar la base de datos. Aquí código de ejemplo: python.langchain.com/docs/expression_language/cookbook/sql_db
Ollama integra una API por defecto que sirve sobre http localmente en el puerto 11434. Puedes atacar el endpoint app con las librerías Python o Javascript de Ollama, o utilizando el API directamente (github.com/ollama/ollama/blob/main/docs/api.md ) o incluso utilizando el mismo código que usarías para OpenAI: (github.com/ollama/ollama/blob/main/docs/openai.md ). Eso si, en modo compatible OpenAI, temas como los modelos de visión no funcionan. Espero que te resulte muy útil.
Necesito saber qué es más relevante si pasar el PC de 16 gigas en ram a 32GB o aumentar la tarjeta gráfica.? Qué tiene mayor beneficio con el mismo coste.?👈🏼👈🏼👈🏼👈🏼👈🏼
@@LaHoraMaker instale un modelo de 72B en mi Notebook ryzen7 de 16GB y funciona muy lento. Veo que las cosas son como son. Tengo que comprar un PC y estaba viendo uno de 16GB con RTX de 12GB. ¿Que es mejor aumentar la RAM a 32GB o escalar en una tarjeta Gráfica inviritiendo el mismo dinero?
@@royotech el problema que tienes con ese tamaño es que ocupa quantizado 41 GB. A esto hay que sumarle el contexto. Lo ideal para correr esto sería un tarjeta gráfica de 48GB. El problema es que este tipo de tarjetas resultan todavía muy caras. Si compras una tarjeta de 12 Gb podrás cargar menos de un tercio del modelo, así que aunque se acelere una parte, vas a seguir dependiendo del procesado de la CPU. Ahora bien, el problema de base que veo es que tienes mucha menos memoria que el tamaño del modelo que quieres correr. Cuando pasa esto, el modelo empieza a descargar capas al disco, bajando la velocidad drásticamente. Así que si quieres correr modelos más grandes, te recomendaría un equipo con 64 de RAM para que se pueda ejecutar todo el modelo en memoria. Si el equipo tiene una RTX mejor que mejor, pero aquí te vendrá mejor tener cubiertas las bases.
Si trabajas con documentos/informacion no confidenciales de tu intranet, es una muy buena opción. Groq responda a toda velocidad y la conexión hacia el VPS puede ir cifrada también.
Todo depende de la frecuencia de uso y la velocidad que necesites de generación. Lo bueno es que puedes ejecutar una solución parecida en ambos entornos y elegir cuál emplear en base a tus necesidades. Muchas gracias por comentar!
¡Eres un crack, tío, mil gracias! :D
Llevaba intentando instalar Open WebUI desde hacía semanas (no me gustaba la idea de usar LM Studio habiendo una alternativa Open Source), y en un par de minutos me has solucionado todas las dudas y lo tengo funcionando. Pedazo de tutorial.
Gracias Juan Jesús por el feedback. Me alegro mucho de que te resultara útil este tutorial y espero que los próximos videos te resulten útles también.
.... increíble que ya tengo un servar AI en mi casa, alucino usándolo.... gracias por tus clases... maestro
Me encanta saber que estás utilizando este contenido para crear tu servidor. Ya nos contarás si se te ocurre algún caso o utilidad que no hayamos pensado todavía. Nos leemos!
🎯 Key points for quick navigation:
00:00 *🔧 Local AI setup*
00:14 *👥 Multiuser functionality*
00:42 *💻 Modest hardware requirements*
03:28 *📱 Device connectivity*
03:42 *🌐 Web interface use*
05:19 *⚙️ Simple installation*
12:31 *🛠️ Centralized configuration*
15:58 *🌍 Enable external access*
Made with HARPA AI
esta semana ya prendimos un mixtral con 46gigas de ram y GPU de 12 gigas.. es una maravilla trabajando.. increíble... GRACIAS MAESTRO!
Me alegro mucho de que lo hayais puesto en marcha! Gracias por comentar!
Tremendo tutorial, mi única paga es NO saltando los anuncios. Gracias maestro
Ahora RUclips posiciona los anuncios usando algoritmos para localizar los mejores momentos y poner el mejor anuncio. A veces pone de estos no saltables que son un horror, pero no me deja elegir cuáles va a mostrar. Si por mi fuera, ¡sólo pondría anuncios saltables!
Excelente video y canal !!!
Seria interesante poder implementar con Python (con FastApi como alternativa) una api que consuma el modelo LLM, con LangChain implementar RAG, llamadas a funciones externas, etc. Además así queda abierta la posibilidad de poder conectarse desde distintos clientes (Mobile, Web, Desktop) y con distintos lenguajes. Ahi ya queda en cada uno poder implementer medidas de control para cantidad de usuarios en paralelo, control de acceso, entre otras cosas.
Saludos cordiales desde Chile.
Gracias por la sugerencia Guillermo. Hay varios proyectos de este tipo que sirven llamadas del Langchain utilizando Streamlit como interface. He escogido Open WebUI para esta serie porque ofrece muchas funcionalidades de base y está en constante desarrollo. Para usos más avanzados, ciertamente pueden implementarse muchas funcionalidades extras con Langchain, LlamaIndex, etc. Saludos para todos los chilenos que ven La Hora Maker!
Gracias Gracias Tremendo video y explicación de las configuraciones de Redes. Increible 👏🏻👏🏻👏🏻🔥🔥🔥
Genial el vídeo, muchas gracias. ¿Qué tal si lo llevamos al siguiente nivel y tenemos un vídeo de opciones para hostearlo en internet? Igual comprar una gráfica o montarse un equipo no es siempre una opción, y tenerlo compartido con más gente en internet para que salga más barato podría ser un camino para mucha gente. Y otro vídeo también podría ser cómo usar el mismo servidor (local o hosteado) para tener diferentes servicios, como generar imágenes con stable difussion o así.
Pero vaya, lo más importante, muchas gracias por el vídeo 🙂
Muchas gracias a ti por comentar.
Tengo pendiente de crear un vídeo en el que levantamos uno de estos servicios en Runpod, que es un proveedor online donde se puede obtener servicio por horas con GPUs bastante más potentes.
En cuanto a la parte de compartir el servidor, la principal limitación de la configuración actual con Ollama es que cuando se lanzan muchas consultas, éstas se encolan dentro del servidor y no es capaz de paralelizarlos.
Si quisiéramos generar un servicio en el que podamos responder consultas de forma paralela, lo más interesante sería montar una solución como vLLM que nos permite realizar esta labor en paralelo y no encolarlas.
Apuntado el video en la lista de pendientes!
Mil gracias, felicidades por tu trabajo ya que es de gran ayuda para los demás. ❤
Me alegro de que te resulte de ayuda. Gracias por comentar.
Ahi vamos. Otro gran creador de contenido. Espero verte crecer y llegar de inicio a los 100M. Podrías crear un ejemplo que utilice datos financieros de una Empresa para dar Insights y generación de KPIs.
Gracias por el apoyo! Estoy preparando contenido con datos específicos de documentos, espero poder compartirlos en breve
Sería bueno si subes tus ppt , aunque realmente ya con toda la info que brindas es invaluable, muchas gracias por difundir el conocimiento.
Excelente video! muchas gracias y funcionó muy bien. ¿tienes un tutorial para que ollama busque en mis documentos y aprenda de ellos? (por ejemplo documentos word, pdf's etc)
muchas gracias, tu mejor video! :)
Me alegro que te gustar el video! El nivel de sus contenidos is over 9000! :)
Maestro!!!!!! muchas gracias con todo esto se habra un sin fin de posibilidades... una consulta y si tengo en mi servidor local el ollama ejecutandose y quiero hacerlo publico para poder abrirlo desde cualquier parte del mundo por el navegador de internet, entiendo que tambien se podria
Excelente cuando continúas con esta serie?
Aquí hay un detalle y es la tarjeta gráfica 2060, estamos hablando de un consumo 24/7 . Yo me iría por el Orange PI 5 Plus en términos energéticos con su ventilador y lo necesario para que no se caliente. Ollama no me ha corrido bien el modelo QWEN1.5-7B, hasta me respondía vacío, el que si me funcionó fue el LMA Studio desplegando su función de servidor y bastante rápido. Sería genial un video para poder usar esto por "Internet" y lo más importante como llamarías a tu IA local utilizando servicios en la nube como AWS o Azure.
Creo que la orange pi que mencionas tiene algunas cositas en su cpu para IA?. Es la mejor opción. Lamentablemente hay que esperar a que progresen más las NPU integradas en ARM
@@AlvM6428 Según veo su procesador cuenta con
AI Accelerator, NPU 3.0
El único problema con la NPU de la placa es que hayq ue convertir los modelos usando el toolkit de Rockchip y parece que este está pensado más para modelos de visión que LLM. Hay una iniciativa llamada MLC que usa la GPU Mali para hacer inferencia acelerada y que consigue una mejora de rendimiento.
LM Studio requiere interfaz para funcionar, por lo que no se le puede poner en modo servidor desde linea de comandos. En cambio Ollama si que se puede configurar directamente para que escuche a través de internet, modificando las variables de entorno
wow, me encantó, muy bien explicado. No existe configuración similar aplicable en mac? digamos en mac studio? se que suena tonta la pregunta pero solo quiero saber por curiosidad. Me interesaría crear un proyecto de una IA en local que analice archivos legales (soy abogado y programador y entendí la parte técnica de tu video) y pueda generar texto. Cual sería el mejor enfoque?
Hola Juan, tanto Ollama como Open WebUI pueden funcionar en Mac. La configuración será similar a la de Linux en la parte servidor. (Como no tengo un Mac con mucha memoria para probar, no había contemplado el escenario). Gracias por la pregunta!
Excelente video! Muchas gracias por la explicación!
Con mucho gusto!
Hola Cesar muchas gracias por compartir su trabajo.
Tengo mi biblioteca de PDFs: algunos de medicina, otros de historia, etc. Me gustaría limitar mis consultas a estos documentos. Esto que presenta aquí se puede personalizar para lograr ese objetivo? Gracias por su respuesta.
Hola Carlos,
Se puede hacer con esta configuración lo que pides. Para ello, lo único que tendrías es que etiquetar los contenidos cuando los des de alta con una etiqueta, por ejemplo, medicina o tecnología.
Luego, cuando vas a lanzar tu consulta, pulsas el botón almohadilla y ahí te salen las colecciones disponibles de tal forma que puedes limitar la búsqueda a cualquiera de las etiquetas que has utilizado antes.
Espero que te resulte muy útil. Un saludo y nos vemos en los próximos vídeos.
hola.. consulta, se le puede cargar documento propios?
se le puede cargar una base de datos propia para que analice?
Muchas gracias Cesar, me queda una pregunta: ¿cuánto disco duro le pondrías a ese servidor, como mínimo?
Cada uno de los modelos te van a ocupar entre 5-20 GB. Lo cierto es que podrías tener un sólo modelo que te guste corriendo todo el tiempo y no dedicarle mucho más espacio. Ahora bien, si vas a probar modelos y a cambiar habitualmente de configuraciones, el disco acaba lleno en muy poco tiempo.
Un factor a tener en cuenta es que la velocidad del disco influye también en el tiempo que tarda en cargarse hasta la memoria. En mi caso, reutilicé un disco NVMe 3.0 de 512 GB para uno de los equipos. Posiblemente hubiera valido con uno de 256 GB o con un SSD SATA, pero era lo que tenía a mano. Como curiosidad, este disco fue sustituido por otro de 1 TB, porque de tanto probar modelos, siempre me acabo quedando sin sitio en todos lados :D
Gran vídeo, gracias. Que tal iría con una grafica tesla p40 de 24GB? O mejor una 3060 de 12 GB
Por temas de compatibilidad de drivers y soporte para distintas funcionalidades y optimizaciones recientes te recomendaría la 3060. Es muy similar a la que uso en mis vídeos y está muy bien de precio
Recomiendas una 4060 TI 16 GB, aún que tenga menos bandwidth que una 3060?
Que llm en lugar de ollama son compatibles?
Tendria sentido seguir este tutorial para uso propio? Porque he estado probando con LLMs en LM Studio y algunas pesadas van bastante lentas. A lo mejor me interesa la velocidad que comentas? O seria la misma? Porque como mencionas que se usa con mas gente.
Muchas gracias por la pregunta. La configuración que presento aquí puede usarse tanto para una persona como para varias. LM Studio es muy comodo para una persona y la interfaz está muy pulida. Ahora bien, esta configuración de Ollama + OpenWebUI te ofrece la posibilidad de realizar consultas a tus propios documentos y sitios web, guardar prompts favoritos y algo, no menor, acceder a la interfaz web desde el móvil.
En cuanto a la velocidad será la misma, si se ejecuta todo en la misma máquina con la misma GPU.
*Muchas Gracias por compartir sus conocimientos y experiencia,Like y Suscrito👍👍👌👌👍👍*
Gracias por tu comentario. Espero que sigas disfrutando los próximos videos!
Realmente increíble
Gracias por el comentario Josu!
Hola Cesar de nuevo.... para instalar "llama3 70b" en local, ¿que requisitos minimos deberia tener el ordenador? ¿Cuanta RAM, cual RTX de NVIDIA y cuanto disco duro?.
muchas gracias por tu tiempo y tutoriales
Con mucho gusto. Gracias por comentar.
Cuales son las que mejor funcionan? Desde que fecha estan actualizadas las IA? se pueden personalizar?
La pregunta fundamental es ¿para qué quieres usar principalmente tus modelos? Si es para uso general suelo recomendar Solar. Para algo que siga más el prompt Nous Hermes y sus variantes. Para código la serie Dolphin va bastante bien. Cada modelo tiene fecha de actualización propia y si se pueden personalizar, aunque todavía no lo hemos visto en el canal
Gracias por el vídeo, yo tengo una macbook pro m1 pro con 16gb ram y 1tb ssd, corre muy rápido todo los modelos en local.
Ahora dinos como hacer un servidor de IA que procese Imágenes y genera imágenes.
Para procesar imágenes puedes usar modelos multimodales como Llava, usando la misma interfaz. Para generar imágenes, lo más fácil sería utilizar un instalador tipo Pinokio para instalar Flux, o cualquiera de las interfaces para Stable Diffusion como Automatic1111.
Gracias por hacer el video amigo Cesar... valdrá la pena intentarlo con la Orange Pi 5 ? Aguantará, se le podrá poner una Tarjeta Gráfica? Digo por el coste
Una 2060 funcionando 24/7 no saldría económico para algo hogareño, Nvidia creo que tiene gráficas especializadas para esto. La Orange no consume casi nada y está optimizado en su procesador con AI Accelerator, NPU 3.0 en el caso de la Pi 5 Plus. Yo creo que valdría más la pena la Orange PI 5/5 Plus
@@terranovich8471 Ollama no tira de ese procesador. Aún nadie a usado ese NPU en la Orange pi 5 plus. Me gustaría saber si alguien hace esto con la Orange Pi 5 Plus, cuantos usuarios al mismo tiempo es capaz de aguantar...
@@royotech Ollama es lento hasta en mi PC Gamer con una RTX 4070, sin embargo, con LM Studio me ha ido muy bien, tocará probar el LM Studio en el Orange Pi 5 Plus para ver rendimiento.
@@terranovich8471 excelente dato. LM Studio te permite hacer el uso en intranet?
@@royotech Claro puedes levantar tu localhost.
Hola master super el video, consulta puedo ponerlo aprender de un path específico sabes donde lo poseia configurar
En OpenWebUI se gestiona por documentos esta cuestión, aunque es posible que en futuras versiones se pueda directamente apuntar a un directorio.
Explicas muy bien, ¡muchas gracias!
Gracias a ti! Me alegra mucho cuando la gente se toma un momento para comentar y compartir su impresiones
Gracias! me sirvió 👍👍
Excelente!
Excelente contenido, tengo un servidor Proxmox, y estoy usando una instancia de Linux para AI, hasta ahora Ollama corre perfecto, descargo los modelos y corre bien desde la consola, tengo instalado OpenWebui en docker en la misma isntancia y tambien puedo acceder desde cualquier maquina sin problemas, ahora bie el problema esta en que no puedo hacer que mi OpenWebui tome los modelos que tengo descargados en Ollama, tienes Patreon u otra plataforma donde asesores? haces este tipo de servicios?
Hola @geekendzone, se me ocurren varias cosas que pueden estar pasando. La más probable es que no tengas configurado al Ollama que escuche en 0.0.0.0 sino en localhost. Con esto te funcionaría en la terminal local, pero no te respondería en remoto.
Para configurar esto hay que configurar la variable de entorno OLLAMA_HOST y asignarle la IP 0.0.0.0. Luego reinicias Ollama y listo (tienes todos los detalles en la FAQ de Ollama)
La mejor forma de verificarlo es irte por a la máquina del openwebui y tratar de contactar a la ip del Ollama usando HTTP y conectando al puerto 11434. Si no te sale Ollama is running, eso es que el Ollama no está escuchando en la IP publica. Pruébalo a ver si con esto te funciona!
@@LaHoraMaker oh wow gracias por la respuesta tiene que ser esto, porque he intentado lo que dices, la ip:11434 y no me abre nada voy a probar eato, mil gracias.
@@LaHoraMaker Hermano mil gracias, segui tu consejo y me fui a Ollama faq, solo tuve editar `systemctl edit ollama.service` incluyendo en la primera linea:
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Ahora tengo ollama corriendo en una instancia de Ubuntu en mi servidor Proxmox, y OpenWEBUI corriendo en otra instancia en Docker, puedo acceder desde cualquier parte de el mundo ya que tengo un Tunnel de Cloudfare y accedo con mi dominio personalizado, es una maravilla. Gracias por responder, estoy en deuda contigo. Un abrazo.
Cuantos recursos estas usando en la vm de linux? Usas GPU?
@@jorglct Si uso una VM con Ubuntu para Ollama, OpenWebUI corre desde mi instancia de Docker que corre en un LXC, esta corriendo todo perfecto, si uso GPU, tengo 8 cores y 32GB ram en la VM.
Interesante proyecto. Sólo una duda : que potencial se puede sacar a este servidor a parte del educativo? (teniendo por ej en un navegador bing chat)
Muchas gracias por tu comentario.
Desde mi punto de vista existen varias ventajas de este método. La primera que no sabemos si Bing Chat seguirá estando disponible a futuro o será un servicio de pago ya que como sabes todos estos procesos de inferencia requieren unas GPUs y es posible que en el futuro servicios que hoy en día son gratuitos pasen a ser servicio de suscripción o están incluidos en algún tipo de plan de precios por parte de los fabricantes.
Por otra parte cada vez que estamos enviando nuestras consultas en muchos de los casos estas consultas se están utilizando para reentrenar los modelos y no queda muy claro qué se hace con nuestros datos y es por eso que creo que es importante también apostar por soluciones locales que no dependan de tener la conexión de internet y que no dependan de un proveedor externo. Es decir, si nos quedamos sin conexión a internet no podremos consultar Bing Chat y tampoco podemos consultar ChatGPT o cualquiera del resto de servicios. Así que creo que tener disponibles estos modelos locales puede ayudar aparte de otras cuestiones meramente técnicas como la latencia o en ciertos casos, aquellas relacionadas con la privacidad
Excelente video, por cuestiones de tiempo no he revisado todo tu material, pero sabes de algún modelo al que pueda limitar sus respuestas y entrenar con información en especifico o un video que tengas donde lo expliques o quizás sea idea para un próximo video, Saludos.
Gracias por tu comentario. En principio todos estos modelos abiertos pueden personalizarse usando fine-tuning para limitar la respuesta y adaptarla a escenarios diferentes. Lo comentaré en detalle en un próximo vídeo!
@@LaHoraMaker ok entiendo investigando un poco mas encontré un proyecto en GitHub llamado LLaMA Factory, no se si lo conoces?
Muchas gracias!, muy bien explicado
Con mucho gusto
Hola, como podria usar varios gpt que tengo creado para que interacturen entre ellos?
Los GPTs de OpenAI pueden sumarse a las conversaciones con una mencion tipo @agentesmith @agenteverde. Por lo que leo en la documentación de OpenWebUI esto también esta soportado:
👥 '@' Model Integration: By seamlessly switching to any accessible local or external model during conversations, users can harness the collective intelligence of multiple models in a single chat. This can done by using the @ command to specify the model by name within a chat.
docs.openwebui.com/features/
Amigo excelente video te felicito. Para el caso mio me funciona unas veces realizando consultas de LLM como llama2 con open-weui en localhost:3000 pero a veces me sale este error "Uh-oh! There was an issue connecting to Ollama." porfa colaborame que puedo hacer??.. volvia borrar ollama y volvi a montar los LLM y me sigue saliendo el error.
¿Te ocurre esto todas las veces o cuando llevas un tiempo chateando con el modelo?
Hola Master, antes que todo darte las gracias por tu contenido por que he aprendido bastante. Quiero hacer una consulta :
Tengo este equipo en mi casa e instale ollama y estoy ocupando gemma2:2b y lo estoy ocupando para hacer un asistente virtual y hacer pruebas. El tema es que el primer mensaje se demora en responder y luego es mas fluido, me imagino que esto es por que se activa al momento de tener la primera interacción.
¿Mi duda es, esto se puede configurar para que responda mas rapido o que siempre esté cargado?
SO : UBUNTU 24.04 LTS
COMPONENTES INCLUIDOS:
1 x Procesador AMD: RYZEN 5 5600GT 6-Core 3.6/4.6Ghz
1 x Placa Madre AMD: Asus Prime A520M-K, 2xDDR4
2 x Memoria Ram DDR4: 8GB DDR4 3200Mhz Kingston
1 x Almacenamiento SSD: M.2 500GB Kingston SNV2S/500G NVMe PCIe Gen 4.0
1 x Video Integrado en el procesador: Radeon Graphics
1 x Gabinete: Clio SLIM CL-S605 c/fuente slim 500W (generica), 1xFan, 2xUSB
1 x Adaptador WiFi: Tp-Link TL-WN881ND, 2.4Ghz, Pci-e, 300Mb, 2 Ant.
1 x Refrigeración CPU: AMD Stock Cooler
Muchas gracias de antemano!!!!!
Ollama funciona en modo servicio y cuando llega una petición para usar un modelo lo carga en memoria (de ahí el primer parón inicial). Una vez cargado en memoria se quedará en memoria, hasta que pase un tiempo y nadie pida utilizar este modelo de nuevo (por defecto son cinco minutos).
Revisando la información de Ollama hay un parámetro nuevo de keep_alive que te permite indicarle cuánto tiempo quieres que esté el modelo en memoría (incluyendo siempre).
github.com/ollama/ollama/pull/2146
Gemma2:2B te funcionará medio bien, pero para agentes, seguramente necesites usar herramientas (o llamadas a función). El equipo donde grabo buena parte de los videos es un poco peor que el tuyo con un Ryzen 5 2600 y discos NVMe. Lo que hace toda la diferencia es una RTX2060 que compré de segunda mano. Si puedes coger una RTX2060 o RTX 3060 de 12GB, verás que se te abren muchas posibilidades.
Si no, siempre puedes usar como endpoint Groq, que de momento es gratuito.
Saludos,
César
Gracias por el vídeo, pero y si le das un vuelta de tuerca? Es decir un su puesto de 3 servidores con rtx los tres y poder aprovechar ese poder de cómputo, x ejemplo para hacer este mismo esquema pero con los modelos gordos de LLMs, no se si me explico...
Hola, sí, me queda totalmente claro. En los últimos meses he visto algunos proyectos para trabajar de forma distribuida y creo que veremos a futuro muchos más proyectos de este tipo. Ahora bien, en estos frameworks no están soportadas todos los modelos recientes, por ejemplo, como Llama 2:
github.com/X-rayLaser/DistributedLLM
Otra opción posible para utilizar distintos equipos y poder sacar el máximo partido es utilizar un framework como Autogen en el que distintos agentes ejecutan distintos modelos. Uno de ellos, por ejemplo, podría dedicarse a codificación, otro podría dedicarse a planificación de tareas, revisión del código, etc.
Tengo pendiente de hacer un vídeo sobre este tema, pero todavía no he cubierto las bases en los vídeos del canal para poderlo abordar. Así que te recomiendo que le des un vistazo a los próximos vídeos donde vamos a ir a escenarios un pelín más complicados y avanzados.
@@LaHoraMaker Gracias, estaré atento y mientras miro la info que me has dado, mil gracias
Impresionante vídeo, maestro!!! Como Siempre.
Una duda, conoces AI21 Studio? Se podría implementar dentro de estos servidores con Ollama Y OWUI en local?
Hasta dónde sé AI21 Studio es un servicio alojado que no tiene licencias abiertas, por lo que no se podría implementar en esta configuración con Ollama y Open Web UI. Ahora bien, sería interesante ver qué funcionalidades ofrece este modelo de AI21 Studio y tratar de buscar el modelo abierto equivalente que pudiera dar un rendimiento similar, aunque quizás no sea tan óptimo e ideal.
Habría alguna forma de darle información personalizada a esa inteligencia artificial, para que pueda responder con la misma?
Creo que te puede interesar mucho el último video que hemos publicado al respecto: ruclips.net/video/M4rdx-MEbQQ/видео.html
Si quieres revisar la parte de contenidos locales, comienza aproximadamente en el minuto 67 del video (o a las 01:07)
como aprovecho al gpu, porque noto que usa la memoria normal ... tengo AMD Radeon RX Vega 11 Graphics, será que no la soporta? tengo la ultima version de ollama
para ejecutarlo en un dominio web y en el vps servidor?
Hola! Es posible ejecutar esta configuración en un VPS, aunque para que te funcione rápido debería disponer de GPU. Posiblemente también debas poner otro servicio delante de Open WebUI para levantar https ya que por defecto funciona con http.
Muchas gracias
Hola. Excelente video, una duda, ¿crees que sea posible instalar Open WebUI, Docker y Ollama en instancias de Google Colab? Necesito saber si podemos instalar el ambiento multiusuario de open webui en ese tipo de instancias, mi objetivo es implementar un Chat IA que tenga acceso a documentos compartidos entre usuarios. ¿Crees que sea posible? alguna idea. Muchas gracias!
Google Colab porque por el momento no tenemos servidores con los requisitos mínimos y queremos hacer pruebas antes de comprar/Rentar instancias
Muy bueno lastima que ollama no te deja elegir el directorio o la unidad para instalar todo los Modelos por lo tanto ya que mucho el disco C: lo usa para el sistema operativo y programas pero se complica al bajar un Models de 500Gb o mas.-
Hola LoboViejo, puedes configurar la variable de entorno OLLAMA_MODELS para indicarle donde debe guardar y cargar los modelos. En las FAQ de Ollama aparece cómo hacerlo para los distintos sistemas operativos
conoces algun servicio en la nube para desplegarlo que no sea azure ni aws, son infernalmente caros
Yo este tipo de cosas suelo ejecutarlo en runpod que es bastante más economico
@@LaHoraMaker voy a mirar
Genial como siempre
Muchas gracias por tu comentario
¡Buenos días! He montado el servidor, pero el problema que tengo es que mi tarjeta gráfica es AMD y parece que Ollama no está detectándola, por lo que el modelo está ejecutandose directamente sobre la CPU. ¿Dónde puedo activar el uso de mi tarjeta gráfica, algún config?
Actualiza Ollama que justo han añadido soporte para tarjetas AMD esta misma semana!
Ese PC que estas usando ¿cuantas conexiones simultáneas te aguantará? Y si quiero más conexiones simultáneas, ¿se pueden instalar 2 tarjetas gráficas en el PC para aumentar ese poder de procesamiento simultáneo?
Buenos días, excelente video, cómo se usaría un esquema RAG, sobre está arquitectura?
El servidor Ollama te ofrece la posibilidad de generar los textos. Con Open Web UI puedes hacer una especie de mini RAG. Aquí tienes el ejemplo de cómo hacerlo: ruclips.net/user/liveM4rdx-MEbQQ?si=A0ubWe_Nh0aBXAiZ&t=4022
Ahora bien, si quieres algo más complejo, necesitarás usar LangChain o algo similar para tomar los documentos de origen, calcular los embeddings, almacenarlos en una BD vectorial, calcular la similaridad e inyectarlos en la consulta para la generación.
Mil gracias por tu respuesta@@LaHoraMaker
Gracias tremendo video, toma tu like tu compartida y tu suscripción
Buen video!!! Alguna alternativa a Open WebUI que solo proporcione una API, que gestione múlti usuarios y que permita licencia comercial.. De antemanos gracias.
Creo que lo que requieres en tu caso es un endpoint api y la gestión de distintas claves para distintos usuarios. Dale un vistazo a LiteLLM: github.com/BerriAI/litellm
Puedo montarlo en un cluster ARM ?
¿Qué tipo de equipos ARM son? ¿Algo tipo Raspberry Pi?
Buenas, excelente el video. Como le indico a ollma que utilice la GPU y no la CPU?
Ollama debería detectar y utilizar automáticamente tu GPU. ¿Qué modelo de GPU y sistema operativo tienes?
@@LaHoraMaker tengo instalado Windows 11 pro y la placa de video es una Gforce 3070
Lo puedo montar online en un hosting GPU?
Que pasa cuando 2 usuarios lo usan a la vez, se reduce exactamente a la mitad los tokens por segndo? 3 o mas?
Podrias mostrar en algun video algunos benchmarks basicos? Please!
Cuando dos usuarios lo usan a la vez, el servidor procesa primero una petición y después la otra. Si tienes muchos usuarios en paralelo es mejor buscar soluciones específicas como el servidor vLLM en lugar de Ollama.
¿Qué tipo de benchmarks te gustaría ver?
@@LaHoraMaker Genio!! gracias por la respusesta este finde voy a armar este server siguiendo tus instruciones, justamente en mi caso es mas util que procese el request a toda velocidad y luego siga con los otros, estoy obteniendo unos 26 tk/s con Qwen 1.5 con una 3090.
Al ser alta la cantidad de toquens los tiempos de espera no son altos para quien quede en cola de espera.
Muchos de nosotros buscamos darle algun uso comercial asi es que siempre es bueno saber velocidad, modelo usado en el video, hardware etc,.
Yo estaba bastante verde, en pocas semans APRENDI MUCHO, y gracias en gran parte a tu canal. Gracias!
A los que van llegadno nuevos, datos de performance simpre seran utiles, si queda pesado repetir en todos los vidoes, podria ser algo que quede en la descripcion, ejemplo:
Modelo
Quantizacion
Tokens/s
Hardware usado.
Dicho sea de paso muestra Qwen, es lo mejor que probe, pra usos generales relacionados con escritura, el modelo 14b, quantizado 8.
Modelo mas pequños de Qwen 1.5, no los recomiendo para usos serios, pero es interesante sus habilidad multilingue, mejor que otros modleos gigantes incluso.
como seria conectar 2 modelos especificos con entremamiento diferente y que puedan hablar entre ellas? ese seria un buen video....
Cómo puedo hacer o entrenar un modelo de IA para poderlo usar en ollama ?
Muy buen video Gracias
Gracias por comentar Paulo
Y en linux. lo otro como lo habilito en linux para red local . Sin Docker ?
Consulta cómo puedo resetear la password de admin del web ui, ya que me equivoqué al escribir el correo
Dale un ojo a las instrucciones para recuperar la password en la documentación de OpenWebUi. En función del tipo de instalación. Se hace de una u otra forma: docs.openwebui.com/troubleshooting/#reset-admin-password
Es justo lo que estaba necesitando! tienes canal de discord para ir consultando? estoy desarrollando un proyecto para la escuela secundaria donde doy clases, y me serviría algo de ayuda.
Hola! Aquí te dejo el enlace al discord: discord.gg/EssKWUmCxA
Vamos a ponernos en marcha y conversar sobre estos temas por allí también!
Gracias Cesar !!!!
Con mucho gusto!
Esta genial😂 la IA local
A por ello con la ÍA local!
Mi primer video en este canal. Ya monte un llama hace un par de meses pero me va muy lento
Hola! ¿Qué equipo estás utilizando para Ollama? ¿Con qué modelo estás probando?
@@LaHoraMaker i5 con wsl2 con ubuntou 22 sobre Windows 11
Gracias, como puedo alimentar UN Modelo de ollama con una vista de base de datos?
Muchas gracias por la pregunta. Comentarte que durante el video de ayer estuvimos durante el directo hablando sobre la posible solución y pasa por utilizar librerías como Langchain para transcribir estos consultas de texto a consultas SQL y devolver los datos de la base de datos local.
Ahora bien, en este caso, Ollama simplemente funciona con un motor de inferencia configurado en Langchain. Y es esta librería por encima la que utiliza y ofrece los componentes que te permiten consultar la base de datos.
Aquí código de ejemplo: python.langchain.com/docs/expression_language/cookbook/sql_db
Gracias 👋👋👋👍
Gracias a ti por comentar! Saludos!
Hola, Soy desarrollador y quisiera preguntarte ¿Cómo podría interactuar con ollama utilizando el protocolo http? Un saludo, muy buen video!
Ollama integra una API por defecto que sirve sobre http localmente en el puerto 11434. Puedes atacar el endpoint app con las librerías Python o Javascript de Ollama, o utilizando el API directamente (github.com/ollama/ollama/blob/main/docs/api.md ) o incluso utilizando el mismo código que usarías para OpenAI: (github.com/ollama/ollama/blob/main/docs/openai.md ). Eso si, en modo compatible OpenAI, temas como los modelos de visión no funcionan. Espero que te resulte muy útil.
@@LaHoraMaker Muchas gracias!!!!😍
Necesito saber qué es más relevante si pasar el PC de 16 gigas en ram a 32GB o aumentar la tarjeta gráfica.? Qué tiene mayor beneficio con el mismo coste.?👈🏼👈🏼👈🏼👈🏼👈🏼
Pues es una pregunta complicada: ¿qué tarjeta gráfica tienes ahora mismo? ¿Cuanta memoria RAM tiene tu tarjeta gráfica?
@@LaHoraMaker instale un modelo de 72B en mi Notebook ryzen7 de 16GB y funciona muy lento. Veo que las cosas son como son. Tengo que comprar un PC y estaba viendo uno de 16GB con RTX de 12GB. ¿Que es mejor aumentar la RAM a 32GB o escalar en una tarjeta Gráfica inviritiendo el mismo dinero?
@@royotech el problema que tienes con ese tamaño es que ocupa quantizado 41 GB. A esto hay que sumarle el contexto. Lo ideal para correr esto sería un tarjeta gráfica de 48GB. El problema es que este tipo de tarjetas resultan todavía muy caras.
Si compras una tarjeta de 12 Gb podrás cargar menos de un tercio del modelo, así que aunque se acelere una parte, vas a seguir dependiendo del procesado de la CPU.
Ahora bien, el problema de base que veo es que tienes mucha menos memoria que el tamaño del modelo que quieres correr. Cuando pasa esto, el modelo empieza a descargar capas al disco, bajando la velocidad drásticamente.
Así que si quieres correr modelos más grandes, te recomendaría un equipo con 64 de RAM para que se pueda ejecutar todo el modelo en memoria. Si el equipo tiene una RTX mejor que mejor, pero aquí te vendrá mejor tener cubiertas las bases.
@@LaHoraMaker muchas gracias, ahora entiendo mejor.
Alternativa a un ordenador no potente: VPS con Open WebUI, y consumes el modelo desde la API de Groq.
Si trabajas con documentos/informacion no confidenciales de tu intranet, es una muy buena opción. Groq responda a toda velocidad y la conexión hacia el VPS puede ir cifrada también.
Te paso un like... ..
Hoy en día con lo que gasta eso no vale la pena pero algo mas portátil tipo Orange Pi me gusta mas la idea
Todo depende de la frecuencia de uso y la velocidad que necesites de generación. Lo bueno es que puedes ejecutar una solución parecida en ambos entornos y elegir cuál emplear en base a tus necesidades. Muchas gracias por comentar!
Oracle cloud free tier 24gb arm ampere + ollama
De nada, que veo que hay mucho experto en RUclips sobre todo en habla hispana
Ah gracias por el apunte, ¿cuantos tokens/s te da ollama en esa configuración con modelos tipo Mistral 7B?
cuando dijiste 3090 nvidia .-.
De momento es lo que estamos usando, una 3090 de segunda mano. Aunque con una 3060 se puede hacer muchísimo también en local.