Enhorabuena por tu aportación a la IA. Se puede observar que tienes un gran conocimiento sobre el tema. He visto y escuchado numerosos de tus vídeos y aunque hay alguno específico sobre el tema de entorno local, creo que sería muy interesante que dedicaras uno al tema del conocimiento, es decir, al comportamiento de las IAs en relación con el conocimiento que le podamos aportar en una conversacion abierta. Parece ser que quieren implementar en el nuevo modelo GPT el acceso a carpetas locales, precisamente para suplir esa habilidad exclusiva que es el conocimiento específico. Gracias!!
Pues lo comentado. Asistente 100% local. En Home Assistant ya lo tiene implementado. No se si el texto lo pasan a comando. Supongo que si. Y claramente robotitos personales Y de paso cambiar el soft de un Alexa. No creo que tarden mucho en hacerlo si no esta ya.
genial; sería tambien genial si nos pudieras enseñar si hay proyectos para generar voz para darle a gpt más personalidad, con voces personalizadas de formal local tambien.
A colación de este video sería genial poder llegar a montar un sistema de transcripción y traducción de un video youtube. Vamos que tengas un video en ingles por ejemplo y puedas recibir un texto con todo el contenido en español. Whisper JAX creo que llega a esto de una forma excelente, pero como decía, montarlo en modo local con el modedo que tu escojas...Ufff,¿una alucinación o una realidad?. No se pero muy muy util para cuando no llegas a entender un idioma determinado pero sabes que el tema del vídeo es lo que estas buscando.
He probado la version small en Hugging Face y tambien parece que va bien. Me gustaria echar un ojo a la posibilidad de hacerlo por streaming para no tener que esperar a terminar de hablar... Me gustaria saber, para un servicio real en produccion, cuanta maquina seria necesaria si quiero permitir concurrencia de al menos 5-10 audios... Tu que opinas?
¿Te refieres a 5-10 audios en streaming o a 5-10 audios en modo batch? Dale un vistazo a esta presentación con datos reales de producción github.com/PyDataMadrid/material/tree/main/020-enero-2024-idealista
tengo una 1070gtx, me gustaria poner lo de cudablas pero son jsons y no entiendo como ligarlo a este proyecto (lo dice en la documentación pero poco) por cierto me encanta whisper y encontraste una app genial, estaba dando vueltas a hacerla con electron llamando procesos de python pero no havia forma, python conozco poco :( muchas gracias de nuevo por el video
El soporte acelerado lo ofrecen las librerías del fabricante de la gráfica. En este caso sería AMD y su librería ROCm: rocm.docs.amd.com/en/docs-5.7.0/release/windows_support.html En este caso parece que la ROCm si está soportada. Respecto a cómo utilizarla con AMD, puedes dar un vistazo a este tutorial: rocm.blogs.amd.com/artificial-intelligence/whisper/README.html
muchas gracias, video genial, es lo que queria conseguir y no habia forma jeje. Como le indicas que un video en inglés que lo traduzca en español? pondría el bloc de notas al lado del video y ale. WhisperX no se que pasaba al final, le habia de cambiar el formato del video descargado de youtube, para pelis sí y youtube no... y perdí el repo que funcionaba bien jeje
Pues es un poco fastidioso, pero Whisper como tal sólo permite traducir de cualquier idioma a inglés. Si quieres traducir el fichero de salidade Whisper, te recomendaría guardarlo en un formato de subitutlos tipo (srt o vtt) y de ahí traducirlo usando el traductor de Deepl.
Todo depende de la velocidad que requieras para la transcripción. Este tipo de modelos pueden ejecutarse en sistemas tipo Raspberry Pi, aislados de la red una vez instalados. No se exactamente a qué te refieres con lo de "independiente del hablante". Saludos!
Pues si y no. El modelo se puede correr en la Orange Pi 5 Plus, pero las imagenes por defecto de Ubuntu para rockchip no tienen soporte para microfono. Así que tendrás que instalar un microfono usb o algun otro tipo de solución para capturar el audio.
Enhorabuena por tu aportación a la IA. Se puede observar que tienes un gran conocimiento sobre el tema. He visto y escuchado numerosos de tus vídeos y aunque hay alguno específico sobre el tema de entorno local, creo que sería muy interesante que dedicaras uno al tema del conocimiento, es decir, al comportamiento de las IAs en relación con el conocimiento que le podamos aportar en una conversacion abierta. Parece ser que quieren implementar en el nuevo modelo GPT el acceso a carpetas locales, precisamente para suplir esa habilidad exclusiva que es el conocimiento específico. Gracias!!
gracias por compartir su conocimiento maestro, saludos desde México.
Saludos Marcelino! Gracias por comentar!
¿Qué otros usos se os ocurren para este tipo de tecnologías?
Pues lo comentado. Asistente 100% local. En Home Assistant ya lo tiene implementado. No se si el texto lo pasan a comando. Supongo que si. Y claramente robotitos personales
Y de paso cambiar el soft de un Alexa. No creo que tarden mucho en hacerlo si no esta ya.
@@cacerhola Es bastante increible todo lo que tienen implementado de voz con Assist! www.home-assistant.io/voice_control/
Buen vídeo Cesar.
A la orden
genial; sería tambien genial si nos pudieras enseñar si hay proyectos para generar voz para darle a gpt más personalidad, con voces personalizadas de formal local tambien.
A colación de este video sería genial poder llegar a montar un sistema de transcripción y traducción de un video youtube. Vamos que tengas un video en ingles por ejemplo y puedas recibir un texto con todo el contenido en español. Whisper JAX creo que llega a esto de una forma excelente, pero como decía, montarlo en modo local con el modedo que tu escojas...Ufff,¿una alucinación o una realidad?. No se pero muy muy util para cuando no llegas a entender un idioma determinado pero sabes que el tema del vídeo es lo que estas buscando.
Ostia no lo habia entendido, pensaba que me decias el whisper API. Voy a probarlo pues
¿Qué tal te ha funcionado @TheBeachLab?
He probado la version small en Hugging Face y tambien parece que va bien. Me gustaria echar un ojo a la posibilidad de hacerlo por streaming para no tener que esperar a terminar de hablar...
Me gustaria saber, para un servicio real en produccion, cuanta maquina seria necesaria si quiero permitir concurrencia de al menos 5-10 audios... Tu que opinas?
¿Te refieres a 5-10 audios en streaming o a 5-10 audios en modo batch? Dale un vistazo a esta presentación con datos reales de producción github.com/PyDataMadrid/material/tree/main/020-enero-2024-idealista
tengo una 1070gtx, me gustaria poner lo de cudablas pero son jsons y no entiendo como ligarlo a este proyecto (lo dice en la documentación pero poco) por cierto me encanta whisper y encontraste una app genial, estaba dando vueltas a hacerla con electron llamando procesos de python pero no havia forma, python conozco poco :( muchas gracias de nuevo por el video
Puedes darle un vistazo a esta app que si no me equivoco está hecha con frontend electron: github.com/schibsted/WAAS
Gracias! y es una lastima que no tenga grafica de Nvidia..... que IA en local se puede correr con una RX6600?
El soporte acelerado lo ofrecen las librerías del fabricante de la gráfica. En este caso sería AMD y su librería ROCm: rocm.docs.amd.com/en/docs-5.7.0/release/windows_support.html
En este caso parece que la ROCm si está soportada. Respecto a cómo utilizarla con AMD, puedes dar un vistazo a este tutorial: rocm.blogs.amd.com/artificial-intelligence/whisper/README.html
Cuando dije ROCm si está soportada quería decir RX6600 :)
@@LaHoraMaker MUUUUUCHASSS GRACIAS!!! 👍👍
muchas gracias, video genial, es lo que queria conseguir y no habia forma jeje. Como le indicas que un video en inglés que lo traduzca en español? pondría el bloc de notas al lado del video y ale. WhisperX no se que pasaba al final, le habia de cambiar el formato del video descargado de youtube, para pelis sí y youtube no... y perdí el repo que funcionaba bien jeje
Pues es un poco fastidioso, pero Whisper como tal sólo permite traducir de cualquier idioma a inglés. Si quieres traducir el fichero de salidade Whisper, te recomendaría guardarlo en un formato de subitutlos tipo (srt o vtt) y de ahí traducirlo usando el traductor de Deepl.
Hay algo similar para correr en un microcontrolador de forma aislada de la red e independiente del hablante?
Todo depende de la velocidad que requieras para la transcripción. Este tipo de modelos pueden ejecutarse en sistemas tipo Raspberry Pi, aislados de la red una vez instalados. No se exactamente a qué te refieres con lo de "independiente del hablante". Saludos!
Excelente video Cesar... y podrá correr el Orange Pi 5 Plus?
Pues si y no. El modelo se puede correr en la Orange Pi 5 Plus, pero las imagenes por defecto de Ubuntu para rockchip no tienen soporte para microfono. Así que tendrás que instalar un microfono usb o algun otro tipo de solución para capturar el audio.
chulo😀
Te paso un like... ..
Ganas de más proyectos para hacerse asistentes personales como Tab, Adeus, …