Usando Whisper, la IA gratuita y libre de OpenAI para transcribir audio

Поделиться
HTML-код
  • Опубликовано: 3 окт 2024
  • Whisper es un programa de código abierto (!!) que mediante inteligencia artificial es capaz de tomar un archivo de audio (o de vídeo, si es capaz de extraerlo por su cuenta) y transformarlo a texto, interpretando lo que se dice y con una tasa de precisión que, aunque no es del 100%, es bastante buena.
    Whisper está hecho por OpenAI, pero por una vez el proceso es fácil de instalar y hasta un simio con manos como yo ha sido capaz de instalar Whisper en su PC, equipado con una NVIDIA bastante modesta y transcribir vídeo con una 1660.
    Algunas de las cosas a favor de Whisper son la capacidad de reconocer voz en múltiples idiomas, e incluso de traducir. Esto lo puede hacer bien gracias a las 680.000 horas de entrenamiento supervisado que ha recibido y que le convierten en una herramienta muy potente que nos va a permitir hacer cosas interesantes.
    Comparativa entre RUclips Captions y Whisper: gist.github.co...
    🔔 ¡Suscríbete ya! ruclips.net/user/ma...
    ➕ Más tutoriales en: www.makigas.es
    ⭐ Programa de miembros: youtube.com/@m...
    📝 Foros de la comunidad: foro.makigas.es
    💬 Servidor de Discord: discord.makiga...

Комментарии • 89

  • @makigas
    @makigas  3 месяца назад

    Buenas, voy a pausar los comentarios de este vídeo porque no tengo tiempo de vigilar esto. Si no entiendes este vídeo, es que este vídeo no es para ti.

  • @Lunatuculito
    @Lunatuculito Год назад +28

    El video está buenísimo, explica claramente las cosas... el problema es que cuando sos un neófito de la tecnología con tu primer computadora personal en la vida no entendés nada (o sea, yo xD). Deberías buscar el modo de hacer este tipo de videos, donde enseñas herramientas útiles para gestionar trabajos de oficina, como este de transcribir audios a texto para gente que trabaja con guiones, periodistas, etc., mucho más accesibles al público común u.u Porfa

  • @El_Trastero_de_Demian
    @El_Trastero_de_Demian Год назад +9

    Me gustaría utilizarlo, pero soy bastante torpe en el tema de programación, IA y lenguaje computacional (tan poco es que tenga muy buen ingles), de echo pones muchos programas que se necesitan que no tengo ni idea donde se consiguen dando por sentado que tu audiencia entiende todo que dices XD
    Tal ves no sea tan complejo, pero no tengo ni idea de por donde empezar y la verdad, francamente me gustaría probarlo.

  • @lalitorams2735
    @lalitorams2735 Год назад +3

    Recomiendo cambiar la portada porque pensé que era un anuncio
    Excelente video
    Gracias

  • @MrRobertosoto
    @MrRobertosoto Год назад +1

    Hola he probado y ahora estoy usando esta aplicacion sobre OpenSuse Linux, y es una maravilla. Gracias por compartir. Saludos.

    • @leoautorep2389
      @leoautorep2389 Год назад

      Hola amigo, me gustaría saber si podrías ayudarme a sacar los subtítulos de un vídeo de RUclips?

    • @leoautorep2389
      @leoautorep2389 Год назад

      Pensé que sería fácil pero por lo que veo hay algunos requisitos que necesita mi PC para poder lograrlo según este tutorial

  • @emiliocamposok
    @emiliocamposok Год назад +16

    Muy buen aporte, pero como no soy programador, no entendí casi nada de los comandos y los paquetes de programas que utilizas para correr la instalación de Wishper. Si alguien me podria dar una mano en ese sentido se lo agradecería mucho. Gracias por compartir..

    • @3skrlata
      @3skrlata Год назад +3

      yo tampoco entendi nada, alguien podría ayudarnos para poder instalar fácilmente :c trate de instalar la otras cosas extras pero no puede

  • @luisfelipevelezzapata7340
    @luisfelipevelezzapata7340 Год назад +44

    Lástima que no comienzas con lo más básico: dejar el enlace de descarga. Hasta ahí he llegado.

    • @klairm9097
      @klairm9097 4 месяца назад

      tu lo quieres todo mascado o que brooo espabila

  • @trashplayz3004
    @trashplayz3004 Год назад

    muy util el video! sobre los modelos... se refiere al tamaño de capa de modelo, los mas pequeños suelen estar destinados a dispositivos moviles y los mas grandes... igual exigen de buena capacidad de procesado con gpu.

  • @Dav1001
    @Dav1001 8 месяцев назад +1

    JAJAJA "cada quien lleva las crisis como quiere" un crack

  • @YusufSalahAdDin
    @YusufSalahAdDin Год назад +2

    Precisamente una amiga estudiante de medicina y nosotros con mi hermana estábamos buscando una herramienta para transcribir, cosa que sea más fácil traducir libros. Sin querer, aquí me sale una posible solución, gracias!!!

  • @acaele
    @acaele 7 месяцев назад

    Hola, qué buen vídeo, ¿sabrás si esta herramienta te da los tiempos? (como para un SRT)
    Y en ese caso si te permite ponerle alguna limitación de número de palabras por línea o cosas así?

    • @makigas
      @makigas  7 месяцев назад

      Sí, puede exportar a SRT, aunque es todavía un poco limitado porque a menudo toma frases largas y si le pides que las haga más cortas para que quepan en un subtítulo empieza a partir mal las palabras, al menos en español

  • @theproclamer
    @theproclamer Год назад

    Chicho pense que picarias python jajajajajaja, le probe hace un tiempo esta herramienta y de verdad es una locura lo que hace buen video compi!

    • @makigas
      @makigas  Год назад +1

      Python? Ew 😄

  • @andresariascapurro
    @andresariascapurro Год назад

    Gracias como siempre

  • @makigas
    @makigas  Год назад +4

    ¡Buenas! Algunas aclaraciones extra que he omitido en el vídeo:
    * Me ha sorprendido que en muchas ocasiones, Whisper elimina interjecciones como "vale" o "sí". A decir verdad, me gusta, porque normalmente las quito de las transcripciones para no poner texto innecesario.
    * Me he fijado que a medida que va avanzando el vídeo, la transcripción de Whisper cada vez tiene menos comas y menos puntos. Me pregunto si es lo que la gente en los foros de Whisper llama "alucinaciones", o simplemente que la IA se cansa porque el output que genera para una frase depende de los outputs previamente generados.
    * Cuando subo una transcripción a RUclips suelo quitar los subtítulos generados por RUclips, pero en este caso a modo de benchmark he decidido dejarlos para que se pueda hacer una comparativa entre Whisper y RUclips. Además, os dejo el original, la versión revisada y el diff de la transcripción: gist.github.com/danirod/434a20a8153881ed5fecbdf3c5ff49bd

  • @juannicolasbaquerocollante3960
    @juannicolasbaquerocollante3960 Год назад +1

    Hay muchas cosas que siento que das por hecho que todos conocemos y no es así, aclaraciones que deberías hacer, como lo de la ruta del archivo que queremos transcribir, que no sé de dónde obtenerla, si estás en CMD o dónde, el por qué te sale whisper workstation, qué es phyton... Etc, muchas cosas que no entiendo y seguro que la mayoría de personas que no sepan mucho de esto, tampoco.

  • @raupulus
    @raupulus Год назад

    Grande Dani!
    Hiciste que ampliara mi lista de cosas por probar :D

    • @makigas
      @makigas  Год назад +1

      Esa lista está para ampliarla y ampliarla 😄

  • @SylvStone
    @SylvStone 7 месяцев назад

    OK, al memos tienes un Nvidea. Vine aquí buscando info sobre cómo funcionaría whisper en un entorno CPU con tarjeta gráfica Intel.

  • @segundocastro9281
    @segundocastro9281 6 месяцев назад +1

    nO ES GRATUITA .. solo es de prueba gratuita....luegi se debe pagar...

  • @renzochalco5526
    @renzochalco5526 8 месяцев назад +1

    No entiendo nada, no se como se instala cuda y que esta usando para instalarlo

  • @neosebas8272
    @neosebas8272 Год назад

    La barrera de los subtitulos la destruye totalmente para la gente que se le complica entender el ingles hablado 🎉

  • @majonukac
    @majonukac Год назад

    Whisper está usando mi cpu en lugar de mi gpu, tengo una GTX 1660ti, ya instalé CUDA y Pythorch

  • @avicap17
    @avicap17 Год назад +1

    SE PUEDE traducir UN VIDEO DE INGLES A ESPAÑOL es lo que me interesa y nadie aclara y nadie da un ejemplo !!!!

    • @gely256
      @gely256 9 месяцев назад

      Te echo un cable : El programa gratis Subtitle Edit, lo hace. Usa whisper, pero ya lo instala él solo todo, sin romper la cabeza. Además traduce a cualquier idioma. Es muy fácil de usar, pero como no te lo puedo explicar así, te recomiendo que busques "subtítulos automáticos con subtitle edit", donde te lo explican paso a paso. Verás qué fácil. Espero haberte ayudado.

  • @guillermourquijonajera2780
    @guillermourquijonajera2780 Год назад

    He escuchado que ocupas una tarjeta NVIDIA 1600, yo ocupo una GeoForce 210, se puede instalar tambien o tengo que cambiar mi tarjeta grafica?? Saludos excelente video.

    • @makigas
      @makigas  Год назад +1

      Ya no tengo mi vieja 210 para probarlo con datos (me dio la vida esa gráfica cuando no había para más...), pero mi impresión es que o no la pillará por ser muy vieja y codificará por CPU, o la pillará pero será en rendimiento como si no la tuviese. Whisper puede codificar por CPU, pero el tiempo que toma codificar algo es mucho mayor, en mis pruebas con CPU tardaba como una hora en codificar un par de minutos de audio.

    • @guillermourquijonajera2780
      @guillermourquijonajera2780 Год назад

      @@makigas muchas gracias, me sirvio mucho tu apoyo!!

  • @InglesparaTodos07
    @InglesparaTodos07 8 месяцев назад

    hola buen video gracias tienee que ser una pc potente o cualquiera sirve

  • @zxyx453
    @zxyx453 Год назад +3

    Qué lío por qué no es intuitivo!?

  • @damianferraro2070
    @damianferraro2070 Год назад

    Excelente video! Que tal funciona con varios interlocutores? Un meet del trabajo por ejemplo.

    • @makigas
      @makigas  Год назад

      Nunca lo he probado, ahora me da curiosidad, para mi whisper solo existo yo…

  • @JhoselinCoanqui-p7h
    @JhoselinCoanqui-p7h 8 месяцев назад

    Hola, gracias por el vídeo!😊
    Podrías explicar cómo debo hacer para cambiar el idioma de español a inglés por favor 🙏. El audio que quiero transcribir está en inglés. Gracias!

  • @seqay3065
    @seqay3065 4 месяца назад

    Si quisiera desplegar whisper, donde debería desplegarlo?

  • @Roberto_Ronconi
    @Roberto_Ronconi 4 месяца назад

    Me gustaría mucho poder instalar y usar Whisper. Pero en este video lo explica muy mal y demasiado rápido... no se entiende.

  • @LUISMARTINEZ-dy9ks
    @LUISMARTINEZ-dy9ks 3 месяца назад

    muy complicado de entender, ¿hay algo mas sencillo donde con solo subir un audio mp3 y que se traduzca online gratis en internet?

  • @julionicolastroncosomedina4933
    @julionicolastroncosomedina4933 6 месяцев назад

    Está muy bueno el material, pero no es tan práctico para quienes no dominamos del todo la tecnología de computadoras.

  • @ivanfrias9203
    @ivanfrias9203 11 месяцев назад

    para gestion las dependencias tambien puedes instalar anaconda y ahcer entornos virtuales aun mas facil

  • @claudiobalderrama1599
    @claudiobalderrama1599 7 месяцев назад

    Crees que sea posible el conseguir transcripción en tiempo real de alguna manera? por ejemplo en llamadas telefónicas en el buscador, agradecería mucho tu respuesta :)

  • @braaddcueva
    @braaddcueva Год назад +1

    Un abrazo, si quisiera convertir un audio ingles a espanol y luego a la inversa, seria posible?

    • @makigas
      @makigas  Год назад

      Con Whisper no se genera voz, habría que usar una IA capaz de eso. Hay una libre llamada Bark, pero no la he probado todavía.

  • @jorgerenatosotoconcha9446
    @jorgerenatosotoconcha9446 6 месяцев назад

    Hola Whisper en donde lo has instalado? me refiero dentro de qué aplicación o sitio web has instalado Whisper? esa parte no entendí ´

  • @felipeger2688
    @felipeger2688 Год назад

    hola una pregunta donde instalas que programas es??? donde colocas comandos...

  • @juanelbolaelbola
    @juanelbolaelbola 4 месяца назад

    tenemos una extensión de crome...... HARPA AI | lo trascribe todo y un montón de cosas mas, una locura esta conectada a gpt y Gemini cono ia, no hay que instalar nada.

  • @Mfernandezreina
    @Mfernandezreina 6 месяцев назад

    Hola, he probado la herramienta pero dice que es de pago. Es que estoy haciendo algo mal?

  • @fabianmartinezn
    @fabianmartinezn Год назад

    Hola,
    excelente esto. Una pregunta, cual es la diferencia entre el servicio de pago de whipser de Open AI y este software open Source?

    • @makigas
      @makigas  Год назад +1

      Ninguna por el momento, el software open source lo tienes que instalar tú pero luego lo puedes usar cuanto quieras (el lo que chupa en electricidad la GPU durante el rato que estás traduciendo no es gratis, tho), el servicio de pago pagas por no pasar por sufrir.

  • @singularmaiartmilifeispoli8555

    Cuál es el link para usar whisper online o no se puede?
    Entre las apps de android en app store hay muchos, cuál es el verdadero?

  • @rhkuhz
    @rhkuhz Год назад +1

    Me gustaría un día cuando tenga tiempo usar esta herramienta para automatizar traducir un video de youtube, a ver como queda. Te descargas el video, transcribes, traduces, generas la voz con un tts y juntas el nuevo audio con el video. Para tutoriales me vendría muy bien porque no se me da muy bien entender el inglés hablado 😅

    • @makigas
      @makigas  Год назад +1

      De hecho cuando RUclips active de forma global lo de permitir subir vídeos con audio en múltiples idiomas, esto podría ser un puntazo para ayudar a creadores a hacer su contenido más accesible

    • @rhkuhz
      @rhkuhz Год назад

      @@makigas Buaaah es que eso es ideal y ya existen formas de automatizar todo el proceso, pero está confirmado esa feature?

    • @makigas
      @makigas  Год назад +3

      ​@@rhkuhz Confirmado, está en QA. Se supone que lo iban a activar de forma global "en breve", pero ya sabemos lo que significa en breve con RUclips. Lo tiene MrBeast (si te vas a un vídeo suyo, al abrir la configuración puedes elegir el idioma del audio) y algunos canales importantes de la India también lo tienen ya, que es el país en el que RUclips suele probar todos sus experimentos

    • @rhkuhz
      @rhkuhz Год назад

      @@makigas joder que alegría, gracias por la info, un saludo ;)

  • @oscarhernandez311
    @oscarhernandez311 Год назад

    Lo probé con un audio pequeño y se tardó un buen rato, y entonces me di cuenta aue no estaba utilizando mi tarjeta gráfica sólo el procesador, por qué será? Ahora, el resultado es muy bueno con pocos errores

    • @makigas
      @makigas  Год назад

      Quizá que falte instalar cuda… aunque solo es una suposición, lo mismo ya lo tienes

  • @InnovaSytrus
    @InnovaSytrus Год назад

    yo pensando que podia usarlo hasta que hablo de GPU y yo uso una integrada :(

    • @makigas
      @makigas  Год назад +1

      Uf. A ver, hay un fallback a CPU, podrías intentarlo, pero va a tardar muchísimo más. Puedes probar con un audio de medio minuto y juzgar el resultado.

  • @FranciscoFF0
    @FranciscoFF0 Год назад

    Que tal, sera que se pueda hacer una web donde le pases el video de youtube sin importar el idioma del video y te retorne el audio del video ya traducido o el mismo video ya con el audio sobrepuesto, seria usar whisper para pasar el audio a texto y traducirlo, que otra herramienta se podría usar para pasar de texto a audio

    • @makigas
      @makigas  Год назад +1

      Bua, ese sería ya el siguiente paso, un generador de voces de código abierto para doblar vídeos a otro idioma

  • @Valen.Gonzalez.01
    @Valen.Gonzalez.01 Год назад

    Tengo que comprarme una computadora

  • @camilodelrio9904
    @camilodelrio9904 Год назад

    una pregunta, este programa puede transcribir clases magistrales de "12" horas? muchas gracias

    • @makigas
      @makigas  Год назад

      En la versión cloud me parece que sí; en la versión que instalas no tengo constancia de que haya, le he pasado archivos grandes y se los ha comido; si da error por archivo muy grande, como un requisito para whisper es ffmpeg siempre se puede trocear en cachos de 1 hora o 30 minutos si fallase

  • @monopedorro4444
    @monopedorro4444 Год назад

    Buenas, genial el vídeo. Pero no sé si es solo a mí pero no puedo ver los subtítulos. Me encantan tus contenidos.

    • @makigas
      @makigas  Год назад +1

      Que raro... igual es un tema de cache de RUclips, a mi sí me salen.
      (Me encanta tu nombre de usuario, por cierto xD)

    • @monopedorro4444
      @monopedorro4444 Год назад

      @@makigas jaja, gracias. Puede ser porque lo estoy viendo desde el cel

    • @makigas
      @makigas  Год назад +1

      Ah, puede ser, no lo he probado en móvil. En teoría he dejado las dos pistas; "Español" con la que ha generado Whisper, y "Español (generado automáticamente)" con lo que ha entendido RUclips.

  • @APOLKIS
    @APOLKIS 6 месяцев назад

    No me encuentra el archivo enm ninguna ruta que le ponga, que puedo hacer.

  • @SakuraHougetsu28
    @SakuraHougetsu28 Год назад

    ¿no hay una manera de usarlo en una laptop sin grafica, me refiero, alguna forma online o donde no gastes recursos de pc (que no tienes), más bien, una alternativa para pobres xd?

    • @makigas
      @makigas  Год назад

      La respuesta que OpenAI querría dar es "suscribiéndote a su servicio online y pagando una cuota". Sin una gráfica buena no queda otra que codificar por procesador, no es imposible pero claramente es un proceso que va a tardar unas horas (una noche tal vez), aparte de consumir más energía toda la noche.

  • @CSF230
    @CSF230 Год назад

    Lamentable que no es 100% confiable ,sobre todo para sacar audio de videos de anime no lo recomiendo mucho sobre todo con los anime antiguos ,el audio de las nuevas series no hay mucho problema,igual tienen que revisar el texto porque no queda sincronizado los subtitulos

    • @makigas
      @makigas  Год назад

      Sí, este bug lo vienen arrastrando, los subtítulos con tiempo son un poco inútiles, la sincronización no va fina.

    • @Jkayami
      @Jkayami Год назад

      Quizás para ello se podría dividir el video, si a los 16 minutos por ejemplo los subtítulos pierden coherencia, dividir el trabajo en ese tiempo y después unir todo

  • @davidsolano2423
    @davidsolano2423 9 месяцев назад

    La palabra tecnica es escupir? espero no se te vomite esa app XD

  • @jamal4014
    @jamal4014 3 месяца назад

    No entendí ni vergas

  • @user-ly5ev6hx8e
    @user-ly5ev6hx8e Год назад

    La ia arruinado los trabajos, como siempre,

  • @menillasotelo
    @menillasotelo 8 месяцев назад

    jajaaja es que tu pronunciación en ingles es mala

  • @EliGarcia.
    @EliGarcia. 4 месяца назад

    He realizado las instalación desde pip, siguiendo los pasos que indica el repositorio. Pense que seria un proceso mas ligero, pero me consume 4gb de ram y un 40% del cpu en un core i7 4790, corriendo a 4ghz. No se si me han troleado pero en pantalla veo las siguientes lineas
    [00:00.000 --> 00:07.400] amigos. Bueno, buenos días.
    [00:30.000 --> 00:49.200] Jóvenes, ustedes dicen
    [00:49.200 --> 01:02.940] Price
    [01:02.960 --> 01:07.140] en los ninotos.
    [01:19.200 --> 01:21.200] Gracias por ver el vídeo.
    [01:21.200 --> 01:23.200] Suscríbete al canal.
    [01:49.200 --> 01:51.200] Suscríbete al canal.
    [02:19.200 --> 02:21.200] Suscríbete al canal.
    [02:50.200 --> 02:52.200] Suscríbete al canal.
    [02:52.200 --> 02:53.200] Suscríbete al canal.
    [03:19.200 --> 03:21.200] Suscríbete al canal.
    [03:49.200 --> 03:51.200] Suscríbete al canal.
    [04:19.200 --> 04:21.200] Suscríbete al canal.
    [04:49.200 --> 04:51.200] Suscríbete al canal.
    ¿Suscríbete al canal? ¿Es normal?

    • @makigas
      @makigas  4 месяца назад

      ¿Que repita una frase? Me está pasando también desde hace un tiempo en algunos vídeos y aún no se por qué. Me tranquiliza ver que no solo lo hace conmigo.

    • @EliGarcia.
      @EliGarcia. 4 месяца назад

      @@makigas Como bien comentas, me tranquilza saber que no es un caso particular, probablemente sea un bug recurrente y pronto salga alguna actualización. Para agregar contexto, estoy usando una maquina con Fedora 40 y el bug aparecio con el modelo medium. He decidio probar con el modelo tiny, pero la semantica es algo rara aunque el proceso como era de esperarse muy veloz en comparación con medium. Saludos 👋 y gracias