Extrae los datos de tus facturas a JSON usando IA - Video 2 de 2 - Código ya disponible!

La Hora Maker

Просмотров 4,2 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 27 окт 2024

Комментарии • 31

@MartinOFable Месяц назад
Perfecto, supongo que funciona bien, no tengo experiencia en py.. a mi me paso que uno de los modelos no lo descargo completo y desde ahi no anda el de leer las facturas no se como eliminar le cache de los modelos , pero el de analizar, anda de 10!!!! Excelente!
@piezoelectric627 3 месяца назад
Hola Maestro, veo su video y me doy cuenta de que hice algo muy similar en paralelo. Yo uso un sistema multiple para ir obteniendo con python diferentes datos y diferentes métodos. En total por factura con una 3070, usando llama, lava y un poco de python puro, tarda como 2 minutos por factura y logra sacar un 80% de los datos de cualquier factura. Me gusta el método que propone, lo voy a integrar en mi sistema para ver si logra subir la cantidad de datos. Saludos
@LaHoraMaker 3 месяца назад ⁺¹
Gracias por compartir tu experiencia con otras soluciones! Espero que podamos probar más variantes para extraer información y procesarla de forma eficiente.
@franciscobojorquez6415 3 месяца назад ⁺¹
Buen material maquina, gracias por compartir
@milovanmarrder668 3 месяца назад ⁺¹
Este es exactamente la idea de mi actual proyecto personal. Trabajo en el área de contabilidad y el proceso de registro de facturas es uno de los más tediosos. Pues que inicie el 15 de junio a crear un "Procesador de facturas" donde tengo las facturas escaneadas en pdf y las leo con OCR. luego utilizo spacy para etiquetar el texto extraido muchos salen simplemente con regex.
Bueno, actualmente estoy en esa fase, intentando mejorar la precisión. Pero viendo tu proyecto definitivamente contribuyes mucho!. Que buena idea la de generar una vidualizacion de la factura junto a un formulario que nos ayude a complementar la informacion. Eso es un UX que definitivamente lo incluiré. También quiero probar marker para saber si tiene mejor precisión que spacy.
En mi caso, el resultado lo trabajo con pandas ya que con el dataframe generaré una plantilla para cargarla en el ERP.
No soy muy conocedor de este mundo, de hecho estudié administración de empresas, por lo que si tienes algún consejo sobre que me ayudaría conocer para mejorarlo, pues te lo agradecería infinitamente. Muchas gracias por compartir, me has brindado un empujón.
@vitaminservice_ 3 месяца назад ⁺¹
Un pdf escaneado? Eso es una imagen por lo que no es lo mismo no? Edito: he leido que luego le pasas el ocr. Y digo yo, no tienes los pdf de “verdad”?
@vitaminservice_ 3 месяца назад ⁺¹
Yo justamente estoy pensando en lo mismo para los contables de la empresa. Un flujo que guarde las facturas en pdf recibidas por email en las carpetas correspondientes clasificadas por proveedor, trimestre…, después convertirlas a json y finalmente crear un asiento predefinido para importar a en este caso contabilidad A3.
@milovanmarrder668 3 месяца назад
@@vitaminservice_ No. En nuestro país no es común. Bueno, no sé si en los demás si lo será. Vivo en Honduras (Centroamérica). El flujo actual es recibir la factura en físico y luego se escanea. Pero siempre entregan las facturas en físico, nunca digital.
@vitaminservice_ 3 месяца назад
@@milovanmarrder668ahh. En España es raro lo del papel ahora. Un abrazo
@LaHoraMaker 3 месяца назад ⁺²
Suena muy interesante! Ahora mismo hay muchas soluciones para extraer información visualmente como Florence-2. Espero poder probarlo pronto en el canal y ver si puede simplificar el proceso y/o mejorar los resultados!
@nyambe 3 месяца назад
Interesante, le echaré un vistazo
@josemanuelgalvan1893 3 месяца назад
muchas gracias por los videos
@SonGoku-pc7jl 3 месяца назад
muchas gracias!
@ceciliocannavacciuolo8551 Месяц назад ⁺¹
Muchas Gracias por el video. Podrias mostrar como restringir el output del modelo a un formato JSON en especifico. Estoy pensando en integrarlo LLama con un servicio REST y necesito que de responda en un JSON estructurado rellenando solo los datos que necesito. Muchas Gracias
@LaHoraMaker Месяц назад
Hola Cecilio, hay algunas librerías específicas para ayudar a estructurar la salida de los JSON. Dos de las más populares son Outlines (github.com/outlines-dev/outlines )
@walterrodriguez2696 3 месяца назад
Muchas gracias por el video muy interesante!. Una consulta sobre Claude, asumo que tienes la versión pro de Claude,y mi duda es si en algún momento te dice que has superado la cantidad de mensajes? Por lo que había leído en la documentación de Anthropic, con cada pregunta que le hacemos toma todo el chat como contexto y eso cuenta para las interacciones totales.
Saludos y felicitaciones por el canal, todo es de gran utilidad
@katafrakto 3 месяца назад ⁺¹
Muchas gracias por compartir, lo acabo instalar y correr sin problemas (linux), me ha parseado las facturas y las tengo en jsonl, mi duda es qué hacer a continuación, ¿como uso el .jsonl y para que me sirve? Creo que me estoy perdiendo algo... Por cierto, la librería uv funciona genial, acelera la instalación una barbaridad, me ha encantado.
@LaHoraMaker 3 месяца назад
Justo acabo de subir una actualización (con su video correspondiente) para analizar el fichero JSONL, convertirlo en CSV, etc. Dale un vistazo a ver qué tal te funciona!
@jorgealcaideguindo5131 Месяц назад
Hola, gracias por tu trabajo, lo he instalado y todo bien, sin embargo al procesar el .pdf obtengo el error "PermissionError: [WinError 32] El proceso no tiene acceso al archivo porque está siendo utilizado por otro proceso: 'C:\\Users\\ADMINI~1\\AppData\\Local\\Temp\\4\\tmpd1vu63_c.pdf'". Seguro que es un error de novato. Podeis ayudarme?
@jorgealcaideguindo5131 Месяц назад
Auto-resuelto: He puesto un try-except en la linea os.unlink(tmp_file_path)
@colommbiano 3 месяца назад
Maestro se puede hacer esto mismo usando JavaScript?
@franciscobojorquez6415 3 месяца назад
Copie el repo en mi local pero al ejecutar el proyecto me esta tirando este error: ImportError: cannot import name 'segformer' from 'surya.model.detection' (unknown location), alguna idea? en el repositorio de surya veo que el archivo segormer.py ya no existe :(
@CarlosMansillaC 21 день назад
Buen video, Lo probe y llegue hasta la parte de carga la factura, pero siempre se traba en una parte porque el pdf que se crea se forma temporal en appData/local/temp, me indica que esta siendo usado por otro proceso y se cuelga ah, no se que podria realizar mas
@CarlosMansillaC 21 день назад
Comente esta parte porque no podia cerrar el pdf porque por alguna razon esta siendo utilizado: #os.unlink(tmp_file_path), luego avanzo otro tanto mas, pero se colgo en una funcion de convertir el pdf a imagen
@CarlosMansillaC 21 день назад
Este es el error que obtengo:
pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?
@juliannevardomarinmarin8561 2 месяца назад
Ya no funciona ? veo la version diferente...
@LaHoraMaker 2 месяца назад
Hola Julian, no ha habido ningun cambio en el repositorio desde el último mes. ¿Te está dando algún error en concreto?
@juliannevardomarinmarin8561 2 месяца назад
@@LaHoraMaker OSError: [WinError 126] No se puede encontrar el módulo especificado. Error loading "C:\FACTURAS2\facturas2json\.venv\Lib\site-packages\torch\lib\fbgemm.dll" or one of its dependencies. ...Al parecer no esta importando torch debidamente. que debo hacer ? ya instale y desinstale
@LV-cn9bx 2 месяца назад ⁺¹
Lo siento. Siento no estar de acuerdo, pero me parece un perdida de tiempo esta app si tienes que editar los campos que no supo recoger. En fin esto de la moda de los LLM me parece que se a pegar un castañazo importante.
@LaHoraMaker Месяц назад ⁺¹
Muchas gracias por la aportación. La validación humana de datos contables suele ser bastante habitual en este tipo de soluciones, tanto si utilizan OCR como modelos de visión. Pueden establecerse umbrales de confianza para tomar decisiones al respecto también.
En cualquier caso, lo importante es evaluar el rendimiento de los distintos modelos, para determinar el grado de acierto o fallo de estos modelos y así decidir si merece la pena utilizarlos frente a otros modos de captura de esta información.

Следующие

Автовоспроизведение

Qué equipo necesito para generar textos rápidamente en local con Llama-2, Mistral, etc.