Читаем, распознаем многостраничные PDF файлы, выбираем страницы которые содержат искомые слова

Поделиться
HTML-код
  • Опубликовано: 27 авг 2024
  • Ролик на английском: • Read/recognize PDF fil...
    Анализируем исходный PDF файл, выбираем из него только те страницы, которые содержат заданные слова. Работаем с файлами, в которых данные в виде текста и в виде сканированных страниц. Скрипт на питоне, для распознавания используем Tesseract-OCR. Модули pikepdf, PyPDF2, pytesseract.
    архив со скриптами из видео: drive.google.c...
    сайт питон: www.python.org...
    команда установки модуля "PyPDF2": pip install PyPDF2
    документация модуля "PyPDF2": pypdf2.readthe...
    команда установки модуля "pikepdf": pip install pikepdf
    документация модуля "pikepdf": pikepdf.readth...
    сайт "tesseract": github.com/UB-... (при установке выбрать нужные языки распознавания)
    команда установки модуля "pytesseract": pip install pytesseract
    git тессеракта: github.com/mad...
    или установка всех модулей разом pip install pikepdf PyPDF2 pytesseract

Комментарии •