Читаем, распознаем многостраничные PDF файлы, выбираем страницы которые содержат искомые слова
HTML-код
- Опубликовано: 27 авг 2024
- Ролик на английском: • Read/recognize PDF fil...
Анализируем исходный PDF файл, выбираем из него только те страницы, которые содержат заданные слова. Работаем с файлами, в которых данные в виде текста и в виде сканированных страниц. Скрипт на питоне, для распознавания используем Tesseract-OCR. Модули pikepdf, PyPDF2, pytesseract.
архив со скриптами из видео: drive.google.c...
сайт питон: www.python.org...
команда установки модуля "PyPDF2": pip install PyPDF2
документация модуля "PyPDF2": pypdf2.readthe...
команда установки модуля "pikepdf": pip install pikepdf
документация модуля "pikepdf": pikepdf.readth...
сайт "tesseract": github.com/UB-... (при установке выбрать нужные языки распознавания)
команда установки модуля "pytesseract": pip install pytesseract
git тессеракта: github.com/mad...
или установка всех модулей разом pip install pikepdf PyPDF2 pytesseract