Python Импорт данных №5. Импорт таблиц из PDF (расширенная версия)

Поделиться
HTML-код
  • Опубликовано: 22 янв 2025

Комментарии • 14

  • @comrade_excel
    @comrade_excel  2 года назад

    Файлы для спонсоров Boosty: boosty.to/comrade-xl/posts/0031291f-9b4a-4b34-9d8f-b8c9a1fb8289?share=post_link
    Файлы для спонсоров ВК: vk.com/comrade.excel?w=wall-185123800_471
    Файлы для спонсоров RUclips: ruclips.net/user/postUgzyAW2wyN1_wOHruit4AaABCQ
    Индивидуальное обучение: comrade-xl.ru/pq-training/
    Страница: comrade-xl.ru/2021/03/04/py-import-pdf/

  • @nbuhblhfrjy
    @nbuhblhfrjy 3 года назад +1

    Спасибо! 👍

  • @nice-b2i
    @nice-b2i 3 года назад

    Спасибо огромное!

  • @artemovtsyn8540
    @artemovtsyn8540 Год назад

    Тимур здравствуйте. Почему-то у меня не выводит список файлов pfd., куда их нужно положить? Если я прописываю пусть свой к какой-то папке, то на третьем шаге у меня
    возникает ошибка, не подскажете что я делаю не так?
    JVMNotFoundException Traceback (most recent call last)
    Cell In[11], line 1
    ----> 1 pdf_tables = tabula.read_pdf(pdf_files[0],
    2 pages = 'all',
    3 multiple_tables = True)
    File C:\ProgramData\anaconda3\Lib\site-packages\tabula\io.py:442, in read_pdf(input_path, output_format, encoding, java_options, pandas_options, multiple_tables, user_agent, use_raw_url, pages, guess, area, relative_area, lattice, stream, password, silent, columns, relative_columns, format, batch, output_path, options)
    439 raise ValueError(f"{path} is empty. Check the file, or download it manually.")
    441 try:
    --> 442 output = _run(java_options, tabula_options, path)
    443 finally:
    444 if temporary:
    File C:\ProgramData\anaconda3\Lib\site-packages\tabula\io.py:76, in _run(java_options, options, path)
    74 global _tabula_vm
    75 if not _tabula_vm:
    ---> 76 _tabula_vm = TabulaVm(java_options, options.silent)
    77 elif set(java_options) - IGNORED_JAVA_OPTIONS:
    78 logger.warning("java_options is ignored until rebooting the Python process.")
    File C:\ProgramData\anaconda3\Lib\site-packages\tabula\io.py:99, in TabulaVm.__init__(self, java_options, silent)
    90 if silent:
    91 java_options.extend(
    92 (
    93 "-Dorg.slf4j.simpleLogger.defaultLogLevel=off",
    (...)
    96 )
    97 )
    ---> 99 jpype.startJVM(*java_options, convertStrings=False)
    101 from java import lang
    102 from org.apache.commons import cli
    File C:\ProgramData\anaconda3\Lib\site-packages\jpype\_core.py:184, in startJVM(*args, **kwargs)
    182 jvmpath = kwargs.pop('jvmpath')
    183 if not jvmpath:
    --> 184 jvmpath = getDefaultJVMPath()
    186 # Classpath handling
    187 if _hasClassPath(args):
    188 # Old style, specified in the arguments
    File C:\ProgramData\anaconda3\Lib\site-packages\jpype\_jvmfinder.py:74, in getDefaultJVMPath()
    72 else:
    73 finder = LinuxJVMFinder()
    ---> 74 return finder.get_jvm_path()
    File C:\ProgramData\anaconda3\Lib\site-packages\jpype\_jvmfinder.py:212, in JVMFinder.get_jvm_path(self)
    210 if jvm_notsupport_ext is not None:
    211 raise jvm_notsupport_ext
    --> 212 raise JVMNotFoundException("No JVM shared library file ({0}) "
    213 "found. Try setting up the JAVA_HOME "
    214 "environment variable properly."
    215 .format(self._libfile))
    JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.

  • @ГерманРыков-ъ6в
    @ГерманРыков-ъ6в 2 года назад

    Тимур здравствуйте. Еще раз от себя и от всех обучающихся хочу Вас поблагодарить за Ваш уникальный канал и Ваши уроки! Прошу Вас рассмотреть возможность дополнить данное видео доп средством, а именно библиотекой dask. Дело в том, что при работе с pdf мы получаем очень "тяжелые" файлы (а папка с pdf-ками может весить и под несколько гигов) бибиотека dask дает автоматизированное распределение по чанкам и тем самым берегёт ресурс компа. Однако моего понимания не хватает для "донастройки" dask и встраивание ее в Ваше решение. Думаю в итоге может получится универсальное решение для решения рабочих задач. Или же прошу Вас предусмотреть в цикле "задержки" которые помогут не загнать компьютер до перезагрузки. На Ваше решение.

  • @excel-vba-learn
    @excel-vba-learn 3 года назад

    Здравствуйте, где взять ссыль на файлы, везде все просмотрел, нет нигде(((

    • @comrade_excel
      @comrade_excel  3 года назад

      Здравствуйте! На влкадке Сообщества
      ruclips.net/user/postUgyZV8als_n--njgV8J4AaABCQ

  • @El_Mysterio
    @El_Mysterio 3 года назад

    Я же вроде спонсор - почему не вижу файлы к уроку?

    • @comrade_excel
      @comrade_excel  3 года назад

      Вам теперь видны скрытые посты на вкладке сообщества ruclips.net/channel/UCwAru3vDmH-IdYtwK7JWN4wcommunity

  • @ДмитрийТруфанов-м2с

    Добрый день. А можно ли ссылку на архив с файлами прикреплять к посту?

    • @comrade_excel
      @comrade_excel  3 года назад +1

      ОК. Со следующего раза так и сделаю.

  • @Velant1
    @Velant1 3 года назад

    Добрый день. А где файлы можно скачать?

    • @comrade_excel
      @comrade_excel  3 года назад

      ruclips.net/user/postUgyBLhUzjCE54oAkfNJ4AaABCQ

  • @ДмитрийТруфанов-м2с

    Жать, что нет универсального метода) В моих рабочих pdf часть столбцов распознается как одна ячейка и из-за этого с 3 строки происходит смещение данных относительно заголовков столбцов влево.