Тимур здравствуйте. Почему-то у меня не выводит список файлов pfd., куда их нужно положить? Если я прописываю пусть свой к какой-то папке, то на третьем шаге у меня возникает ошибка, не подскажете что я делаю не так? JVMNotFoundException Traceback (most recent call last) Cell In[11], line 1 ----> 1 pdf_tables = tabula.read_pdf(pdf_files[0], 2 pages = 'all', 3 multiple_tables = True) File C:\ProgramData\anaconda3\Lib\site-packages\tabula\io.py:442, in read_pdf(input_path, output_format, encoding, java_options, pandas_options, multiple_tables, user_agent, use_raw_url, pages, guess, area, relative_area, lattice, stream, password, silent, columns, relative_columns, format, batch, output_path, options) 439 raise ValueError(f"{path} is empty. Check the file, or download it manually.") 441 try: --> 442 output = _run(java_options, tabula_options, path) 443 finally: 444 if temporary: File C:\ProgramData\anaconda3\Lib\site-packages\tabula\io.py:76, in _run(java_options, options, path) 74 global _tabula_vm 75 if not _tabula_vm: ---> 76 _tabula_vm = TabulaVm(java_options, options.silent) 77 elif set(java_options) - IGNORED_JAVA_OPTIONS: 78 logger.warning("java_options is ignored until rebooting the Python process.") File C:\ProgramData\anaconda3\Lib\site-packages\tabula\io.py:99, in TabulaVm.__init__(self, java_options, silent) 90 if silent: 91 java_options.extend( 92 ( 93 "-Dorg.slf4j.simpleLogger.defaultLogLevel=off", (...) 96 ) 97 ) ---> 99 jpype.startJVM(*java_options, convertStrings=False) 101 from java import lang 102 from org.apache.commons import cli File C:\ProgramData\anaconda3\Lib\site-packages\jpype\_core.py:184, in startJVM(*args, **kwargs) 182 jvmpath = kwargs.pop('jvmpath') 183 if not jvmpath: --> 184 jvmpath = getDefaultJVMPath() 186 # Classpath handling 187 if _hasClassPath(args): 188 # Old style, specified in the arguments File C:\ProgramData\anaconda3\Lib\site-packages\jpype\_jvmfinder.py:74, in getDefaultJVMPath() 72 else: 73 finder = LinuxJVMFinder() ---> 74 return finder.get_jvm_path() File C:\ProgramData\anaconda3\Lib\site-packages\jpype\_jvmfinder.py:212, in JVMFinder.get_jvm_path(self) 210 if jvm_notsupport_ext is not None: 211 raise jvm_notsupport_ext --> 212 raise JVMNotFoundException("No JVM shared library file ({0}) " 213 "found. Try setting up the JAVA_HOME " 214 "environment variable properly." 215 .format(self._libfile)) JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.
Тимур здравствуйте. Еще раз от себя и от всех обучающихся хочу Вас поблагодарить за Ваш уникальный канал и Ваши уроки! Прошу Вас рассмотреть возможность дополнить данное видео доп средством, а именно библиотекой dask. Дело в том, что при работе с pdf мы получаем очень "тяжелые" файлы (а папка с pdf-ками может весить и под несколько гигов) бибиотека dask дает автоматизированное распределение по чанкам и тем самым берегёт ресурс компа. Однако моего понимания не хватает для "донастройки" dask и встраивание ее в Ваше решение. Думаю в итоге может получится универсальное решение для решения рабочих задач. Или же прошу Вас предусмотреть в цикле "задержки" которые помогут не загнать компьютер до перезагрузки. На Ваше решение.
Жать, что нет универсального метода) В моих рабочих pdf часть столбцов распознается как одна ячейка и из-за этого с 3 строки происходит смещение данных относительно заголовков столбцов влево.
Файлы для спонсоров Boosty: boosty.to/comrade-xl/posts/0031291f-9b4a-4b34-9d8f-b8c9a1fb8289?share=post_link
Файлы для спонсоров ВК: vk.com/comrade.excel?w=wall-185123800_471
Файлы для спонсоров RUclips: ruclips.net/user/postUgzyAW2wyN1_wOHruit4AaABCQ
Индивидуальное обучение: comrade-xl.ru/pq-training/
Страница: comrade-xl.ru/2021/03/04/py-import-pdf/
Спасибо! 👍
Спасибо огромное!
Тимур здравствуйте. Почему-то у меня не выводит список файлов pfd., куда их нужно положить? Если я прописываю пусть свой к какой-то папке, то на третьем шаге у меня
возникает ошибка, не подскажете что я делаю не так?
JVMNotFoundException Traceback (most recent call last)
Cell In[11], line 1
----> 1 pdf_tables = tabula.read_pdf(pdf_files[0],
2 pages = 'all',
3 multiple_tables = True)
File C:\ProgramData\anaconda3\Lib\site-packages\tabula\io.py:442, in read_pdf(input_path, output_format, encoding, java_options, pandas_options, multiple_tables, user_agent, use_raw_url, pages, guess, area, relative_area, lattice, stream, password, silent, columns, relative_columns, format, batch, output_path, options)
439 raise ValueError(f"{path} is empty. Check the file, or download it manually.")
441 try:
--> 442 output = _run(java_options, tabula_options, path)
443 finally:
444 if temporary:
File C:\ProgramData\anaconda3\Lib\site-packages\tabula\io.py:76, in _run(java_options, options, path)
74 global _tabula_vm
75 if not _tabula_vm:
---> 76 _tabula_vm = TabulaVm(java_options, options.silent)
77 elif set(java_options) - IGNORED_JAVA_OPTIONS:
78 logger.warning("java_options is ignored until rebooting the Python process.")
File C:\ProgramData\anaconda3\Lib\site-packages\tabula\io.py:99, in TabulaVm.__init__(self, java_options, silent)
90 if silent:
91 java_options.extend(
92 (
93 "-Dorg.slf4j.simpleLogger.defaultLogLevel=off",
(...)
96 )
97 )
---> 99 jpype.startJVM(*java_options, convertStrings=False)
101 from java import lang
102 from org.apache.commons import cli
File C:\ProgramData\anaconda3\Lib\site-packages\jpype\_core.py:184, in startJVM(*args, **kwargs)
182 jvmpath = kwargs.pop('jvmpath')
183 if not jvmpath:
--> 184 jvmpath = getDefaultJVMPath()
186 # Classpath handling
187 if _hasClassPath(args):
188 # Old style, specified in the arguments
File C:\ProgramData\anaconda3\Lib\site-packages\jpype\_jvmfinder.py:74, in getDefaultJVMPath()
72 else:
73 finder = LinuxJVMFinder()
---> 74 return finder.get_jvm_path()
File C:\ProgramData\anaconda3\Lib\site-packages\jpype\_jvmfinder.py:212, in JVMFinder.get_jvm_path(self)
210 if jvm_notsupport_ext is not None:
211 raise jvm_notsupport_ext
--> 212 raise JVMNotFoundException("No JVM shared library file ({0}) "
213 "found. Try setting up the JAVA_HOME "
214 "environment variable properly."
215 .format(self._libfile))
JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.
Тимур здравствуйте. Еще раз от себя и от всех обучающихся хочу Вас поблагодарить за Ваш уникальный канал и Ваши уроки! Прошу Вас рассмотреть возможность дополнить данное видео доп средством, а именно библиотекой dask. Дело в том, что при работе с pdf мы получаем очень "тяжелые" файлы (а папка с pdf-ками может весить и под несколько гигов) бибиотека dask дает автоматизированное распределение по чанкам и тем самым берегёт ресурс компа. Однако моего понимания не хватает для "донастройки" dask и встраивание ее в Ваше решение. Думаю в итоге может получится универсальное решение для решения рабочих задач. Или же прошу Вас предусмотреть в цикле "задержки" которые помогут не загнать компьютер до перезагрузки. На Ваше решение.
Здравствуйте, где взять ссыль на файлы, везде все просмотрел, нет нигде(((
Здравствуйте! На влкадке Сообщества
ruclips.net/user/postUgyZV8als_n--njgV8J4AaABCQ
Я же вроде спонсор - почему не вижу файлы к уроку?
Вам теперь видны скрытые посты на вкладке сообщества ruclips.net/channel/UCwAru3vDmH-IdYtwK7JWN4wcommunity
Добрый день. А можно ли ссылку на архив с файлами прикреплять к посту?
ОК. Со следующего раза так и сделаю.
Добрый день. А где файлы можно скачать?
ruclips.net/user/postUgyBLhUzjCE54oAkfNJ4AaABCQ
Жать, что нет универсального метода) В моих рабочих pdf часть столбцов распознается как одна ячейка и из-за этого с 3 строки происходит смещение данных относительно заголовков столбцов влево.