Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
不知道有没有强大的pdf包可以准确的识别pdf中的“表格”数据,并转成excel格式。之所以在表格上打引号。是因为pdf当中有些表格并非结构数据。用pdf编辑器打开这些文档。发现这些数据时一个个文本框数据手工对齐的。(并不确定制作pdf时是否是录入的表格结构数据,然后在转成pdf格式时丢失了表格结构。)
可以使用 tabula-py 讀取 pdf 檔中的表格數據成 DataFrame,就可以再從 DataFrame 輸出成 csv 或 excel,範例程式可參考:pypi.org/project/tabula-py/ 。另外,tabula-py 也可以直接從 pdf 輸出成 csv(但無 excel)。之後我們也會將此實作示範製作成一集,敬請期待!
@@burgeoningcourse 期待这一集。相信有很多可以识别输出pdf中的表格的包或库。但是核心是识别的准确率。pdf表格真的是一言难尽。很多表格仅仅是对齐,并没有表格线。
@@peteralex6655 對,如果是沒有框線的表格,tabula-py 的辨識結果會出現部分錯誤(如:無標題、欄位合併等),這時候可以試看看加入參數 guess=False(關閉猜測表格區域),如果還是有錯,就只能較麻煩地使用 columns 參數自行設定每一欄分割的 x 座標,或是事後再自行整理表格資料。
@@burgeoningcourse 谢谢指教。请问有什么中文的python论坛或数据科学论坛推荐么?另,有什么英文的书评网站推荐么?(类似豆瓣那样)
@@peteralex6655 不好意思,目前沒有。
当文件是扫描形成的,不是Word中打印或导出形成的,无法识别,郁闷中
可以試看看OCR
很謝謝你們的分享,讓我獲益良多。希望能再看到你們更多的知識分享。另外,如果有機會是否能介紹 python Tesseract 的使用方法呢?
不知道有没有强大的pdf包可以准确的识别pdf中的“表格”数据,并转成excel格式。之所以在表格上打引号。是因为pdf当中有些表格并非结构数据。用pdf编辑器打开这些文档。发现这些数据时一个个文本框数据手工对齐的。(并不确定制作pdf时是否是录入的表格结构数据,然后在转成pdf格式时丢失了表格结构。)
可以使用 tabula-py 讀取 pdf 檔中的表格數據成 DataFrame,就可以再從 DataFrame 輸出成 csv 或 excel,範例程式可參考:pypi.org/project/tabula-py/ 。另外,tabula-py 也可以直接從 pdf 輸出成 csv(但無 excel)。之後我們也會將此實作示範製作成一集,敬請期待!
@@burgeoningcourse 期待这一集。相信有很多可以识别输出pdf中的表格的包或库。但是核心是识别的准确率。pdf表格真的是一言难尽。很多表格仅仅是对齐,并没有表格线。
@@peteralex6655 對,如果是沒有框線的表格,tabula-py 的辨識結果會出現部分錯誤(如:無標題、欄位合併等),這時候可以試看看加入參數 guess=False(關閉猜測表格區域),如果還是有錯,就只能較麻煩地使用 columns 參數自行設定每一欄分割的 x 座標,或是事後再自行整理表格資料。
@@burgeoningcourse 谢谢指教。请问有什么中文的python论坛或数据科学论坛推荐么?
另,有什么英文的书评网站推荐么?(类似豆瓣那样)
@@peteralex6655 不好意思,目前沒有。
当文件是扫描形成的,不是Word中打印或导出形成的,无法识别,郁闷中
可以試看看OCR
很謝謝你們的分享,讓我獲益良多。希望能再看到你們更多的知識分享。另外,如果有機會是否能介紹 python Tesseract 的使用方法呢?