搜索扫描版PDF文件

使用tesseract可以给扫描的PDF文件增加搜索功能。

首先使用ImageMagick工具集里的convert将PDF文件转为图片,然后用tesseract做OCR即可。

$ convert -type Bilevel -density 300x300 Epson.pdf Editing.tif
$ tesseract Editing.tif Editing pdf

效果如下:

点击看大图

实际上,我只想要右边的页面,这时可以使用unpaper分页。

$ convert -type Bilevel -density 300x300 Epson.pdf Editing.pbm
$ unpaper --overwrite -op 2 --layout double --dpi 300 \
    --post-size letter Editing.pbm Editing%0d.pbm
Processing sheet #1: Editing.pbm -> Editing1.pbm, Editing2.pbm
$ tesseract Editing2.pbm Editing2 pdf

点击看大图

下面的视频演示了以上两种方法和效果。

 

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据