搜索扫描版PDF文件

使用tesseract可以给扫描的PDF文件增加搜索功能。

首先使用ImageMagick工具集里的convert将PDF文件转为图片,然后用tesseract做OCR即可。

$ convert -type Bilevel -density 300x300 Epson.pdf Editing.tif
$ tesseract Editing.tif Editing pdf

效果如下:

点击看大图

实际上,我只想要右边的页面,这时可以使用unpaper分页。

$ convert -type Bilevel -density 300x300 Epson.pdf Editing.pbm
$ unpaper --overwrite -op 2 --layout double --dpi 300 \
    --post-size letter Editing.pbm Editing%0d.pbm
Processing sheet #1: Editing.pbm -> Editing1.pbm, Editing2.pbm
$ tesseract Editing2.pbm Editing2 pdf

点击看大图

下面的视频演示了以上两种方法和效果。