使用tesseract可以给扫描的PDF文件增加搜索功能。
首先使用ImageMagick工具集里的convert将PDF文件转为图片,然后用tesseract做OCR即可。
$ convert -type Bilevel -density 300x300 Epson.pdf Editing.tif $ tesseract Editing.tif Editing pdf
效果如下:
实际上,我只想要右边的页面,这时可以使用unpaper分页。
$ convert -type Bilevel -density 300x300 Epson.pdf Editing.pbm $ unpaper --overwrite -op 2 --layout double --dpi 300 \ --post-size letter Editing.pbm Editing%0d.pbm Processing sheet #1: Editing.pbm -> Editing1.pbm, Editing2.pbm $ tesseract Editing2.pbm Editing2 pdf
下面的视频演示了以上两种方法和效果。