OCR

使用tesseract可以给扫描的PDF文件增加搜索功能。

首先使用ImageMagick工具集里的convert将PDF文件转为图片，然后用tesseract做OCR即可。

$ convert -type Bilevel -density 300x300 Epson.pdf Editing.tif
$ tesseract Editing.tif Editing pdf

效果如下：

点击看大图

实际上，我只想要右边的页面，这时可以使用unpaper分页。

$ convert -type Bilevel -density 300x300 Epson.pdf Editing.pbm
$ unpaper --overwrite -op 2 --layout double --dpi 300 \
    --post-size letter Editing.pbm Editing%0d.pbm
Processing sheet #1: Editing.pbm -> Editing1.pbm, Editing2.pbm
$ tesseract Editing2.pbm Editing2 pdf

点击看大图

下面的视频演示了以上两种方法和效果。

懒惰的程序员

Widgets

Search

搜索扫描版PDF文件