pdftotext是一个将PDF文件转换成文本文件的命令行工具。使用方法非常简单:
$ pdftotext a.pdf a.txt
pdftotext还提供了几个选项,来微调转换过程。如:
-nopgbrk- 去掉换页符
-enc <string>- 指定输出文件的编码
-eol <string>- 指定换行符,可以是
unix,dos,或mac
我的手机E398只能看文本文件,不能看PDF,所以我用pdftotext转换了几个文件,命令行如下:
$ pdftotext -nopgbrk -enc Latin1 -eol dos a.pdf a.txt
这几个文件都是英文的,虽然pdftotext手册上说缺省的输出编码是Latin1,但在我的Fedora 7上却是unicode,到了E398上出现很多乱码,所以显示指定了编码。至于换行符,我猜moto-txt是用的dos,所以也指定了一下。
更多编码可以在/usr/share/poppler/unicodeMap/目录(以Fedora 7为例)下找到,中文可以使用GBK。






好像不可以转换中文pdf哦,你可以吗,
请告诉我好吗,QQ806841300