Java怎么样读取pdf文件里面的内容
用java怎样读取pdf格式里面 的内容
抽取支持中文的pdf文件-xpdf
xpdf是一个开源项目,我们可以调用他的本地方法来实现抽取中文pdf文件。
下载xpdf函数包: http://www.
同时需要下载支持中文的补丁包,按照readme放好中文的patch,就可以开始写调用本地方法的java程序了。
下面是一个如何调用的例子:
import *;
public class PdfWin {
public PdfWin() {
}
public static void main(String args[]) throws Exception {
String PATH_TO_XPDF = "D:\\Private file\\xpdf-3.\\xpdf-3.02pl3-win32\\pdftotext.exe"; //XPDF文件的解压路径
String filename = "D:\\test.pdf"; //要读取的pdf文件
String[] cmd = new String[] { PATH_TO_XPDF, "-enc", "UTF-8", "-q",
filename, "-" };
Process p = Runtime.getRuntime().exec(cmd);
BufferedInputStream bis = new BufferedInputStream(p.getInputStream());
InputStreamReader reader = new InputStreamReader(bis, "UTF-8");
StringWriter out = new StringWriter();
char[] buf = new char[10000];
int len;
while ((len = reader.read(buf)) >= 0) {
// out.write(buf, 0, len);
System.out.println("the length is " + len);
}
reader.close();
String ts = new String(buf);
System.out.println("the str is " + ts);
}
}