| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 1848 人关注过本帖
标题:Java怎么样读取pdf文件里面的内容
只看楼主 加入收藏
shaojinkuang
Rank: 1
等 级:新手上路
帖 子:8
专家分:0
注 册:2008-6-9
结帖率:50%
收藏
 问题点数:0 回复次数:2 
Java怎么样读取pdf文件里面的内容
用java怎样读取pdf格式里面 的内容
搜索更多相关主题的帖子: pdf Java 文件 
2009-08-31 18:55
lampeter123
Rank: 16Rank: 16Rank: 16Rank: 16
等 级:版主
威 望:54
帖 子:2508
专家分:6424
注 册:2009-1-30
收藏
得分:0 
抽取支持中文的pdf文件-xpdf
xpdf是一个开源项目,我们可以调用他的本地方法来实现抽取中文pdf文件。
下载xpdf函数包: http://www.
同时需要下载支持中文的补丁包,按照readme放好中文的patch,就可以开始写调用本地方法的java程序了。
下面是一个如何调用的例子:

import *;

public class PdfWin {
    public PdfWin() {
    }

    public static void main(String args[]) throws Exception {
        String PATH_TO_XPDF = "D:\\Private file\\xpdf-3.\\xpdf-3.02pl3-win32\\pdftotext.exe"; //XPDF文件的解压路径
        String filename = "D:\\test.pdf";  //要读取的pdf文件
        String[] cmd = new String[] { PATH_TO_XPDF, "-enc", "UTF-8", "-q",
                filename, "-" };
        Process p = Runtime.getRuntime().exec(cmd);
        BufferedInputStream bis = new BufferedInputStream(p.getInputStream());
        InputStreamReader reader = new InputStreamReader(bis, "UTF-8");
        StringWriter out = new StringWriter();
        char[] buf = new char[10000];
        int len;
        while ((len = reader.read(buf)) >= 0) {
            // out.write(buf, 0, len);
            System.out.println("the length is " + len);
        }
        reader.close();
        String ts = new String(buf);
        System.out.println("the str is " + ts);
    }
}

你的优秀和我的人生无关!!!!
    
    我要过的,是属于我自己的生活~~~
2009-09-03 09:31
shaojinkuang
Rank: 1
等 级:新手上路
帖 子:8
专家分:0
注 册:2008-6-9
收藏
得分:0 
谢谢
2011-03-22 13:44
快速回复:Java怎么样读取pdf文件里面的内容
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.016747 second(s), 7 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved