【求助】我想用java读取Word 和pdf的文件
【问题】网上看大都说用tm-extractors-0.4.jar包 ,此包已下,但我不知道放在那里才能用。我读取Word文件的代码如下:
import
import
import org.textmining.text.extraction.WordExtractor;//这个说软件包不存在
public class WordReader {
public static String readDoc(String doc) throws Exception {
// 创建输入流读取doc文件
FileInputStream in = new FileInputStream(new File(doc));
WordExtractor extractor = null;//红字为NetBeans 提示找不到符号
String text = null;
// 创建WordExtractor
extractor = new WordExtractor();
// 对doc文件进行提取
text = extractor.extractText(in);
return text;
}
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
try{
String text = WordReader.readDoc("C://abc.doc");
System.out.println(text);
}catch(Exception ex){
ex.printStackTrace();
}
}
}