在c#中如何从pdf中提取文字内容
在c#中有什么办法提取pdf文件中的文字内容?[[it] 本帖最后由 brave2 于 2008-6-1 22:22 编辑 [/it]]
using System.Text; using System.Xml; using Spire.Pdf; namespace _test { class Program { static void Main(string[] args) { PdfDocument doc = new PdfDocument(); //加载PDF文档 doc.LoadFromFile("D:\\test.pdf"); StringBuilder content = new StringBuilder(); //提取PDF所有页的文本 foreach (PdfPageBase page in doc.Pages) { content.Append(page.ExtractText()); } String fileName = "D:\\获取文本.txt"; File.WriteAllText(fileName, content.ToString()); } } }