這是PDFBox jar包下載,是一個開源的用于處理PDF文檔的 Java工具,支持各種語言和平臺的PDF工具和類庫就如雨后春筍般涌現(xiàn)。PDFBox 提取文本,包括Unicode字符。PDFBox和Jakarta Lucene等文本搜索引擎的整合過程十分簡單。加密/解密PDF文檔。PDFBox從PDF和XFDF格式中導入或?qū)С霰韱螖?shù)據(jù)。向已有PDF文檔中追加內(nèi)容。將一個PDF文檔切分為多個文檔。
PDFBox jar包全稱Portable Document Format,是Adobe公司開發(fā)的電子文件格式。這種文件格式與操作系統(tǒng)平臺無關(guān),可以在Windows、Unix或Mac OS等操作系統(tǒng)上通用。
PDF文件格式將文字、字型、格式、顏色及獨立于設(shè)備和分辨率的圖形圖像等封裝在一個文件中。如果要抽取其中的文本信息,需要根據(jù)它的文件格式來進行解析。幸好目前已經(jīng)有不少工具能幫助我們做這些事情。
1、文本提。簭腜DF文檔中提取文本。
2、合并&分割:可以把多個PDF文檔合并成單個,也可以把單個PDF分拆成多個PDF文檔。
3、表單填充:可以從PDF表單中提取數(shù)據(jù),或者是填充PDF表單。
4、PDF/A驗證:驗證PDF文檔是否滿足PDF/A ISO標準。
5、PDF打印:把PDF文檔輸出到打印機——利用了Java的打印API。
6、PDF轉(zhuǎn)換:可以把PDF文檔轉(zhuǎn)換成映像文件。
7、PDF創(chuàng)建:可以從頭創(chuàng)建新的PDF文檔。
8、集成Lucene搜索引擎:Lucene搜索引擎與PDF索引相集成。
PDFBox(一個BSD許可下的源碼開放項目)是一個開源的用于處理PDF文檔的 Java工具,支持各種語言和平臺的PDF工具和類庫就如雨后春筍般涌現(xiàn)。PDFBox 提取文本,包括Unicode字符。PDFBox和Jakarta Lucene等文本搜索引擎的整合過程十分簡單。加密/解密PDF文檔。PDFBox從PDF和XFDF格式中導入或?qū)С霰韱螖?shù)據(jù)。向已有PDF文檔中追加內(nèi)容。將一個PDF文檔切分為多個文檔。