概述原生Java文档分析器和转换器基于库/ Linux的文档转换器
我正在寻找一个Java库,可以做到以下几点:
以DOC,DOCX,JPEG,PNG,GIF,TXT,XLS,XLSX,PPT,pdf等types的附件parsing* .eml或* .msg格式的电子邮件,并将附件转换为TIFF格式。
它可以是开源或商业图书馆。 另外,我正在寻找命令行工具为linux做到这一点。 我们已经尝试了开放式办公,但是有些文档格式的问题太多了。
更新:
当PowerShell脚本更新时,Doxygen不会读取Doxyfile
现代的windows应用程序帮助系统
在linux服务器上创build和编辑MS-Word文档?
我怎样才能得到linux的手册页的C函数,而不是与bash命令的人?
试图find手册的参考,但不能
我到目前为止的研究发现:
对于parsing电子邮件和解压缩附件,JavaMail(http://www.oracle.com/technetwork/java/javamail/index.HTML)是一个不错的select。
为了转换文档,JodConverter(http://code.Google.com/p/jodconverter/)是一个舒适的库。 然而,它只是开放式办公的一个包装,所以如果开放式办公室存在问题(而且我经常遇到openoffice的麻烦)来转换文档,那么您也可以使用JodConcerter。
总之,我没有运气(到现在为止)find任何文件转换库在本地Java实现,它支持所有常见的文件格式,既不是开源的,甚至商业。 这似乎是一个真正的市场差距。
是否有一个标准化的语法为linux预测?
使用PHP linux将doc,docx,pdf转换为HTML
windows文件系统如何工作?
文件pipe理
如何从命令行使用libreOffice将.doc文件转换为.txt?
Rainbowpdf可能适合:它是一个基于Java API的商业服务器转换工具。
如果您有windows服务器,请查看NEEVIA document Converter Pro 。 它有一些邮件功能。
Apace POI是一个读取Microsoft Office文档内容的界面。 您将不得不自己编写图像生成和布局组件。 但它读取Outlook MSG格式。
Apache POI – Microsoft文档的Java API 。 不过,我不知道如何轻松地将解析的文档转换为TIFF。
可能是不同的方法混合可能是有用的? 根据您的要求,可以使用多个库来转换您需要管理的所有格式:Microsoft Office,Adobe pdf,一些不同的图像格式和简单的文本文件。
我的意思是,您可以创建一个进程,根据所提取文件的类型(使用Java Mail),可以识别文件的格式,并使用合适的库继续使用正确的转换机制进行处理。 然后,如果文件是要转换的图像,则可以尝试Java高级图像处理,如果是Microsoft Office文件,请尝试Apache POI等等。 为了管理pdf文件,您可以尝试Apache pdfBox这是另一个好的开源解决方案。
顺便说一句,如果你正在寻找的不仅是一个Java的方法,可能是这个线程可能会帮助你。
我不知道是否有比@ChrisGer评论更好的商业解决方案。
不要浪费你的时间来看待Apache POI,因为它只能解析Office文件的内容,但不适合呈现它。
既然有OpenOffice服务器可用,我建议你这样做。 我也知道你可以很容易地使用DCOM与Microsoft Office应用程序交谈,也许一个Java-> DCOM桥梁更多的任务。 但是,这甚至不被微软推荐(所以我认为JodConverter的东西同样不稳定)。
总结
以上是内存溢出为你收集整理的原生Java文档分析器和转换器基于库/ Linux的文档转换器全部内容,希望文章能够帮你解决原生Java文档分析器和转换器基于库/ Linux的文档转换器所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
请登录后查看评论内容