原生Java文档分析器和转换器基于库 Linux的文档转换器【JAVA教程】

!
也想出现在这里? 联系我们
信息

原生Java文档分析器和转换器基于库 Linux的文档转换器,第1张

概述原生Java文档分析器和转换器基于库/ Linux的文档转换器

我正在寻找一个Java库,可以做到以下几点:

以DOC,DOCX,JPEG,PNG,GIF,TXT,XLS,XLSX,PPT,pdf等types的附件parsing* .eml或* .msg格式的电子邮件,并将附件转换为TIFF格式。

它可以是开源或商业图书馆。 另外,我正在寻找命令行工具为linux做到这一点。 我们已经尝试了开放式办公,但是有些文档格式的问题太多了。

更新:

当PowerShell脚本更新时,Doxygen不会读取Doxyfile

现代的windows应用程序帮助系统

在linux服务器上创build和编辑MS-Word文档?

我怎样才能得到linux的手册页的C函数,而不是与bash命令的人?

试图find手册的参考,但不能

我到目前为止的研究发现:

对于parsing电子邮件和解压缩附件,JavaMail(http://www.oracle.com/technetwork/java/javamail/index.HTML)是一个不错的select。

为了转换文档,JodConverter(http://code.Google.com/p/jodconverter/)是一个舒适的库。 然而,它只是开放式办公的一个包装,所以如果开放式办公室存在问题(而且我经常遇到openoffice的麻烦)来转换文档,那么您也可以使用JodConcerter。

总之,我没有运气(到现在为止)find任何文件转换库在本地Java实现,它支持所有常见的文件格式,既不是开源的,甚至商业。 这似乎是一个真正的市场差距。

是否有一个标准化的语法为linux预测?

使用PHP linux将doc,docx,pdf转换为HTML

windows文件系统如何工作?

文件pipe理

如何从命令行使用libreOffice将.doc文件转换为.txt?

Rainbowpdf可能适合:它是一个基于Java API的商业服务器转换工具。

如果您有windows服务器,请查看NEEVIA document Converter Pro 。 它有一些邮件功能。

Apace POI是一个读取Microsoft Office文档内容的界面。 您将不得不自己编写图像生成和布局组件。 但它读取Outlook MSG格式。

Apache POI – Microsoft文档的Java API 。 不过,我不知道如何轻松地将解析的文档转换为TIFF。

可能是不同的方法混合可能是有用的? 根据您的要求,可以使用多个库来转换您需要管理的所有格式:Microsoft Office,Adobe pdf,一些不同的图像格式和简单的文本文件。

我的意思是,您可以创建一个进程,根据所提取文件的类型(使用Java Mail),可以识别文件的格式,并使用合适的库继续使用正确的转换机制进行处理。 然后,如果文件是要转换的图像,则可以尝试Java高级图像处理,如果是Microsoft Office文件,请尝试Apache POI等等。 为了管理pdf文件,您可以尝试Apache pdfBox这是另一个好的开源解决方案。

顺便说一句,如果你正在寻找的不仅是一个Java的方法,可能是这个线程可能会帮助你。

我不知道是否有比@ChrisGer评论更好的商业解决方案。

不要浪费你的时间来看待Apache POI,因为它只能解析Office文件的内容,但不适合呈现它。

既然有OpenOffice服务器可用,我建议你这样做。 我也知道你可以很容易地使用DCOM与Microsoft Office应用程序交谈,也许一个Java-> DCOM桥梁更多的任务。 但是,这甚至不被微软推荐(所以我认为JodConverter的东西同样不稳定)。

总结

以上是内存溢出为你收集整理的原生Java文档分析器和转换器基于库/ Linux的文档转换器全部内容,希望文章能够帮你解决原生Java文档分析器和转换器基于库/ Linux的文档转换器所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

© 版权声明
THE END
喜欢就支持一下吧
点赞130 分享
评论 抢沙发

请登录后发表评论

    请登录后查看评论内容