概述将单词(.docx)转换为docbook
我的任务是find一种方法将大量的.docx文件转换为docbook 5.目前,我们在openoffice中打开文件并保存到docbook。 这是一个耗时的任务,但我相信还有更好的办法。 这些文件将被进一步处理到我们自定义的放松NG模式。 因此,这种转换不需要是完美的。 我环顾四周,并会继续调查一些线索,但没有发现任何有用的东西。
看着把doc / docx转换成语义HTML他们已经提出upCast ,但这似乎不适合我的需要。
我正在寻找一些可以从命令行使用的免费function。 我最终想批量处理我们的文件。 我已经包含了linux,python和java标签,因为这些是我最舒服的环境,但愿意为正确的解决scheme而努力。 我在出门之前试图做一些研究,重新发明轮子。
如何从docbook 5.0生成pdf
什么是推荐的格式化XML DocBook的工具链?
有几种方法可以编写脚本,在OpenOffice中都使用外部脚本和脚本。 有关示例,请参阅以下链接:
http://juretta.com/log/2006/08/10/convert_microsoft_word_to_docbook_xml_using_ruby_and_openoffice/
http://www.oooninja.com/2008/02/batch-command-line-file-conversion-with.HTML
http://www.xml.com/pub/a/2006/01/11/from-microsoft-to-openoffice.HTML
http://mail.python.org/pipermail/python-announce-List/2006-May/004951.HTML
http://dag.wIEers.com/home-made/unoconv/
上面的一些链接没有使用Java或者Python,但是这些原则仍然适用,并且脚本通常足够短以至于可以移植(第一个例子是Ruby,但是由于简单起见,这是我个人的最爱)。
您可以在服务器模式下运行openoffice并将文档提供给它,而不必手动打开每个文档。
一种方法: http : //code.Google.com/p/bungeni-editor/wiki/RunningTheJODConverterserver
在从SX获得考古学家徽章的风险中,答案应包括对Pandoc的引用。 这不依赖于公开的办公室。
pandoc -f docx -t docbook -o newdocbook.dbk –standalone original.docx
总结
以上是内存溢出为你收集整理的将单词(.docx)转换为docbook全部内容,希望文章能够帮你解决将单词(.docx)转换为docbook所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
请登录后查看评论内容