开源OCR【JAVA教程】

!
也想出现在这里? 联系我们
信息

开源OCR,第1张

概述开源OCR

我正在寻找在linux上运行的开源OCR库。 我需要这个工作PNG和pdf。 大多数情况下,我想从Java或ruby接口这个库。 任何想法,如果有什么可用的?

问候。

使用JNA来获取GetForegrounDWindow();

数据在sqlite中使用java(netbeans),windows进行sorting

如何下载pdf文件中的图像?

有没有办法让使用Java的linux机器上的用户的UID?

JfileChooser和NTFS JunctionPoints /符号链接?

Tesseract是一个非常好的OCR引擎: https : //github.com/tesseract-ocr/tesseract

该项目已经由惠普实验室推出,现在继续由Google(Google图书馆!)赞助。 它是在Apache许可下发布的,它在linux上运行。 它使用Tiff或PNG文件; 对于pdf,您将需要转换为这些格式之一。 我想没有绑定,所以你应该调用这个软件作为一个子程序…

楔形文字是免费的,做一个体面的工作。 你可以调用它作为子程序,但是没有我知道的语言绑定。 它不会直接读取pdf文件,但是您可以轻松拆分pdf文件,这些pdf文件是扫描图像的序列,将其输入到楔形文字。 还有脚本将图像和文本重新组合成可搜索的pdf。

尝试tesjeract ,它使用JNI调用Tesseract OCR API。

对于pdf,您需要先将它们转换为图像,例如使用GhostScript。

总结

以上是内存溢出为你收集整理的开源OCR全部内容,希望文章能够帮你解决开源OCR所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

© 版权声明
THE END
喜欢就支持一下吧
点赞147 分享
评论 抢沙发

请登录后发表评论

    请登录后查看评论内容