概述开源OCR
我正在寻找在linux上运行的开源OCR库。 我需要这个工作PNG和pdf。 大多数情况下,我想从Java或ruby接口这个库。 任何想法,如果有什么可用的?
问候。
使用JNA来获取GetForegrounDWindow();
数据在sqlite中使用java(netbeans),windows进行sorting
如何下载pdf文件中的图像?
有没有办法让使用Java的linux机器上的用户的UID?
JfileChooser和NTFS JunctionPoints /符号链接?
Tesseract是一个非常好的OCR引擎: https : //github.com/tesseract-ocr/tesseract
该项目已经由惠普实验室推出,现在继续由Google(Google图书馆!)赞助。 它是在Apache许可下发布的,它在linux上运行。 它使用Tiff或PNG文件; 对于pdf,您将需要转换为这些格式之一。 我想没有绑定,所以你应该调用这个软件作为一个子程序…
楔形文字是免费的,做一个体面的工作。 你可以调用它作为子程序,但是没有我知道的语言绑定。 它不会直接读取pdf文件,但是您可以轻松拆分pdf文件,这些pdf文件是扫描图像的序列,将其输入到楔形文字。 还有脚本将图像和文本重新组合成可搜索的pdf。
尝试tesjeract ,它使用JNI调用Tesseract OCR API。
对于pdf,您需要先将它们转换为图像,例如使用GhostScript。
总结
以上是内存溢出为你收集整理的开源OCR全部内容,希望文章能够帮你解决开源OCR所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
请登录后查看评论内容