AI 见闻

tesseract-ocr/tesseract:Tesseract开源OCR引擎(主存储库)

GitHub Trending (AI repos)··tesseract-ocr·约 4 分钟阅读
Hacker News 74601

此包包含OCR引擎- libtesseract和命令行程序- tesseract. Tesseract 4添加了一个新的基于神经网络(LSTM)的OCR引擎,该引擎专注于行识别,但仍然支持Tesseract 3的传统Tesseract OCR引擎,

该引擎通过识别字符模式来工作。通过使用Legacy OCR Engine模式(--oem 0)来启用与Tesseract 3的兼容性。它还需要支持遗留引擎的traineddata文件,例如来自tessdata存储库的文件。

Stefan Weil是目前的首席开发人员。雷·史密斯(Ray Smith)是首席开发人员,直到2017年。维护者是Zdenko Podobny。有关贡献者列表,请参阅CONORS和GitHub的贡献者日志。

Tesseract支持unicode(UTF-8),可以“开箱即用”识别100多种语言。Tesseract支持多种图像格式,包括PNG、JPEG和Tivf。

Tesseract支持各种输出格式:纯文本、hOCR(HTML)、PDF、纯不可见文本PDF、TSB、ALTO和Pages。您应该注意,在许多情况下,为了获得更好的OCR结果,您需要提高向Tesseract提供的图像的质量。

此项目不包括图形用户界面应用程序。如果您需要,请参阅第3rdParty文档。宇宙魔方可以接受训练以识别其他语言。有关更多信息,请参阅宇宙魔方培训。

Tesseract最初于1985年至1994年间由英国布里斯托尔惠普实验室和美国科罗拉多州格里利惠普公司开发,1996年进行了一些更改以移植到Windows,并于1998年进行了一些C++化。

2005年,Tesseract被HP开源。从2006年到2017年8月,它由谷歌开发。主要版本5是当前的稳定版本,从第5版开始。0. 2021年11月30日0。GitHub提供了较新的次要版本和错误修复版本。

最新的源代码可从GitHub的主分支获取。未决问题可以在问题跟踪器和规划文档中找到。有关版本的更多详细信息,请参阅版本注释和更改日志。您可以通过预构建的二进制包安装Tesseract,也可以从源代码构建它。

在从源代码构建Tesseract之前,请检查您的系统是否具有受支持的编译器之一的编译器。

基本命令行使用:tesseract imagesoutputbase [-l lang] [--oem ocenginemode] [--psm pagesegmode] [texteract files. . . ]有关各种命令行选项的更多信息,

请使用tesseract --help或者说人的超正方体.示例可在文档中找到。开发人员可以使用libtesseractC或C++ API来构建自己的应用程序。如果您需要绑定libtesseract有关其他编程语言,请参阅AddOns文档中的包装器部分。

doxygen从源代码生成的Tesseract文档可以在tesseract-ocr上找到。GitHub. io.

在提交问题之前,请查看此存储库的指南。如需支持,请首先阅读文档,特别是常见问题解答,看看您的问题是否在其中得到了解决。如果没有,请搜索Tesseract用户论坛、Tesseract开发人员论坛和过去的问题,如果您仍然找不到您需要的内容,请在邮件列表中寻求支持。

邮寄列表:- tesseract-ocr -适合tesseract用户。- tesseract-dev -适合tesseract开发人员。请仅报告错误问题,而不是提出问题。此存储库中的代码采用Apache许可证第2版进行许可。

0(“许可证”);除非符合许可证,否则您不得使用此文件。您可以通过以下网址获得许可证副本:http://www. Apache. org/licenses/LICENSE-2。

0除非适用法律要求或书面同意,否则软件根据许可证分发的是在“原样”的基础上分发的,没有任何形式的保证或条件,无论是明确的还是暗示的。有关管理权限的特定语言,请参阅许可证许可证下的限制。注:此软件取决于可能在不同开源许可证下获得许可的其他包。

Tesseract使用Leptonica库,该库本质上使用了BDS 2条款许可证。Tesseract使用Leptonica库打开输入图像(例如。G.而不是像pdf这样的文档)。建议使用内置支持zlib、png和tiff(用于多页tiff)的leptonica。

获取README的最新在线版本。

MD请参阅:https://github。com/tesseract-ocr/tesseract/bloc/main/REAUTE。MD

原文出处
tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。