OCR(光学字符识别)是一种众所周知的技术,可以从图像和扫描的文档中识别和读取文本。在OCR操作中,图像上的字符被扫描,识别并转换为数字形式。可以对转换后的文本进行验证并保存以执行进一步的操作。在本文中,我将向您展示如何执行OCR,以在.NET应用程序中使用C#以编程方式将图像转换为文本。本文的其余部分分为以下几节。
C#OCR库-安装
Aspose.OCR for .NET是一个功能强大的OCR库,可让您轻松地将图像扫描并将其转换为文本。它不需要冗长的代码即可在您的.NET应用程序中启动和运行OCR功能。以下是C#OCR库的安装方法。
通过NuGet软件包管理器安装
只需在NuGet软件包管理器中搜索Aspose.OCR并安装它。
通过Package Manager控制台安装
以下是通过Package Manager控制台安装Aspose.OCR的命令。
PM> Install-Package Aspose.OCR
使用C#OCR API将图像转换为文本
让我们看看如何在可能是扫描文档页面的图像上执行OCR。以下是执行此操作的步骤。
- 创建一个AsposeOcr类的实例。
- 通过传递图像的路径并将结果获取到字符串对象中,以调用AsposeOcr.RecognizeImage(string)方法。
下面的代码示例演示如何使用C#将图像转换为文本。
用单行文字在图像上执行OCR
在前面的示例中,我们对包含多行文本的图像执行了OCR。但是,图像可能仅包含一行文本。在这种情况下,您可以告诉API仅识别该行。以下是执行转换包含单行文本的图像的步骤。
- 创建一个AsposeOcr类的对象。
- 调用AsposeOcr.RecognizeLine(string)方法,并将图像文件的路径传递给它。
- 将结果获取到字符串对象中。
下面的代码示例演示如何执行OCR并使用C#转换包含单行文本的图像。
对非英语字符执行OCR
Aspose.OCR不限制英语的OCR功能,您也可以识别其他语言的字符。识别过程和代码将保持相同,而与文本的语言无关。以下是Aspose的OCR API可以识别的字符集。
空间 | ! | ” | # | $ | % | 和 | ‘ | ( | ) |
* | + | , | — | 。 | / | 0 | 1个 | 2个 | 3 |
4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = |
---|---|---|---|---|---|---|---|---|---|
> | ? | @ | [ | \ | ] | _ | ` | { | | |
} | 〜 | 一种 | 乙 | C | d | E | F | G | H |
一世 | Ĵ | ķ | 大号 | 中号 | ñ | Ø | P | 问 | [R |
小号 | Ť | ü | 伏特 | w ^ | X | ÿ | ž | 一种 | b |
C | d | Ë | F | G | H | 一世 | Ĵ | ķ | 升 |
米 | ñ | Ø | p | q | [R | s | Ť | ü | v |
w | X | ÿ | ž | 一种 | 一种 | 一种 | 一种 | 一种 | Æ |
C | È | É | Ê | Ë | 一世 | 一世 | 一世 | 一世 | Ñ |
Ò | Ó | Ô | Õ | Ö | Ù | Ú | Û | Ü | ẞ |
ß | 一种 | 一种 | 一种 | 一种 | 一种 | æ | C | è | é |
ê | ë | 一世 | 一世 | 一世 | 一世 | ñ | ò | ó | ô |
õ | ö | ù | ú | û | ü | ÿ | Œ | œ | Ÿ |
结论
本文演示了如何使用C#以编程方式执行OCR并将图像转换为文本。您可以识别包含单行或多行文本的图像中的字符。从文档中了解有关C#OCR API的更多信息。