ABBYY OCR技术教电脑阅读缅甸语（上）

发布时间：2015-12-29 17: 28: 54

缅甸联邦共和国，原名缅甸，是东南亚的一个国家，从1962年到2010年，缅甸一直被政变后上台的军政府统治，直至最近5年它才对外界开放，与其他国家建立了贸易与文化联系。

缅甸语由很多方言组成，但所有方言都共享一个核心字母表，该核心字母表主要用于正式文本和印刷媒体，有33个辅音和12个辅助字符，地区方言可能还使用其他字符，完整列表大约有核心字母表的三倍大。幸运的是，我们的工作是识别使用流行的至少10点大小的缅甸3字体书写的标准缅甸文本，文本图像可以是灰度、黑白或彩色的，分辨率至少有300dpi，下面是典型的缅甸文本样板：

缅甸文本

在项目初步阶段，我们必须实现75%的OCR准确度，较小目标准确度为94%。

缅甸脚本就是所谓的alphasyllabary，在这里每一个辅音字母也都传达“默认”元音声，其他元音声使用特殊字符和辅音上面、下面、前面、后面的变音符号甚至辅音周围的变音符号转录。

字母大多由半圆组成，因为在过去，文本都是写在棕榈叶上，很容易被直线切口损坏。

缅甸语是一种有声调的语言，有三个主要声调—高、低和嘎吱声，和两个次要声调—入耳调和降调。

缅甸语声调

由于声调也要在书写中进行转录，缅甸脚本实际上有两种可分辨的符号，可能放在主要字母上面、下面或同时放在主要字母的上面和下面，这两种层叠的可分辨系统给OCR软件带来了重大挑战，但不仅仅如此。

若要让事情变得更复杂，有些字母组合可以融合在一起形成新字符。

在大多数常规术语中，光学字符识别如雷贯耳。当OCR软件收到图像文件时，它会使用OCR技术执行一些初步处理，将图像转换为黑白文本并纠正看得见的扭曲，接下来检测包含不同类型文本（标题、正文、脚注）、照片和表格的区域，文本块随后解析成行，行再到单词，单词再到字母，单个字母识别完成之后，文本将自下至上重组，缅甸文本的图像处理和板块检测和大多数其他语言里的操作一样，但是检测文本行是一件棘手的事。

由于变音符号的丰富性，教电脑识别短文本行非常困难，这就是原因所在，我们的运算法则使用很多功能体现文本行，其中的一个功能是虚构的基线，所有主要字符都位于这个基线上，电脑需知道在哪里画一条基线，以便生成有关单个字符的合理假设。

电脑使用统计数据检测基本文本行，为了收集必要的数据，要观察构成字母的黑点生成的直方图上的峰值，在欧洲字母的直方图上，有三个清晰可见的峰值对应于基线和小写字母的高度：

欧洲字谜直方图

然而在缅甸语中，文本行正常宽度以外的众多变音符号在直方图中导致额外的统计学上有意义的峰值，为此，我们的最初面向欧洲脚本的运算法则，无法正确地识别缅甸文本行的重要参数。

在下面的图形中，程序正确地检测到了前两行，但没有检测到第三行：

程序检测失败

针对文本行检测运算法则，我们必须要做一些调整，让其同样适用于缅甸文本。

本文中我们提到的OCR技术指的就是ABBYY FineReader 12，更多相关内容，请点击进入ABBYY中文服务中心，查找您需要的信息。

展开阅读全文

︾

标签：ABBYY FineReader，OCR图文识别软件

上一篇：别再拿着纸质文档了，抓住数据！
下一篇：ABBYY OCR技术教电脑阅读缅甸语（下）

读者也访问过这里:

ABBYY FineReader

一款功能强大的OCR和PDF软件

立即购买

联系客服：

400-8765-888

kefu@makeding.com

最新文章

abbyy finereader需要付费吗 abbyy软件有免费的吗

ABBYY是一家全球领先的技术公司，专注于开发和提供智能文档处理和数据捕获解决方案。ABBYY的主要产品包括ABBYY FineReader，这是一款流行的OCR软件，可将扫描的文档和图像转换为可编辑的文本格式。

2024-04-10

为什么word转PDF图片模糊 word转pdf怎么保持图片清晰度

将Word文档转换为PDF格式可以提高文档的安全性、兼容性和可读性，同时方便打印、分享和浏览。但是在将Word文档转换为PDF格式之后，有时原先的图片会变得模糊，这是为什么呢？下面一起来了解为什么word转PDF图片模糊，word转pdf怎么保持图片清晰度的相关内容。

2024-04-09

电脑OCR文字识别软件哪个好识别图片文字转化为文本

OCR是Optical Character Recognition的缩写，中文名为光学字符识别，是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。随着技术的不断发展，OCR技术的识别率和速度都有了很大的提高，已经成为了一种非常常见的技术。下面一起来了解电脑ocr文字识别软件哪个好，识别图片文字转化为文本的相关内容。

2024-03-01

PDF编辑器怎么用橡皮擦 PDF编辑器怎么擦除文字

擦除工具可以帮助你删除文档中的错误或不需要的信息，或者是要遮盖敏感内容，又或者是想在一份已有的文档上进行再创作。那在PDF编辑器中具体该怎么使用擦除工具呢？下面一起来了解pdf编辑器怎么用橡皮擦，pdf编辑器怎么擦除文字的相关内容。

2024-03-01

识别模糊图片上的文字软件有哪些如何识别模糊图片的文字

识别图片中的文字可以帮助人们更高效地获取和处理信息，提高工作效率，实现数字化转型，并促进信息的传播和共享。那有哪些软件可以识别图片上的文字呢？下面一起来了解识别模糊图片上的文字软件有哪些，如何识别模糊图片的文字的相关内容。

2024-02-22

ABBYY怎么修改PDF里面的文字 ABBYY怎么修改页面大小

ABBYY FineReader是一款专业的OCR文字识别软件，该软件具有先进的OCR技术，能够准确识别各种语言的文本，并提供多种导出选项。它可以帮助用户快速准确地将文档和图像中的文本转换为可编辑的文字，提高工作效率和生产力。那在ABBYY FineReader软件中怎么修改pdf文件中的文字呢？下面一起来了解abbyy怎么修改pdf里面的文字，abbyy怎么修改页面大小的相关内容。

2024-02-22

微信公众号

欢迎加入ABBYY产品的大家庭，立即扫码关注，获取更多办公软件动态和资源福利。

读者也喜欢这些内容: