首页 理论教育 文本资源获取方法-PPT课件设计思维与制作教程

文本资源获取方法-PPT课件设计思维与制作教程

时间:2023-11-22 理论教育 版权反馈
【摘要】:图2-2尚书七号OCR系统窗口点击“扫描”按钮,扫描仪立即开始驱动,并显示扫描进程,扫描得到的文字图像将直接传送到尚书七号OCR系统的图像处理界面窗口中。

文本资源获取方法-PPT课件设计思维与制作教程

1.手工键盘编码输入法

手工键盘编码输入是根据文字的读音或文字的基本结构将文字编成与之对应的数字代码或字母代码输入计算机。常见的键盘输入法有拼音输入法和五笔字型输入法。

通常情况下,在手工整理和撰写纸质稿后,才在课件制作工具或各类文本编辑软件中用手工键盘编码录入文本。但如果文字录入量比较大时,这种方式就不太方便了。

2.语音识别输入法

随着计算机技术的发展,仅仅通过键盘来完成大量信息输入已经不能满足人们的需要,让计算机能听懂人类语言,或是用语音来控制各种自动化系统,是一种最理想的信息输入选择。

语音输入法是将声音通过话筒输入计算机后,直接转换成文字的一种输入方法。利用语音识别技术,计算机能迅速、自然地把读入计算机的声音信息转换成计算机中的文本。

语音输入法在硬件方面要求电脑必须配备能正常录音的声卡和录音设备,在软件方面要求安装语音输入软件,比如迅飞输入法。在调试好麦克风后,即可以对着麦克风进行朗读录入。

语音输入方法的优点是可以快捷、自然地完成文本录入,减轻用户使用键盘输入的疲劳;缺点是有错字率,特别是一些未经训练的专业名词及生僻字,而且要求录入者发音比较标准,还需要先使系统适应录入者的语音语调。

3.手写识别输入法

手写输入法是一种用特制的感应书写笔,在与计算机接口相连的手写板上书写文字来完成文本输入的方法。它符合人们用笔写字的习惯,只要将手写板接入计算机,在手写板上按平常的习惯写字,电脑就能将其识别显示出来。

联机手写识别输入法中,计算机之所以能感受到手写的笔画顺序,达到识别文字的目的,是因为手写板结构中使用的电阻电磁感应方式,将专用笔在运动中的坐标输入计算机,计算机中的文字识别软件根据采集到笔迹之间的位置关系和时间关系信息来识别出书写的文字,并把相应的文字显示在文字录入窗口。

目前市场上销售的手写板产品众多,从构成原理来分,主要有电阻式手写板和感应式手写板两类。电阻式手写板一般是中、低档产品,而感应式手写板的识别率一般较高,是目前的高端产品。从外观结构来分也有两类:一类是有连线的有线笔;另一类是无线笔,特别受用户喜爱,是手写板发展的方向。从不同品牌来分,有汉王公司的汉王笔、北大方正的如意笔、摩托罗拉公司的慧笔、台湾蒙恬公司的蒙恬笔、清华紫光的帝王笔等。如图2-1所示是两款手写笔实物图。

图2-1 蒙恬笔、汉王笔

联机手写识别输入的优点是不用专门学习训练,即写即得,并且识别率较高,其录入速度取决于书写速度;缺点是不同的字体和潦草的字迹会影响识别系统的识别率。手写录入实际上是在OCR(光识别技术)基础上发展起来的文字录入方法。

4.扫描仪+OCR文字识别软件输入法

扫描文本是利用扫描仪对文本进行扫描来获得文本数据的一种方法。字符识别的过程:首先利用扫描仪将每一页文本扫描成一幅图像录入计算机,再将图像用OCR文字识别软件进行分析,将各字符的形状加以区分和识别,然后将字符逐个转换为文本储存起来。OCR文字软件的识别正确率目前还不能达到百分之百,甚至有时出错率还较高,所以对识别出的文本还必须进行细心地校正和编辑。

在各类型扫描仪中,平板式扫描仪由于扫描精度高、速度快,在家用及电脑办公中很流行。

OCR软件种类比较多,清华TH-OCR、汉王OCR、尚书OCR、蒙恬识别王、丹青中英文辨识软件等都享有较高的声誉。专业的OCR软件中,清华TH-OCR2003软件和尚书七号OCR软件都具有自动识别宋体、仿宋体、楷体、黑体、圆体、魏碑隶书行楷等百余种中文简繁字体,具备识别英文、数字、表格、图片混排稿件的强大功能。

扫描仪+OCR文字识别软件能将纸质文件转换为电子文档,通常需要经过文稿扫描、版面分析、文字识别、文字编辑、文字保存几个阶段。(www.xing528.com)

接下来以中晶科技的扫描仪Microtek Scan Maker 4100和尚书七号OCR识别软件为例,构建一个扫描、文字识别系统,用这个系统做案例来说明具体操作过程。

案例1 扫描文字图像并将文字图像转换为文本文件

操作步骤:

第1步,文稿扫描。

按照扫描仪的说明书,将计算机和扫描仪连接好,并安装相应的驱动程序、图像扫描程序和尚书七号OCR软件。

双击Windows操作系统桌面上的“尚书七号OCR”快捷方式图标,启动尚书七号OCR程序,如图2-2所示。

图2-2 尚书七号OCR系统窗口

点击“扫描”按钮,扫描仪立即开始驱动,并显示扫描进程,扫描得到的文字图像将直接传送到尚书七号OCR系统的图像处理界面窗口中。

第2步,版面分析与文字识别。

单击“识别”菜单中的“图像反白”和“自动倾斜校正”命令对文字图像进行处理。

再单击其工具栏上的“版面分析”按钮,对文字图像按类别进行分析。最后单击工具栏上的“识别”按钮或执行“识别”菜单中的“开始识别”命令,系统即对所选图像进行版面识别,结果如图2-3所示。

图2-3 文字图像识别结果

第3步,文字编辑、文字保存。

识别转换完成后,要进行文字校对,检查识别转换是否有误,如果有错,可通过校对栏,选择当前字的候选字替换识别有误的字。

校对检查完成后,选择“输出”菜单中的“到指定格式文件”命令,在打开的如图2-4所示“保存识别结果”对话框中,输入保存的文件名。然后,将文字拷贝到Word专业文字处理软件中进行排版,准备好文本素材

图2-4 “保存识别结果”对话框

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈