河北字字句
1090324712@qq.com 18331804812
新闻中心
我们专注于文档服务外包!
在档案管理工作中汉字识别技术有着怎样的作用呢?
作者:河北字字句时间:2021-05-17 21:36:00浏览量:

  汉字辨认技能(简称OCR)可以理解为是让计算机认字的技能。它经过光电信号转化,即文本数据。

  一、汉字辨认技能的运用价值,汉字辨认技能的运用价值首要体现在两个方面:

  一方面,把纸质档案上的固定信息变成可以被检索运用的活信息,为文本数据管理技能供给 丰厚的数据源。

  首要,从库存档案的情况来看,近几十年来构成的很多印刷汉字档案记载了咱们党和国家的 重要前史,对我国现代化作业的开展,对精神文明和物质文明的建造都有着非常重要的运用 价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既 使经过扫描以图画办法存储于计算机中,检索运用也有不便利之处,难于满意现代社会对档案 信息的多种运用需求。其次,从办公自动化的开展情况来看,每年接纳的档案中依然会有相 当数量的档案没有文本文件,或为外单位来文,或为丢掉损坏等。汉字辨认技能的运用价值 就是使这两大部分纸质档案上的固定信息变成可以被检索运用的活信息,为全文检索供给数 据,使深层次的开发运用成为或许,更好地为现代化建造作业效劳。

  另一方面,供给了一种新的档 案目录数据的录入办法。

  运用计算机以来,汉字录入只要一种办法,即健盘录入。尽管现在汉字键盘录入的办法有许 多种,并且日趋简洁便利,已是年轻人必备的职业技能,可是它究竟归于一种技能,不只需 要反响活络,手指灵敏,并且要熟记录入的准则、办法和方法。这关于在档案部分占有适当 份额的中老年同志来说,把握起来确有难度。因而,键盘录入办法依然是影响一些档案部分 树立档案目录信息数据库的要素之一。OCR软件为咱们供给了一条新的途径。它经过“迁延 ”的办法,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相 应字段中去,简略易学,一看就会。惋惜的是手艺“迁延”速度较慢,并且需求即时扫描或 调用图画数据,所以单一运用这种办法录入档案目录,速度不及熟练录入员的键入速度。但它究竟是一种新的录入办法,为树立档案目录信息数据库供给了一条史无前例的途径。并且 ,假如运用OCR软件一起树立新式的综合档案信息数据库,例如包含档案的文件目录、图画 和文本等,作用就此较抱负了。

  二、汉字辨认后生成的文本数据的特点问题。

  原始性是档案的根本特点。汉字辨认后生成的文本数据是根据档案的根源信息,即固定在纸 质载体上的汉字信息进行加工处理:扫描、辨认、校正、修改等工序后构成的复制加工品, 因而不具有档案的原始性。

  知识性是档案的又一个特点。汉字辨认后生成的文本数据假如不计算人工校正后依然或许存 在的细小差错,应该说具有与档案原件平等的内容,因而具有档案的知识性。

  汉字辨认后生成的文本数据是将档案的内容以特其他物理办法从头记录在特其他载体之上, 比以文字的办法记录在纸质载体之上更具有便于传递、接纳、存储、运用以及不磨损、不丢 失等特点。因而具有更强的信息性。

  汉字辨认后生成的文本数据应该说,它是一种新式的档案一次信息的复制品或编研开发作用 。但作为一种新式的复制品或编研开发作用,因其生成的意图不同,又具有两种不同的特点 :当以供给运用为意图经过汉字辨认树立文本数据库时,其文本数据具有类似于汇编类档案 编研作用的特点;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等 为意图进行汉字辨认时,其文本数据不只具有类似于档案编研作用的特点,并且具有档案原 始性的根本特点,由于它们是印刷品或出版物的根源信息。

  由此可见,汉字辨认后生成的文本数据是一种不同于传统档案特点的新式档案信息。

  三、汉字辨认技能的运用办法

  汉字辨认技能在档案管理作业中的运用,根据其现在的技能水平首要适用于近几十年来印刷 汉字档案内容的辨认,图画、文本数据的构成、存储和目录数据的录入等项作业。首要的应 用办法有:

  (一)运用者阅览纸质档案的内容之后,对其所需求的内容进行扫描和汉字辨认,或打印出统 一格局的运用摘抄,或直接供给文本复制。

  这种运用办法的长处首要有:

  1便运用户,可削减信息运用过程中的重复劳动;

  2不给档 案人员添加建库的作业担负;

  3节约建库所需的经费开支。其缺陷首要有:

  1存在对同一档案内容重复进行扫 描和汉字辨认的或许性。

  2不能为全文 检索供给数据,完成深层次开发档案信息资源的意图;

  (二)输入档案目录。这是加快档案目录信息数据库建造的一条新路,可以使更多的人员从事输入作业,但输入速度不甚抱负,并且本钱费用相对较高。

  (三)扫描、保存图画并供给运用,只针对运用者需求的图画内容进行汉字辨认等运用效劳。

  这种办法必须在已有文件目录的前提下运用。其长处首要有:1具有供给原件和进步信息 运用功率的两层优势;2档案人员不承当汉字辨认后生成的文本数据的保护作业。其缺陷 首要有:1同第一种运用办法的缺陷。2汉字辨认技能要求图画的光学分辨率较高,一般为3000dpi,而一般图画的分辨率仅为150dpi,因而所需的存储空间较大,约是一般图画的2 、3倍,那么,所需的存储本钱也要高得多。这种高价值的图画存储仅用来满意用户运用识 其他需求好像有点因小失大。因而低分辨率的图画也能进行汉字辨认,只是辨认率相对较低 罢了。咱们也曾做过比照试验,同一页印刷质量杰出的B5纸型文件约500字,以300dpi进行扫描,辨认率为100%;以150dpi进行扫描,辨认率为99.4%(误识3字)。这关于一般用户而言无所谓的。

  (四)树立字字句档案文本数据库。这种办法也应在已有文件目录的条件下运用。其长处首要有:

  1节约存储空间和存储本钱。仍以一页B5型纸约500汉字的文件为例,以文本办法存储约需1000字节;以图画办法存储约需25000字节。因而,同量汉字的文本办法存储比图画办法存储本钱低得多。

  2为全文检索供给数据,可以完成深层次开发运用档案信息资源的意图。

  其缺陷首要有:

  1树立文本数据库的作业量较大。

  2不能满意用户阅览档案原件的需求。

  3由于没有图画随时供给根据,不便利于对文本数据的准确性进行核实。

  (五)输入目录并保存图画。

  (六)输入目录、树立文本数据库。

  (七)保存图画、树立文本件数据。

  (八)输入目录、保存图画并树立文本数据库。

  这是充分发挥OCR软件功用,深层次开发运用档案信息资源的运用办法。但工程量较大,人力、资金需求较多,建库周期较长。

  跟着汉字辨认技能水平的进步和运用的遍及,或许还会发生新的应

  用办法,但无论运用哪一 种办法,都必须契合本单位档案管理作业的实践,统筹考虑档案情况、人员配备、经费才干、办公自动化水平、档案现代化建造开展规划等方面的要素,以实在进步档案信息资源开发运用才干为意图,这样才干收到事半功倍的作用。