作者:大檔家時間:2020-11-18
什么是OCR技術?
OCR是英文Optical Character Recognition的縮寫,中文含義為光學字符識別,也稱為文字識別,是文字自動輸入的一種方法。它通過掃描和攝像等光學輸入方式獲取紙張上的文字、圖像信息,利用各種模式識別算法分析文字形態特征,與漢字的標準編碼相比較從而判別不同的字符,并按通用格式存儲在文本文件中,實現文本的編輯、檢索和存儲。所以,OCR技術是一種快捷、省力的文字輸入方式,實踐證明其在檔案信息數字化工程中的作用愈來愈顯著。其運用過程一般使用掃描等光學輸入設備讀取紙張上的文字、圖像信息到計算機能識別的格式,如JPG、FDF、TIF、BMP等,再通過OCR軟件自動分析比較生成可編輯的文本文件。
OCR技術的發展歷程
OCR的概念是由德國科學家Tausheck在1929年率先提出來,后來美國科學家Handel也提出了利用計算機掃描等技術對文字進行識別的想法。而最早對印刷體漢字識別進行研究的是IBM公司的Casey和Nagy,1966年他們發表了第一篇關于漢字識別的文章,采用了模板匹配法識別了1000個印刷體漢字。可以說是第一次把OCR從理論概念到實際運用的實現。經過四十年各領域專家和學者的運用和研究,以及計算機技術和光學掃描技術的不斷發展,OCR技術已經從原來的字符識別率低于50%到現在針對印刷體字符識別正確率達到了99%以上,并可以識別宋體、黑體、楷體等多種字體的簡、繁體;也可對多種字體、不同字號的混排進行識別;有的OCR技術識別速度很快,1000字符控制在一二分鐘之內,而且可以識別圖像、表格、文字混排的版面。所以從技術角度分析當前的OCR技術完全可以運用到檔案信息數字化工程中,從應用層面分析OCR技術也已完全適合在檔案數字化中發揮其識別率高、速度快捷、批量處理等作用。
OCR軟件工作原理
OCR軟件一般是由圖像處理模塊、版面劃分模塊、文字識別模塊和文字編輯模塊等四部分組成。圖像處理模塊主要具有文稿掃描、圖像縮放、圖像旋轉等功能。通過掃描儀輸入后,文稿形成圖像文件,圖像處理模塊可對圖像進行放大,去除污點和劃痕等處理,目的是為文字識別創造更好的條件,使識別率更高。版面劃分模塊主要包括版面劃分、更改劃分,即對版面的理解、字切分、歸一化等,目的是使OCR軟件將同一版面的文章、表格等分開,以便分別處理,并按照一定的順序進行識別。文字識別模塊是OCR軟件的核心部分,主要對輸入的漢字進行"閱讀",對于漢字通常是一個字、一個字的辨認,即單字識別,再進行統一歸類。文字識別模塊通過對不同樣本漢字的特征進行提取,完成識別,自動查找可疑字,具有前后聯想等功能。文字編輯模塊主要對OCR識別后的文字進行修改、編輯,如系統識別認為有誤,則文字會以醒目的紅色或藍色顯示,并提供相似的文字供選擇,選擇編輯器供輸出等。所以隨之OCR軟件的不斷完善和發展,越來越被圖書、檔案管理單位等需要成GB和TB容量的數據錄入行業所倚重和青睞。
OCR技術的發展得益于掃描儀和計算機硬件的迅速發展。盡管漢字量大、字形復雜,但隨著OCR技術逐漸趨向成熟。許多OCR軟件不僅能識別黑白印刷體漢字,還能識別灰度和彩色印刷體漢字,同時,對于手寫體漢字識別的研究也取得了很大進展,正確識別率已達到了70%以上。
OCR技術與檔案數字化的關系
檔案數字化發展歷程
回顧檔案現代化管理發展歷程,經歷過兩次實質性的跨越式發展:第一次,二十世紀八十年代開始,檔案目錄實現計算機檢索,建立可供計算機檢索的檔案信息目錄數據庫(包括案卷級和文件級目錄)。第二次,從二十一世紀初開始,檔案信息數字化的管理與利用,即通過對檔案信息的電子掃描,建立檔案信息圖像文件以及全文信息數據庫,使用戶可以做到在授權范圍內實現檔案信息任意關鍵詞的全文檢索和查閱。第一次的跨越式發展實際是從傳統的手工管理向計算機數據庫管理的轉變,也就是機讀檔案目錄替換紙質檔案目錄檢索,其關鍵技術是依托計算機數據庫技術。由于計算機掃描技術和存儲技術應用費用昂貴、工序繁雜,以及檔案形成部門的電子文件還沒有完全普及,所以在此過程中很少涉及到全文檢索和利用。而第二次跨越式發展實質是徹底改變了傳統檔案信息管理中目錄級檢索和調卷的方法,真正把紙質檔案信息通過數據錄入或計算機掃描技術以及OCR技術把檔案信息以數據庫和圖像格式保存在計算機存儲設備上,實現檔案信息的全文檢索和閱讀。其關鍵技術就是把文本類電子文件中檔案信息提純出來,以數據庫形式存放,提供檢索和利用,或者在案件級和文件級目錄下掛接電子文件,如圖像格式(TIF、JPG、PDF)等,實現不進庫房,不調案卷,不翻實體,而利用相當于原始紙質檔案的信息,縮短了利用時間、拓展了利用人群、增加了利用效果、提高了工作效率。
OCR技術與檔案數字化的關系
從當前流行的檔案數字化技術層面分析,檔案的存儲技術、載體性質、計算機運行和檢索速度都在發生著日新月異的變化,但檔案的檢索技術從本質上還是沒有改變,與傳統手工目錄檢索一樣依賴于檔案案卷和卷內目錄。隨著OCR技術的不斷完善,OCR軟件的識別正確率趨向完美以及辦公自動化軟件的推廣,檔案檢索技術得以突破目錄檢索的瓶頸,可以實現全文任何字符的檢索。這是自計算機數據庫技術、網絡技術以及存儲技術運用于檔案管理后又一個里程碑式的發展,使檔案信息檢索技術實現了跨越式的發展,從根本上解決了檔案用戶面對浩瀚檔案目錄無所適從、束手無策的局面。從OCR技術的發明到實際應用一直沒有脫離計算機數據庫技術和文字輸入背景,也就是OCR技術的產生是為了減輕批量文字輸入、打印工作量、提高工作效率,而檔案信息數字化的關鍵技術和工作也是海量文字的輸入和檢索,所以可以斷定OCR技術的產生和發展是檔案現代化管理或類似檔案管理行業在發展過程中,存在批量文字輸入計算機數據庫時,代替人工單字或詞組輸入的最適合的方法之一。從技術層面講兩者的關系是相互依賴、相互發展、相互促進。
OCR技術在檔案數字化中的運用研究
OCR技術在檔案數字化中的應用
OCR技術在檔案數字化中運用,主要過程是把紙質載體檔案的信息內容利用高速掃描儀轉換成計算機能識別的圖像文件,如JPG、TIF或合成多頁的PDF文件,再利用OCR軟件的字符識別功能把不能編輯的圖像文件和PDF文件中每個字符與標準的漢字數據庫中字符對比,截取相同形狀的字符并保存在文本編輯軟件中,保持能編輯的狀態,并可以進行自動標引或運用各類數據庫軟件的搜索引擎針對字符搜索,以達到檔案信息的全文檢索。
在實際檔案全文數字化過程中一般先把一份文件掃描成多頁JPG、TIF或PDF文件,再運用OCR軟件識別并判斷識別效果,并進行必要的調整和修復就可以到達全文數字化的要求。
在掃描生成頁面后,OCR技術針對印刷體的頁面文件一般識別率可達98%以上,在自動糾錯、人工校對后,基本符合檔案數字化的要求。從掃描和識別的速度分析,一般中檔掃描儀每分鐘掃描在40-60頁面左右,配合主流OCR識別軟件以及處理、分析、校對每頁檔案全文數字化用時在1分鐘以內,裝訂50個頁面的案卷數字化時間在30分鐘左右。與人工單字符輸入法相比,工作效率提高近十倍,工作強度成倍減少。運用OCR識別技術進行檔案全文數字化,工作人員可以長時間連續工作,而純人工輸入連續工作的后果是差錯率的居高不下,從而影響檔案信息全文的檢索和使用。
OCR技術在全文輸入中的作用
OCR技術在檔案全文檢索技術中的運用主要在于實現檔案全文數據庫的輸入工作。如針對一卷50頁的案卷,案卷和卷內目錄一般不超過51個,而全部目錄在數據庫著錄時,對于熟悉計算機輸入的人來講不費吹灰之力,幾分鐘或更長點時間就可以完成,但是如需做到全文任何關鍵詞檢索,必須把每個頁面上的漢字字符(可能超過500個)輸入計算機數據庫,50頁的文件可能有漢字字符25000個左右,以1分鐘輸入100中文字符計算,連續不斷地輸入也需要4個多小時。所以面對浩瀚如海的館藏檔案案卷以及每日俱增的新歸檔案卷,依賴單個字符的輸入法和數量相對較少的檔案工作人員是無法完成如此巨大的全文輸入工作量。在檔案管理工作中館藏量和增量檔案一般很難縮小和控制,工作人員數量很難大幅度增加,所以唯有改變數據的輸入方式,提高輸入效率。OCR技術正是彌補了單字符輸入速度慢的不足,OCR識別率的大幅提高更是填補單字符輸入差錯率高的缺陷。因此從當前檔案全文數字的工作量以及計算機輸入和各種文字識別技術的功效來判定,OCR技術是比較適應檔案全文數字化的一種技術,是實現檔案全文數字化的技術基礎和實現途徑之一
OCR技術的缺陷和彌補方法
經過OCR技術在檔案數字化過程中的實際運用,其掃描高速、識別快捷、高效等優勢顯而易見,但是這畢竟是依賴于計算機和人工智能等技術,也存在一些先天缺陷,如針對手寫字跡,特別是保存時間較長的歷史檔案,其識別率往往較低,甚至識別成一堆亂碼,使人無法閱讀。針對這種OCR技術的缺陷,第一種彌補方法是進行掃描和OCR識別后,實行人工校對識別文字,盡量保持OCR文字與原始頁面內容一致,雖然所需時間、精力較多,但畢竟可以實現檔案全文檢索,值得嘗試和運用;第二種彌補方法是從OCR識別率極低考慮,從現在的OCR技術以及相關技術的局限性出發,只能考慮手工全文輸入或掃描成圖像文件后,放棄全文檢索功能直接掛接到文件目錄中,做到文件級目錄檢索。在針對一些陳舊紙質檔案,頁面泛黃、局部生有霉斑或受污染的檔案,在OCR過程中也經常把其識別成文字或亂碼。其彌補方法是在掃描成多頁JPG或TIF或PDF文件后進行人工修復,把原來是文字部分以外的頁面進行清潔處理(刪除或復制成空白)。也可以對整個頁面進行補光或柔化處理,使沒有文字部分頁面接近白色,識別過程中OCR軟件不會把其當成文字或圖像處理,從而達到檔案信息數字化的要求。
結語
隨著信息化社會的不斷發展,計算機網絡技術的不斷普及,檔案利用人群對檔案信息的檢索準確率、查全率的要求越來越高,而傳統的案卷級和文件級目錄檢索技術已經無法適應當前網絡時代的搜索要求,檔案全文數字化是檔案管理發展的必然趨勢。采用高性價比的數字化方法,在最短的時間內把檔案全文進行數字化是檔案管理者必須考慮的發展戰略,縱觀并比較當前的各類檔案數字化技術,使用高速掃描和OCR技術以及計算機全文數據庫技術是實現檔案信息數字化比較適合的方法。
作者:徐忠勇單位|上海大學檔案館
(圖文來自網絡,轉載僅做交流分享,若有侵權請聯系刪除)
2021-09-13
2021-09-13
2020-11-30
2020-11-27
2020-11-26