摘要

現如今人們在日常生活辦公中使用計算機處理一些文本、圖表等數據信息。因為由於漢字其數量龐大、結構複雜，所以加重了人們處理數據的難度。漢字識別系統的研究可以提高人們數據處理效率，而算法的優化可以提高系統的效率。本文主要介紹漢字識別預處理方面算法的優化。

首先，結合前人的經驗對二值化算法進行了優化，提出了結合手動閾值選取和邊界輪廓提取結合的二值化算法，該算法不僅提高了圖像二值化的效果，而且對圖像上存在的單像素噪聲進行清除。

其次，總結經驗提出了適合印刷體漢字識別漢字切分算法和漢字傾斜矯正算法。

最後，在漢字識別模塊，使用區域分割的模板匹配算法突出相似漢字的不同之處，能很好的區分相似漢字。

1緒論

本章節我們對漢字識別的發展過程、漢字識別對我國未來科技發展存在的意義、漢字識別關鍵名詞介紹和本文的章節內容安排。

1.1漢字識別的發展過程

從歷史文獻上可以看出，印刷字體的識別最早是在美國開始，美國巨頭公司IBM在1966年發表了文章介紹關於印刷體漢字識別方面的理論基礎。在美國之後日本根據之前的文章做了很多相關工作，並研製出能識別兩千多字的漢字識別系統，但是由於他們研製的漢字識別系統成本比較高，沒有得到應用。而我們國家漢字識別的研究可以分為下面的幾個階段:

第一時期，從70年年代末期至80年代末期，主要是一些關鍵性算法的研究及系統方案的探索。

第二時期，90年代，漢字識別技術慢慢的走出實驗室得到初步的應用。

第三時期，性能優化，其中包括效率、準確率及與其他文字的混合識別。

1.2 漢字識別研究的意義

21世紀隨著網際網路的發展，人們生活辦公日益網絡化，我們的工作生活，使用計算機處理一些文本信息、圖標等數據信息。漢字自動識別的研究可以有效的減少人們在日常生活工作中的勞動量大大的提高工作效率，對於我國而言，我們是漢字的發源國家，擁有著上千年的漢字使用歷史是世界上使用漢字人數最多的國家[1]。因此漢字自動識別對於我國在智能化辦公、人工智慧等高尖端科技領域有著重要的意義。就漢字而言，因為其數量龐大、結構複雜，並且與拼音字母不同。所以大大的加重了人們在處理數據中遇到的難度，因此漢字識別關鍵技術的研究對我國未來科技的發展具有重大意義。

漢字識別可以應用於諸多領域，其中不僅包括閱讀、檢索、翻譯、信息校對等基礎領域，而且還可以應用在人工智慧、軍事技術等高尖端技術的應用，漢字識別的研究及應用對我國各行各業的工作效率提高，及我國高尖端技術的發展有著重要的意義。

1.3 漢字識別的難點

我國是漢字的發源地，有著數千年的文化歷史，因為漢字的文化悠久，演變過程多樣，因此漢字識別存在一些影響漢字識別的關鍵因素。

1.3.1類別大

漢字不像數字，字母數量非常少識別起來方便，漢字數量非常大，我們常用的漢字就有將近七千個漢字，每個漢字的結構也不一樣，漢字龐大的數量使我們在進行漢字識別中要做大量的工作，總結規律。

1.3.2結構複雜

筆畫是漢字的基本組成部分[2]。由於漢字的筆畫從一划到幾十劃不等，所以漢字結構複雜程度不同。

1.3.3形似字比較多

由於漢字之間存在一些形狀非常相近的漢字，例如：「大」和「太」，另外還存在一些漢字筆畫數相同但只存在一些細微的差異例如：「太」和「犬」，因此要求漢字識別系統要能夠判斷這些細微的變化，以避免錯誤的發生。

漢字由於具有以上的幾種特殊情況因此造成了漢字識別的困難。

1.4漢字識別流程簡介

印刷體漢字識別技術主要包括：1）掃描文本圖像文件；2）對文本圖像進行二值化處理；3）對掃描過後的文本圖像進行預處理；4）對圖像進行行字切分；5）進行漢字特徵提取與選擇；6）進行識別。印刷體漢字識別框圖如圖1.1所示。

1.5專業術語介紹

1) 二值化

二值化就是將一張多灰度值得圖像變成只有兩種灰度值得圖像。

2) 圖像預處理

預處理就是說去除一些不必要的因素（影響漢字識別的因素）。

2漢字識別方法研究

本章主要是探究漢字識別算法的探究，分別對結構模式識別、統計模式識別、人工神經網絡、模板匹配算法進行介紹。

2.1結構模式識別

結構識別模式其實就像埃及的金字塔倒過來，由大到小一級一級的直到最小的那一塊金字塔，結構模式就是這樣的原理，我們把一個漢字分解成不同的小塊一直到最小的那塊為止，這樣就可以方便我們的對漢字進行識別，結構模式分解示意圖如圖2.1所示。

在結構識別模式中我們將我們觀察的圖像想像成一個由基元組成的結構，將模式類表示成一個具有相似結構特徵的集合。我們把基元構成模式所遵循的規則稱為文法（句法）。結構識別模式的系統框圖如圖2.2所示[3]。

2.2統計模式識別

2.2.1統計模式識別簡介

統計模式識別方法就是使用樣本集 [4]。在知道的研究對象統計模型或者我們已經知道函數的判別方法的情況下根據一定的準則，把學習n維特徵空間劃分成為D個區域，把每一個區域與不同的類別對應起來。

統計模式識別的系統框圖如圖2.3所示，其中統計模式的最核心是選擇器的選擇。

2.2.2統計模式識別常用的算法

1)貝爾斯決策方法

貝斯決策法有以下假定：

1、每一個類別的總體機率分布已知。

2、被我們決策的分類數是一定的。

3、我們要觀察的對象由多個特徵供我們觀測。

當我們要識別的對象用m表示，隨機向量使用n表示，我們已經知道分類的先驗機率的條件密度函數，根據貝葉斯公式求得解後的機率按照其進行判別分類及使貝葉斯決策方法[6]。

2)判別函數法（幾何分類法）

判別函數是指直接用來對統計模式進行分類的標準函數。

如果分別屬於w1，w2兩類模式可以使用同一方程f(x)=0來進行劃分，那麼我們就稱f(x)為判別函數，由圖2.4知方程法f(x)=w1x1+w2*x2+w3=0,其中x1，x2為坐標，w1,w2,w3是方程的參數[7]。

2.3 人工神經網絡

近年來計算機科學結合生物科學，人們創造性的提出了人工神經網絡[5]。即模擬人類的神經元建立模型，然後再根據不同的場景使用不同的連接策略對人工神經網絡模型進行連接。神經網絡模型圖如圖2.5所示。

其中bp神經網絡是由神經網絡延伸而來，bp神經網絡設就是設置不同的標準即隱含層，當要出輸出的結果達不到預期的效果則會將其反向輸入出去，根據隱含層中不同的規則對達不到要求的結果進行修正，直至達到要求為止。BP神經網絡模型圖如圖2.6所示。

正向傳遞：正向傳遞就是按照圖2.6所示，樣本從輸入層輸入，經過隱含層對樣本進行相應的處理，最後到達輸出層。

誤差的反向傳播：我們將達不到預期要求的結果，以一種特定的方式進行反向傳播。並計算出誤差信號平均分攤到隱含層中，各隱含層根據誤差信號對樣本進行處理[6]。

由於反向傳播使用梯度下降法，需要計算平方誤差函數對網絡權重的導數。

假設對於輸出神經元，平方誤差函數為：

其中，E 為平方誤差，t 為訓練樣本的目標輸出，y 為輸出神經元的實際輸出。

加入係數 1/2 是為了抵消微分出來的指數。之後，該表達式會乘以一個任意的學習速率，因此在這裡乘上一個常係數是沒有關係的。對每個神經元 j，它的輸出 Oj 定義為

激活函數：

其導數的形式很好：

求誤差的導數

計算誤差對權重Wij 的偏導數是兩次使用鏈式法則得到的：

在右邊的最後一項中，只有加權和 netj 取決於Wij ，因此

神經元 j的輸出對其輸入的導數就是激活函數的偏導數（這裡假定使用邏輯函數）：

這就是為什麼反向傳播需要的激活函數是可微的。

如果神經元在輸出層中，因為此時 j=y以及

所以第一項可以直接算出。

但如果Oj 是網絡中任一內層，求 E 關於Oj的導數就不太簡單了。

考慮 E 為接受來自神經元Oj 的輸入的所有神經元 L=u，v…,w的輸入的函數，

關於Oj取全微分，可以得到該導數的一個遞歸表達式：

因此，若已知所有關於下一層（更接近輸出神經元的一層）的輸出Ol 的導數，則可以計算Oj的導數。

把它們放在一起。

其中

要使用梯度下降法更新Wij ，必須選擇一個學習速率。要加在原本的權重上的權重的變化，等於學習速率與梯度的乘積，乘以 -1。

之所以要乘以 -1是因為要更新誤差函數極小值而不是極大值的方向。

2.4 模板匹配算法

模板匹配算法,就是在模板堆中找到與樣本一樣的。模板匹配系統框圖如圖2.7所示。

一種簡單的模板匹配算法如下。

其中T表示模板，Si，j表示樣本，下面是去均值算法。

但是通過觀察發現使用這種模板匹配算法對一些相似漢字的識別存在不能區分的情況。通過我們觀察相似的漢字發現，相似漢字都是在某一部分存在不一樣的地方，如果我們在漢字識別過程中能夠突出顯示這一不同的地方加以區分便可輕鬆解決模板匹配算法在相似字識別方面存在的不足之處。我們可以把一個漢字樣本分割成多塊來進行識別這樣我們可以把漢字的不同之處突出出來，但是分割成多少塊是一個問題，因為如果我們把一個漢字分割的區域過多就會導致在識別的過程中耗時比較長的問題，如果分割的區域過少則可能導致不同點突出不來的情況。經過我們大量的實驗測試發現把漢字分割成四個區域效果比較理想，而且我們在漢字識別的過程中判定如果識別的第一區域沒有通過則終止與該模板的對比，這樣可以節約一部分時間。但是對於分成四個模板分別對漢字進行識別來說，該算法還是存在耗時比較長的問題。樣本分割示意圖如圖2.8位所示。

我們假設二值化預處理過後的圖像{fI(i,j),i=1,2,..,n,j=1,2,…,m},I=1,2,…,p，模板圖像{Tk（I,j）,i=1,2,…,n,j=1,2,…,m},k=1,2,,…,q,匹配係數：

3預處理算法介紹及優化

本章節主要介紹預處理算法相關算法及部分算法的優化。

3.1 二值化

二值化就是將一張多灰度值得圖像變成只有兩種灰度值得圖像。

3.1.1 OTSU大律法

是使用最大方差算法，計算出使前景色與背景色相比方差最大的值即為閾值。

設圖像包含F個灰度級(0,1…,F-1)，灰度值為i的像素點數為Ni ，圖像總的象素點數為M=M0+M1+...+M(F-1)。灰度值為i的點的機率為：P(i) = M(i)/M.

圖像的方差函數：σ=p1*p2(k1-k2)^2式中，pj為類cj的面積與圖像總面積之比，p1=sum(P(i)) i->t, p2= 1-p1;kj為類cj的均值，k1 = sum(i*P(i))/p1 0->t, k2= sum(i*P(i))/p2, t+1->F-1,該法選擇方差最大，即：令Δk=k1-k2，σb = max{ p1(t)*p2(t)Δk^2}。

OSTU算法計算簡單,穩定有效是常用的算法。

3.1.2 力矩保持法

我們根據經驗選取一個比較合適的閾值，讓二值化過後的圖像和原來的圖像相比具有三個不同的力矩。

3.1.3 灰度值平均值法

就是將一張圖片的灰度值進行相加，然後求出平均值。

3.1.4手動閾值選取與邊界輪廓提取結合

我們在介紹手動閾值選取與邊界輪廓提取結合二值化算法之前，我們首先要了解什麼是邊界輪廓提取，邊界輪廓提取的規律。像素邊界線有如下四類：直線，分叉線，十字線，折線。

根據上圖可知，我們想要判定某一像素是不是為邊界像素，我們只需要觀察該像素是不是的四相鄰是邊界背景像素還是前景像素，在該點是前景像素的前提下，如果它的四相鄰像素不全為前景像素的前提下則該像素為邊界像素。邊界像素提取算子如圖3.10所示。

我們將是邊界像素的坐標保存到數組中，把不是邊界像素的前景色刪除，把灰度值重新更改並寫到圖片上則得到的圖像為邊界輪廓提取圖像。

本文採用的二值化算法,是使用手動閾值選取與邊界輪廓提取結合的算法,即我們先選擇一個比較通用的一個二值化閾值對圖像進行二值化,然後再通過邊界輪廓提取算法對圖像進行邊界輪廓提取。然後再把非邊界元素的前景色進行反向填充[10]。這樣可以避免,手動閾值選取存在的不必要影響。

首先是手動閾值的選取，我們通過大量實驗表明，手動選取閾值的值大概為160比較好。首先進行手動閾值處理，採用算法原理是：

如果p1-p>0則p2=255；

如果 p1-p<=0則 p2=0。

其中p為閾值，p1為灰度值。

然後我們進行邊界輪廓的提取，假設P[i][j]存放著圖像的灰度值，我們通過觀察發現當P[i][j]的相鄰像素都為前景色的時候，當該滿足是前景色的前提下，只要滿足該像素的四相鄰像素的灰度值不全是前景色的前提下則該點為邊界輪廓點。前景色非臨界點的情況如表3.1所示。

邊界輪廓提取當滿足下列條件則該點則為邊界點

P[i,j]為前景色即P[i,j]=0;

P[i,j-1] 、P[i-1,j]、 P[i+1,j]、 P[i,j+1]不全部為前景色（P[i,j-1] 、P[i-1,j]、 P[i+1,j]、 P[i,j+1]存在值等於255）。

或者

P[i,j-1] 、P[i-1,j]、 P[i+1,j]、 P[i,j+1]存在至少有一個是前景色，至少有一個是背景色（P[i,j-1] 、P[i-1,j]、 P[i+1,j]、 P[i,j+1]存在值等於255而且存在值等於0的兩種情況）。

滿足上述兩種情況之一我們即可以得出邊界輪廓坐標，但是經過分析發現第一種算法更好一些，因為對於第一種情況而言，可以對單像素噪聲進行直接過濾，單像素噪聲的情況如表3.2所示。

其中0代表前景色，1代表背景色

第二種方法只是判斷了四相鄰像素是否符合邊界輪廓像素的條件，但並沒有計算該點像素是否符合前景色的情況，如表3.2所示，前景色的四相鄰像素由於滿足邊界輪廓的條件會被判定為該四點為邊界點，然而事實上並非如此，從而會對二值化的圖像產生不必要的噪聲污染，然而第一種方法，由於前提是先進行了前景色的判斷該情況不屬於前景色個不用說是邊界點，因此會默認將此點更改為背景色，不僅可以消除噪音而且由於直接判斷該點不是前景色結束了當前的判斷從而減少了下面的幾種情況的判斷，從而減少了不必要的時間浪費，提高了工作效率。然而通過觀察大量圖像二值化邊界輪廓提取的二值化實例效果圖發現，該效果並不能滿足我們的需求。二值化邊界輪廓提取效果圖3.11所示。

通過觀察大量的實驗結果發現該效果圖種存在大量背景像素，而這些像素的存在會對我們下面的工作造成嚴重的影響，但是細心觀察會發現，原本應該是前景色的背景色都存在一個規律及它們的四相鄰像素都是前景色，該元素四相鄰像素情況如表3.3所示。

即當P[i,j]滿足下列情況我們則對P[i,j]進行填充：

P[i,j]為背景色即（P[i,j]=255）；

P[i,j-1] 、P[i-1,j]、 P[i+1,j]、 P[i,j+1]全部為前景色即（P[i,j-1]=255 、P[i-1,j]=255、 P[i+1,j]=255、 P[i,j+1]=255）。

如果滿足上訴兩種情況我們則令P[ i，j]為前景色，即P[ i，j]=0。

經過填充過後的二值化效果圖如圖3.12所示，圖3.13和圖3.14分別是手動閾值選取和邊界輪廓提取示意圖。

3.2中值濾波

由於漢字在二值化的過程中，由於算法二值化算法的問題或者紙張，環境等一些問題二值化之後的圖像存在一些不必要的噪聲影響漢字識別的操作，因此我們要對漢字進行去噪聲的處理，減少對漢字識別存在的不必要影響。

中值濾波其實就是比較大小的算法，將每一個像素的灰度值與周圍的灰度值相比較。如果差距比較大就更改該灰度值為與周圍灰度值相似的灰度值函數圖如圖3.16所示[11]。

3.3傾斜矯正

印刷體漢字其實在採集轉換成圖像信息時，如果發生傾斜整張圖片的傾斜角度是一樣的，因此我們對該樣本進行傾斜矯正可以採取平移法。

我們可以採用讓掃描整張圖片選取某一邊界以該邊界的起點為起始點進行往下做兩條直線構成直角三角形，引線示意圖如圖3.17所示。

我們以n為起始點向上做兩條線，根據勾股定理求出傾斜角度然後進行矯正。

結合圖3.17和勾股定理可知

。

根據圖3.17可以知道只需要將每一行的像素向左移動特定的像素,從第一行開始從上到下逐行進行向左移動m個像素，h表示第幾行，h的值不大於b，

每行要平移的像素向上平移的像素是固定值n=b-a。然後我們對每一列的像素都進行向上向左平移校正的示意圖如圖3.18所示。

然後我們對圖片進行處理將上圖中右側的倒三角的像素進行刪除，得到的圖像就是校正後的圖像。

3.4漢字切分

相對於印刷體而言,其整體存在一定的規範,行與行之間,列於列之間,相對來說比較規範,因此我們對漢字的切分可以通過整體漢字行列之間的空隙來進行切分,這樣的切分方法,算法簡單,實現起來容易,而且所消耗的時間相對來說有一定的優勢.

原理是我們對整張圖片進行掃描,通過記錄前景色和背景色的相交點作為切分點的方法對漢字進行切分,對行切分的時候不僅要記錄下行的臨界點的位置而且還要記錄該行開始和結束位置列的臨界點的位置,因為如果不記錄列臨界點的位置,我們對漢字進行切分的時候,由於每段的結尾開頭兩行行存在的漢字個數與其他行存在差異,我們記錄開始和結束行的列臨界點的位置,切分的時候進行精確切分,避免如圖在切分的時候存在空白的情況,這樣不僅可以避免空白圖像的出現,相對來說也是對識別效率的一種提升。圖3.19為漢字切分示意圖。

通過對圖的觀察發現，算法實現的原理是：

首先對行列進行掃描，如果當這一行存在一點是前景色，而且上一行為背景色即存在P[i，j]=0、P[i-1,j]=255（i=2,3，…,n）則記錄i的值,列的切分，同理如果當這一列存在一點是前景色，而且上一列為背景色即存在P[i，j]=0、P[i,j-1]=255（j=2,3，…,n）則記錄的值，並且記錄下行與行相鄰行之間的差值範圍內列的開始的位置值與結束的位置。

最後我們再兩者結合對漢字進行切分，這樣可以避免我們如果先通過單獨行切分單獨列切分存在左右結構上下結構的漢字分開的情況例如：「川」和「二」。

這樣不僅算法實現起來簡單，而且可以有效的避免把上下左右結構的漢字分開的情況，漢字切分結果如圖3.20所示。

3.5漢字細化

在字符識別過程中,突出形狀的特點可以減少信息的信息量.

Zhang快速細化算法

漢字細化的特點:

在細化過程中，圖像有規律的縮小

在縮小過程中，圖像的連通性質保持不變

把一幅圖像中的一個3×3

區域，四個條件同時滿足時，刪除P1(即使P1=0)。3X3區域標記如表3.4所示。

圖像細化的條件

3.6 漢字特徵提取

印刷體識別特徵是值具有參考價值的特徵。常用的識別特徵如下：

1）複雜指數

複雜指數隻反應字符筆畫的複雜，與位置大小無關。

2）包含配選法

因為漢字也具有一些相同特徵，根據漢字的結構可以將漢字分成不同偏旁部首的漢字，這樣根據偏旁部首就可以大致知道漢字是屬於哪一類漢字[13]。

4原型系統設計與實現

4.1原型系統設計

4.1.1系統識別框圖

漢字識別系統主要包括兩部分即預處理模塊和漢字識別模塊。漢字系統識別框圖如圖4.1所示。

4.1.2 預處理模塊設計

首先進行手動閾值選取的二值化方法，然後再通過邊界輪廓提取，反向填充，增加了二值化的效果，不僅僅是二值化效果更加接近於原圖，而且直接對單像素噪聲進行了去噪，從而方便下面工作的開展。

然後使用中值濾波的方法，去除了影響漢字識別的不必要因素從而提高漢字識別的效率，保存漢字識別的邊緣特性；然後通過使用平移法對圖像進行校正讓圖恢復原來的矩形。最後通過使用漢字臨界點切割法對漢字行切分列切割。預處理系統框圖如圖4.2所示。

4.1.3 漢字識別模塊設計

通過第二節的處理使影響漢字識別的因素降到了最低，然後通過提取漢字的結構特徵和優化模板匹配算法，將識別樣本分成四個象限區域，採取逐區域的進行漢字識別，以減少相似字的識別存在誤差的因素，從而提高漢字識別的準確率。漢字識別模塊框圖如圖4.3所示。

4.2 原型系統實現

4.2.1 實驗環境

本系統使用的開發平台是windows7、開發工具是myeclipse和Tesseract。

Myeclipse是基於eclipse的集成開發工具，Tesseract是漢字模板庫軟體。其中有漢字模板訓練庫。

4.2.2實驗結果

運行系統，為系統運行圖如圖4.4，4.5所示，漢字識別結果如圖4.6，4.7所示。

結論

在這當中我經過了很多測試，選出比較合適的閾值先作為手動閾值的初始值，然後我再採用我設計的手動閾值選取結合邊界輪廓提取的二值化算法對圖像文件進行二值化處理，經過處理的圖像文件可識別度非常的高，而且通過手動閾值選取結合邊界輪廓提取的二值化算法還可以對單像素的噪聲進行了清除。在進行噪聲處理的時候採用中值濾波算法使圖像上存在的不必要噪聲得到清除，我們對圖像文件進行傾斜矯正的方法採用自己設計的結合平行四邊形和直角三角形的原理從上到下逐行對圖像中的像素進行平移便可得到校正過後的圖像文件，對圖像的質量沒有任何影響，而且原理簡單容易實現；在進行字切分的過程中我們採用臨界點切割法，我們通過掃描根據一定的規律對圖像文件進行漢字的行與列的臨界點標記，然後分別把行列臨界點的坐標分別記錄到數組中，我們通過數組中的臨界點，通過規律讓行臨界點n＞1，列臨界點m>1，通過m-(m-1)，n-(n-1)，通過類似的方式對行列進行一次性切分；為了達到識別不同大小的文字我們還要讓圖像中的文字設定特定的規律其中包括漢字的大小的經過算法處理使漢字的大小都相同。

經過上面的一系列處理，我們將處理過的信息，放入到我們的模板庫中進行對比，首先我們將信息分成四個區域進行匹配，對相似漢字的識別例如「日」和「月」，「天」和「夫」，「未」和「末」等都能很好的區分開來，使相似漢字識別存在的不必要的誤差得到了有效的降低

由於採取優化的算法使漢字識別的準確率有了很大的提高，但是由於算法的改進，導致算法的複雜度也有所上升例如手動閾值選取算法結合使用雖然在二值化圖像的質量上面有了大大升高,但是於此同時算法結構複雜我們同時採用了兩種算法結合使識別之前對圖像信息進行處理所占用的時間成幾何增長（大概增長了三倍）、模板匹配算法由於將相樣本分割成數個區域進行分別比對導致所占用時間是原來的幾倍及臨界點漢字切分算法由於所要標記的臨界點位置比較多，因此讀取使用的時候也比較占用時間，總體來說雖然本系統用時比較長，但是對相似字的識別效率比較高。

總體來說，以後漢字識別技術研究的關鍵是更快更准，通過對算法的優化與改進達到瞬間就可以獲取自己所需要的信息的目的。以後發展過程中一定會是多學科跨領域的結合，可以達到隨時獲取信息。

參考文獻

[1] 柴晨陽.印刷體漢字識別綜述[J].計算機光碟軟體與應用,2014,24:141-142.

[2] 梁涌.印刷體漢字識別系統的研究與實現[D].西安：西北工業大學，2006.

[3] Theodoridis. Pattern Recognition[M].USA: Academic Press,2008

[4] Andrew R. Webb Keith D. Copsey.Statistical Pattern Recognition[M].USA: Academic Press,2006.

[5]JamesO.Berger.Springer Series in Statistics[M].BeiJing: World Book Inc,2004.

[6] 馬立文，竇齊豐，彭仕宓，王韶華.用Q型聚類分析與判別函數法進行儲層評價[J].西北大學學報，2003，,33（1）：83-86.

[7] 馬銳.人工神經網絡原理[M].北京:機械工業出版社,2010.

[8] SimonHaykin. Neural networks and machine learning[M]. Canada: Machinery Industry Press,2009.

[9] 吳成茂,郭銳.三種典型模板匹配算法性能比較[J].西安郵電大學學報,2014(03).

[10] 唐振軍,張顯全.一種二值化邊界提取算法[J].微計算機信息,2006,22(30)281-283.

[11] 張恆,丁曉華.一種改進的中值濾波算法[J].中國圖像圖形學報，2004（04）.

[12] 杜學東.漢字細化算法研究與實現[D].濟南:山東科技大學，1997

[13] 周光博.一種印刷體漢字特徵提取的新方法[D].上海：華南師範大學,2006.

[14] 朱昊,劉文耀,王金濤,郝永傑,薛白.汽車牌照字符分割識別[J].計算機測量與控制,2003,11(8):574-576.

[15] 吳越,周廣福.手寫印刷體漢字識別中特徵及提取方法的改進[J].青島大學學報，1996（4）：40-43.

漢字識別關鍵技術研究(我的大學論文)