圖檔辨識去雜點程式

標籤:

當我們打算使用掃瞄書本及使用 OCR 技術來產生經文時,第一個遇到的問題就是經文圖檔的「雜點」,「雜點」是指非經文本身的符號,在 OCR 時,會造成較低的判斷正確率,所以就寫出了這支程式來協助解決這個問題。

底下是三種大藏經圖檔處理前與處理後的比較:

image



image
去點前的圖檔   去點後的圖檔
大正大藏經要去除的雜點為閱讀符號, 位置大多在一般文字的左下方,形狀大多是 一、二、中... 等小字

 

image

image
去點前的圖檔   去點後的圖檔
續藏經文中的讀音符號與大正藏相似, 差別僅是其位置是在文字的左邊.

 

image



image
去點前的圖檔   去點後的圖檔
佛教大藏經要去除的雜點為圈點符號, 形狀為一個實心黑圓圈.

 

 
 
image