標籤:
當我們打算使用掃瞄書本及使用 OCR 技術來產生經文時,第一個遇到的問題就是經文圖檔的「雜點」,「雜點」是指非經文本身的符號,在 OCR 時,會造成較低的判斷正確率,所以就寫出了這支程式來協助解決這個問題。
底下是三種大藏經圖檔處理前與處理後的比較:
大 正 大 藏 經 |
||
去點前的圖檔 | 去點後的圖檔 | |
大正大藏經要去除的雜點為閱讀符號, 位置大多在一般文字的左下方,形狀大多是 一、二、中... 等小字 |
續 藏 經 |
||
去點前的圖檔 | 去點後的圖檔 | |
續藏經文中的讀音符號與大正藏相似, 差別僅是其位置是在文字的左邊. |
佛 教 大 藏 經 |
||
去點前的圖檔 | 去點後的圖檔 | |
佛教大藏經要去除的雜點為圈點符號, 形狀為一個實心黑圓圈. |