2019年11月21日木曜日

棋譜OCRプログラムの軌跡(5)特殊文字対策

前回までで、棋譜作成に必要な手順番号の取得ができました。しかし、解説のため描かれている文字・記号が混じっていて、誤認識しています。


【元の画像】

【解析結果】

(8,7) の D (11,8) の 白△に注目すると
  • (8,7) の D を 誤って白石とみなし認識不能
  • (11,8) の 白△ を 1と誤認識
となっています。 共に、解説のため描かれているものなので、棋譜作成には不要なため、変換処理対象外とすべきところです。手順番号取得処理前に、テンプレートマッチングで、D および  白△ を識別して、処理対象外としました。


誤認識している石も見受けられますが、不要な石は除外されています。



参考にしたサイト
C#とOpenCVSharpで画像処理!


開発環境
 OS:Windows10
 言語:C#(WPF使用)
 IDE:VisualStudio2019
 仕様Tool:OpenCvSharp v4.0.0.20181129
      Tesseract v3.3.0.0
 使用電子本:電子書店パピレスのNHK 囲碁講座 テキスト

0 件のコメント:

コメントを投稿