2020年1月1日水曜日

棋譜OCRプログラムの軌跡(13)日本棋院e碁BOOOKSでは?

日本棋院が刊行している、電子書籍 『e碁BOOOKS』 には、週刊碁・囲碁未来・囲碁ワールドの3誌があります。週刊碁・囲碁ワールドの2誌は、棋譜再生機能をもっており、今回のプログラムは不要かもしれません。
ただし、予め備わった棋譜再生機能では、棋譜図を取り込んで検討することは出来ません。また全ての棋譜図に再生機能が付いているわけではないので、この2誌についても読み取りテストを試みました。

  1. 週刊碁

    週刊碁には、棋譜再生機能付きの棋譜と 再生機能がない棋譜の2種類があります。
    今回は、2013年04月15日号からこの2種類の棋譜の読み取りをしてみました。

    マス目の
    大きさ
    元の画像 読み取り結果






     x=23.888
     y=23.861
    石の検出漏れはない
    手順番号読み取り誤り
     黒石エラー無
     白石エラー多数





     x=17.916
     y=17.888
    白石検出漏れなし
    黒石検出漏れ多数

    (3,3)黒10を18と誤認識

    再生機能付きの棋譜の場合 マス目の大きさは十分にも関わらず、白石で手順番号の読み取りミスが多く、再生機能無の場合 黒石の検出ミスが多く見受けられます。


  2. 囲碁未来

    囲碁未来には、再生機能付き棋譜はありません。また棋譜は級位者に対する解説記事で取り上げられ、対局棋譜はありません。
    手元にある2019年11月号では、大中小3種類の大きさの棋譜があります。この3種の大きさの棋譜の読み取りをしてみました。
     大:なごやかレッスンから 第2譜
     中:中級 並べて学ぶ布石と中盤から 互先模範局2
     小:上級 急場の見つけ方から

    マス目の
    大きさ
    元の画像 読み取り結果

     x=33.861
     y=33.888
    (9,13)白63を53と誤認識

     x=29.166
     y=29.166
    石検出漏れなし

    手順番号誤り
     白石多い
     黒石はほぼOK

     x=22.083
     y=22.083
    石検出漏れなし

    手順番号誤り
     白石多い
     黒石はほぼOK

    大のなごやかレッスン以外は、石の検出漏れはないものの 白石の手順番号の読み取りエラーが多く見受けられます。


  3. 囲碁ワールド

    囲碁ワールドには、多くの実戦棋譜が記載されています。しかもその棋譜は、再生機能付きとなっています。手元の2013年04月号から、棋譜図を取得しようと試みましたが、棋譜図の周りの赤線を除外することが難しく、画像の取得をあきらめました。
    予め備わっている再生機能を使ったほうがよさそうです。


週刊碁・囲碁未来とも、拡大ボタンをクリックして大きな画面にして画像の取得を行いました。週刊碁の再生機能無の棋譜を除き、マス目の大きさが示すように、 NHK囲碁講座テキストと比較して 遜色のない大きさの図形が取得できています。しかし、手順番号の取得 特に白石の手順番号の取り込みに失敗しています。

Tesseractに渡す 画像の加工処理をチューイングすることで、読み取り精度の向上が見込まれると思いますが、「NHK囲碁講座テキスト」と「日本棋院刊行物」といった原稿の違いを吸収する必要もあり難易度が高そうです。
 ・フォントの違い
 ・石同士が接触/非接触 etc



開発環境
 OS:Windows10
 言語:C#(WPF使用)
 IDE:VisualStudio2019
 仕様Tool:OpenCvSharp v4.0.0.20181129
      Tesseract v3.3.0.0
 

0 件のコメント:

コメントを投稿