2019年12月27日金曜日

棋譜OCRプログラムの軌跡(12)他の電子書店では?

ここまで、電子書店パピレスのNHK 囲碁講座テキストを使って、棋譜読み取りをしてきました。専用のプログラムのインストールが不要なことから、パピレスの電子本を使って試行を始めましたが、パピレスでは、図形の拡大が可能で手順番号が十分な精度で取得できたことが、幸いしたようです。
他の電子書店は、どうでしょうか?

最初に、手元にある hontoのNHK囲碁講座2019年10月号を使ってみました。
hontoは、専用の閲覧ソフトがあり無償でダウンロード可能です。
フォントサイズの拡大は可能ですが、図形の拡大は出来ません。ただしWindowの大きさを最大にすると、それに応じて図形も大きくなります。以下に画面を最大化した結果を示します。

元の画像 Dell Inspiron5759
(DPI=96)
HP ENVY 15 x360
 (DPI=120)

マス目の大きさ x=14.611 y=14.666x=17.833 y=17.777
多くの白石を拾い漏れ
黒石・白石とも多くの石で
 手順番号の認識誤り
白石の拾い漏れはなし
手順番号の認識誤りは黒石・白石とも
数多く見受けられるが
DPI=96と比べると改善
DPI=96、120ともに、位置の認識はともかく、手順番号読み取りは実用的には、かなり難がありそうです。もっとも全て手入力するのに比べれば、楽ですが・・(苦笑)



NHK囲碁講座の電子本が入手可能な主な電子書店を、お試し本を基に調べた結果を下表に示します。

電子書店立ち読み機能ブラウザ/アプリ 図形拡大 立ち読み結果
NHK出版 有り標準ブラウザ不可文字図形とも拡大表示できず、
しかもかなり小さいため使用不可と判断。
honto 有り専用アプリ不可文字は拡大できるが、図形は拡大できない。
BookLive! 有り専用アプリ不可文字は拡大できるが、図形は拡大できない。
Reader Store 有り標準ブラウザ 不可文字は拡大できるが、図形は拡大できない。
Kinoppy有り専用アプリ不可文字は拡大できるが、図形は拡大できない。
DMM電子書籍有り標準ブラウザ 不可文字は拡大できるが、図形は拡大できない。
ebookjapan 無し標準ブラウザ 解説記事をみると、拡大表示もできそうだが詳細は不明
Kindle無し専用アプリ解説記事をみると、拡大表示もできそうだが詳細は不明
楽天KOBO 有り専用アプリ 不可Snippingツールで画像を取り込もうとすると
専用アプリがグレーになり、画像の取り込みができない
Fujisan.co.jp サンプル画像標準ブラウザ/Flash可?HTML5によるブラウザ表示で、文字図形とも拡大可能。


  1. NHK出版 
    本家本元!! 書籍と全く同じレイアウトで、閲覧できますが、文字図形とも拡大は出来ず、かなり図形は小さく 使えないと判断しました。
  2. hontoBookLive, Reader Store, Kinoppy, DMM電子書籍
    EPUBリフロー形式で、文字・行間の拡大は出来ますが、図形の拡大はできずWindowサイズに合わせてサイズの調整がされます。立ち読み機能では、講座部分しか公開されていないので、hontoを除き棋譜図の大きさ(碁盤のマス目)は正確にはわかりません。

    Windowを最大化して、講座部分に表示されている検討図の大きさを比較すると
    Reader Store < honto < Kinoppy < BookLive = DMM の順になっています。

    Paintで手元にある honto と最大の DMM の検討図の大きさを比較すると、honto : BookLive ≒ 28 : 31 と hontoの1.1倍の大きさで、前述したhontoの読み取りテストの結果と合わせると、高DPIのPCを使っても マス目の大きさは 17.777 * 31 ÷ 28 = 19.68 と 実用的な認識率が得られる可能性は低そうに感じます。
  3. ebookjapan , kindle
    ともに立ち読み機能がないので、テストはできません。解説記事をWEBでググっても目的の棋譜図の拡大ができるか否かの判断が付きません。後日、実際に購入して実験する必要がありそうです。
  4. fujisan.co.jp
    サンプル画像の閲覧だけで、立ち読み機能はないので詳細は不明ですが、文字・図形とも拡大表示可能で、十分な大きささで表示できました。
    早速購入して実験しました。



fujisan.co.jp実験結果

fujisan..co.jpから、NHK 囲碁講座テキスト2019年12月号を購入 第67回NHK杯2回戦第7局の4譜をHTMLビューワで開きました。ビューワの+ボタンのクリック回数を変えて、snipping toolで画像を取り込んで実験しました。(DPI=96)

元の画像
+ボタンクリック無 +ボタンクリック1回+ボタンクリック2回
マス目の大きさ
x=14.833 y=15.125

x=24.666 y=24.694

x=34.527 y=34.555
黒石は大方取り込んでいるが
白石は手順番号がある石は殆ど
漏れている。
手順番号は、黒石・白石とも
殆ど認識できていない。
石の拾い漏れは、黒石・白石ともに
ほとんどない。
手順番号の誤りは、黒石・白石とも
多くの石で認められる。
石の拾い漏れは、黒石・白石ともに
ない。
手順番号の読み取り精度は、
クリック1回に比べれば、改善して
いるものの多くの誤りが見られる。

結果は、+ボタンを2回クリックして拡大した画像を取り込めば それなりの精度で手順番号も取り込めることがわかりました。
原稿が違うことから、単純比較はできませんが、読み取り精度的にはパピレスに軍配があがるようです。ただし、個人的な好みでは、書籍の閲覧のしやすさの面で、fujisanの方が優れているように感じました。

開発環境
 OS:Windows10
 言語:C#(WPF使用)
 IDE:VisualStudio2019
 仕様Tool:OpenCvSharp v4.0.0.20181129
      Tesseract v3.3.0.0
 

0 件のコメント:

コメントを投稿