トップページ

Project Zephyr
『シュタウブ希和辞典』の変化形付きEPWING化

更新履歴

はじめに

ここにあるツールを使って、アウグスチン・シュタウブ先生の『シュタウブ希和辞典』のページ画像を変化形見出し付きのEPWINGにできます。各ページにあるはずの見出し語は、Persus Digital Libraryで電子テキスト化済みの LSJ の見出しとしています。LSJにあってシュタウブ辞典に載っていない語も見つかるのですが、全見出しのテキスト化をサボったための食い違いとしてご容赦ください。

私は、古典ギリシャ語を正式に学び始めてまだ1年ちょっとです(2016年秋開始)。今後、授業で使い勝手を確かめながら、あれこれ更新していく予定です。気長におつきあいください。

ギリシャ語辞典(大学書林, 1989)古典ラテン語辞典(大学書林, 2007)古典ラテン語辞典・改訂増補版(大学書林, 2017)の変換ツールもあります。

検索画面例

見出し検索

検索語が載っているであろうページの画像を表示します。この例では427ページの右側です。辞書本体の見出しとして検索できるのはLSJに載っているものだけです。ページ番号でも検索できます。

スクロールして目的の語を探します。

変化表の表示

Perseusのもの(らしい)ギリシャ語変化形データを、表形式にまとめたものも見られます。名詞・動詞・形容詞のみ収録しています。見出し語の右端に # が付いています。

このような表形式にまとめて分かったのですが、変化形が載っていないものや、一部欠けているものも目に付きます。表中では --- としたり、表自体を載せていません。正しくない変化形情報もあります。信用しすぎないで下さい。

attic(アッティカ方言)以外のものは、表の中で {...} で語を出し、表の下に変化形情報を載せています。

変化形から辞書検索

変化形を検索すると、その変化形情報と元の形が分かります。元の形をクリックすると、それが載っているであろうページ画像にジャンプしますので、スクロールしてその語を探します。

前書き・付録など

メニュー検索で、前書きや付録の各ページも見られます。




EPWING化に必要なもの

動作確認環境:Windows 7 (32bit)、Intel i5-2500 (3.3GHz)、3GBメモリ。EBStudio 1.70b、EBWin 4.4.3.0。




1.シュタウブ辞典の自炊(PDF化)

私は以下のように自炊しました。スキャンの設定によっては、次のEPWING化でうまく行かない事があるかも知れませんが、免責とさせてください。

  1. シュタウブ辞典をキンコーズで断裁してもらう。約1000円。
  2. ScanSnap iX500で全ページ(書名ページから奥書まで)スキャンしてPDF保存(約55MB)。PDFはモノクロ画像に変換にしますので、カラーモードは「グレー」ではなく「白黒」がおすすめです。

私は、上記のように「傾き補正なし」でスキャンしましたが、「補正あり」のほうが良いようです。

2.PDFのページ画像化

2.1.パラメータ設定 (params.bat)

params.batをエディタ(メモ帳など)で開き、PDF_NAME, DPI, MARGIN, CLEAN_RANGE, IGNORE_DOT, THREAD_NUMの設定を確認します。PDFファイル名など、適宜変更します。

DPIは200にしても一応見られますが、気息記号などの判別が苦しい事があります。

MARGIN,CLEAN_RANGE, IGNORE_DOTは、余白部分の自動削除のためのパラメータです。時々ゴミの黒ドットが載る事があるため、多少の黒ドットは無視できるようにしています。以下の例では、5ミリ四方に30ドット以下しかなかったら、ゴミとして消去します。また、余白と判定した部分をすべて取り除くと、文字の一部が欠けてしまう事があるので、MARGINドットは余白部として残すようにしています。

THREAD_NUMを2以上にすると、画像変換が同時に複数ページずつ行われます。最近のCPUは2コア、4コアのものが一般的ですので、適当に増やしてください。

@ECHO OFF

::変換するPDFファイル名
set PDF_NAME=staub.pdf

::出力画像の解像度 [dpi]
set DPI=300

:: 余白削除のパラメータ
::: MARGIN 残す余白のドット数
::: IGNORE_DOT CLEAN_RANGEミリ四方にIGNORE_DOT個以下のドットしかなければ、ゴミとして消す
::: CLEAN_RANGE を 0 とすると、ゴミドットを消去しない(PDF->画像変換が早くなる)
set MARGIN=20
set CLEAN_RANGE=5
set IGNORE_DOT=30

:: 同時実行数
set THREAD_NUM=2
・・・

2.2.まえがき・奥付の画像化 (makeheadbmp.bat)

前書きページを3枚のページ画像にします。head1.bmp~head3.bmpができます。522ページの奥付は apdx1.bmp になります。

[重要] 自炊PDFの何ページ目から「まえがき」で、奥付は何ページからか、makeheadbmp.bat をエディタで開き正しく設定してください。以下の例では、「まえがき」はPDFの2~4ページ目、奥付はPDFの522ページ目になっています。これらの数字を適切に書き換えてください。

:: まえがき・奥付のBMP変換
%JAVA% zephyr.util.PDF2MonoBMP %PDF_NAME% %BMP_DIR% %DPI% 2 4 head
%JAVA% zephyr.util.PDF2MonoBMP %PDF_NAME% %BMP_DIR% %DPI% 522 522 apdx

makeheadbmp.batをダブルクリックして実行すると、makeheadbmp.bat のあるフォルダに p フォルダができて、そこにページ画像ファイルができます。head.hmlやapdx.htmlをブラウザで開くとそれらしく表示されるはずです。ページ画像の増減は、これらのHTMLファイルを手修正して対応してください。

変換には数分かかります。

2.3.辞書本体の画像化 (makebodybmp.bat)

辞書ページを、左右に2分割した画像ファイルにします。pフォルダに、1ページ左(1a.bmp)、1ページ右(1b.bmp)、・・・・、521ページ右(521b.bmp)ができます。

すべての画像が出来た後、ファイルをサイズ順に表示して、あまりに差が大きいページがあったら、自動分割がうまくてきていません。適当なツールでそのページだけ手作業でページ画像を作成してください。

変換プログラムは、ページ上のT字型の縦横線を自動判別して、左右に分割しています。あまりに傾きが大きいスキャン結果ですと、分割がうまく行われないかも知れません。

[重要] 自炊PDFの何ページ目が辞書本文か、makebodybmp.bat をエディタで開き正しく設定してください。以下の例では、辞書本文(紙面上で1~517ページ)がPDFの5~521ページ、になっています。この数字を適切に書き換えてください。

:: 辞書本文のBMP変換
%JAVA% zephyr.util.PDF2MonoBMPDual %PDF_NAME% %BMP_DIR% %DPI% 5 521

makebodybmp.batをダブルクリックして実行すると、makebodybmp.bat のあるフォルダに p フォルダができて、そこにページ画像ファイルができます。変換には20分ほどかかります。

3.EBStdioによるEPWINGデータ作成

  1. EBStudioを起動し、staub.ebsを開く
  2. 「基準ディレクトリ」を、EPWING化ツールの解凍フォルダ(body.htmlなどがある)に設定する
  3. 「入力ファイル名」「出力先」を正しく設定する
  4. 「ファイル→実行」でEPWING化する。変換には数分かかります。
    途中で「Title too long」というような警告が出ますが「OK」を押して処理を継続してください。

ページ画像と大量の変化形テキストがあり、300dpiで画像化した場合、EPWINGデータ1GBほどになります。

外字設定ファイルは、EPWING for the classics のものと同じです。こちらのgaiji-conf-170624.zipにある CLSEPW.map などをご利用ください。




ギリシャ文字のローマ字検索について

EPWING for the classicsと同じです。

ただし、自分自身がギリシャ語を学ぶようになって、実際に使ってみると、ε=η=e、ο=ω=oでは、ηやωの方を探したい時に不便だと感じました。このため、η=h、ω=wでも検索できるようにしてみました。例えば、Σωκράτηςは Sōcratēs (socrates)でも Swcraths(swcraths)でも見つかります。今後、ローマ字検索の方法については変更するかも知れません。

ページ画像の汚れ削除について

使い込んだ辞書ですと、自動消去できないほどの大きい汚れが画像に残ることがあります。これは、画像変換後に、適当なツールで手作業で消してください。その後、trim.batを実行して、手修正した画像について再トリミングを行います。詳しくはこちら

ページ画像の拡大・縮小について

巨大なページ画像を表示するため、小さな挿絵画像の表示を前提としたEPWINGビューワーではあまり使い勝手が良くないことがあります。これはもう仕方がないかと思います。

EBWin4では、ページ画像を元のサイズ(拡大縮小なし)で表示します。ページ画像が表示された状態で「Ctrl + +」(Ctrlと+を同時に押す)で拡大、「Ctrl + -」で縮小、「Ctrl + 0」(このゼロはテンキーのゼロではなくて、oとpの上のものを押す必要あり?)で通常サイズになります。

EBPocket for iOSでは、ページ画像の横幅は iPhoneの画面横サイズになるようです(今後変わるかも知れません)。ピンチ操作(2本指で間を増減)で拡大・縮小できます。個人的には、iPadでの縦表示が最も収まりがよいと思います。

著作権とライセンス

自炊データ、EPWINGデータの不正利用は厳に慎んでください。

変換プログラムは、パブリックドメインとします。pdfbox-app-2.0.4.jarはApache PDFBoxのものです。

連絡先

このプロジェクト用のなんでも掲示板もあります。EBWin/EBStudioそのものについては、hishidaさまの掲示板のほうが良いでしょう、

謝辞

今もEPWING関連ソフトを熱心にサポートしてくださっているhishidaさまに深くお礼申し上げます。

シュタウブ先生に深く感謝致します。

(C) 2018, Katsuhiko OHKUBO.