トップページ

Project Zephyr
『古代ギリシャ語語彙集 改訂版』の変化形付きEPWING化

更新履歴

はじめに

ここにあるツールを使って、大阪公立大学共同出版会『古代ギリシャ語語彙集』のページ画像を変化形見出し付きのEPWINGにできます。各ページの見出し語(と一部の特殊変化形)とそれに関係する変化形表や変化形も検索できます。私が参照したのは、「改訂版第3刷(2017/7/18)」です。

私は、古典ギリシャ語を正式に学び始めてまだ2年ちょっとです(2016年秋開始)。今後、授業で使い勝手を確かめながら、あれこれ更新していく予定です。気長におつきあいください。

ギリシャ語辞典(大学書林, 1989)シュタウブ希和辞典(リトン, 2010)古典ラテン語辞典(大学書林, 2007)古典ラテン語辞典・改訂増補版(大学書林, 2017)の変換ツールもあります。

検索画面例

見出し検索

検索語が載っているであろうページの画像を表示します。この例では44ページの右側です。辞書本体の見出しとして検索できるのは、『古代ギリシャ語語彙集』の太字見出し語(と一部の変化形)に載っているものだけです。ページ番号でも検索できます。

スクロールして目的の語を探します。

見出し語が元になっている派生語もあわせて検索できます。

変化表の表示

この語彙集に出てくる見出し語に関係する変化形だけを検索できます。Perseusのもの(らしい)ギリシャ語変化形データを、表形式にまとめたものも見られます。名詞・動詞・形容詞のみ収録しています。見出し語の右端に # が付いています。

このような表形式にまとめて分かったのですが、変化形が載っていないものや、一部欠けているものも目に付きます。表中では --- としたり、表自体を載せていません。正しくない変化形情報もあります。信用しすぎないで下さい。

attic(アッティカ方言)以外のものは、表の中で {...} で語を出し、表の下に変化形情報を載せています。

変化形から辞書検索

変化形を検索すると、その変化形情報と元の形が分かります。元の形をクリックすると、それが載っているであろうページ画像にジャンプしますので、スクロールしてその語を探します。

前書き・付録など

メニュー検索で、前書きや付録の各ページも見られます。




EPWING化に必要なもの

動作確認環境:Windows 7 (32bit)、Intel i5-2500 (3.3GHz)、3GBメモリ。EBStudio 1.70b、EBWin 4.4.3.0。




1.辞典の自炊(PDF化)

私は以下のように自炊しました。スキャンの設定によっては、次のEPWING化でうまく行かない事があるかも知れませんが、免責とさせてください。

  1. シュタウブ辞典をキンコーズで断裁してもらう。約100円。
  2. ScanSnap iX500で全ページ(書名ページから奥書まで)スキャンしてPDF保存(約13MB)。PDFはモノクロ画像に変換にしますので、カラーモードは「グレー」ではなく「白黒」がおすすめです。

私は、上記のように「傾き補正なし」でスキャンしましたが、「補正あり」のほうが良いようです。

2.PDFのページ画像化

2.1.パラメータ設定 (params.bat)

params.batをエディタ(メモ帳など)で開き、PDF_NAME, DPI, MARGIN, CLEAN_RANGE, IGNORE_DOT, THREAD_NUMの設定を確認します。PDFファイル名など、適宜変更します。

DPIは200にしても一応見られますが、気息記号などの判別が苦しい事があります。

MARGIN,CLEAN_RANGE, IGNORE_DOTは、余白部分の自動削除のためのパラメータです。時々ゴミの黒ドットが載る事があるため、多少の黒ドットは無視できるようにしています。以下の例では、5ミリ四方に30ドット以下しかなかったら、ゴミとして消去します。また、余白と判定した部分をすべて取り除くと、文字の一部が欠けてしまう事があるので、MARGINドットは余白部として残すようにしています。

THREAD_NUMを2以上にすると、画像変換が同時に複数ページずつ行われます。最近のCPUは2コア、4コアのものが一般的ですので、適当に増やしてください。

@ECHO OFF

::変換するPDFファイル名
set PDF_NAME=古代ギリシャ語語彙集.pdf

::出力画像の解像度 [dpi]
set DPI=300

:: 余白削除のパラメータ
::: MARGIN 残す余白のドット数
::: IGNORE_DOT CLEAN_RANGEミリ四方にIGNORE_DOT個以下のドットしかなければ、ゴミとして消す
::: CLEAN_RANGE を 0 とすると、ゴミドットを消去しない(PDF->画像変換が早くなる)
set MARGIN=20
set CLEAN_RANGE=5
set IGNORE_DOT=30

:: 同時実行数
set THREAD_NUM=2
・・・

2.2.辞書本体の画像化 (makebodybmp.bat)

辞書ページを画像ファイルにします。2段組ページでは、左右に2分割もします。

すべての画像が出来た後、ファイルをサイズ順に表示して、あまりに差が大きいページがあったら、自動分割がうまくてきていません。適当なツールでそのページだけ手作業でページ画像を作成してください。

あまりに傾きが大きいスキャン結果ですと、分割がうまく行われないかも知れません。

[重要] 自炊PDFの何ページ目が辞書本文か、makebodybmp.bat をエディタで開き正しく設定してください。以下の例では、辞書本文(紙面上で1~157ページ)がPDFの6~162ページになっています。この数字を適切に書き換えてください。

:: 辞書本文のBMP変換
%JAVA% zephyr.omup.grgoi.PDF2BMP %PDF_NAME% %DPI% 6 162

makebodybmp.batをダブルクリックして実行すると、makebodybmp.bat のあるフォルダに p フォルダができて、そこにページ画像ファイルができます。変換には10分ほどかかります。

3.EBStdioによるEPWINGデータ作成

  1. EBStudioを起動し、staub.ebsを開く
  2. 「基準ディレクトリ」を、EPWING化ツールの解凍フォルダ(body.htmlなどがある)に設定する
  3. 「入力ファイル名」「出力先」を正しく設定する
  4. 「ファイル→実行」でEPWING化する。変換には数分かかります。
    途中で「Title too long」というような警告が出ますが「OK」を押して処理を継続してください。

ページ画像と大量の変化形テキストがあり、300dpiで画像化した場合、EPWINGデータ250MBほどになります。

外字設定ファイルは、EPWING for the classics のものと同じです。EPWING化ツールに付属のものか、こちらのgaiji-conf-170624.zipにある CLSEPW.map などをご利用ください。

巻頭・巻末のページ画像がずれる場合は、body.htmlの冒頭・末尾の画像参照ファイル名を手で直してから、EBStudioで再処理してください。




ギリシャ文字のローマ字検索について

EPWING for the classicsと同じです。

ただし、自分自身がギリシャ語を学ぶようになって、実際に使ってみると、ε=η=e、ο=ω=oでは、ηやωの方を探したい時に不便だと感じました。このため、η=h、ω=wでも検索できるようにしてみました。例えば、Σωκράτηςは Sōcratēs (socrates)でも Swcraths(swcraths)でも見つかります。今後、ローマ字検索の方法については変更するかも知れません。

ページ画像の拡大・縮小について

巨大なページ画像を表示するため、小さな挿絵画像の表示を前提としたEPWINGビューワーではあまり使い勝手が良くないことがあります。これはもう仕方がないかと思います。

EBWin4では、ページ画像を元のサイズ(拡大縮小なし)で表示します。ページ画像が表示された状態で「Ctrl + +」(Ctrlと+を同時に押す)で拡大、「Ctrl + -」で縮小、「Ctrl + 0」(このゼロはテンキーのゼロではなくて、oとpの上のものを押す必要あり?)で通常サイズになります。

EBPocket for iOSでは、ページ画像の横幅は iPhoneの画面横サイズになるようです(今後変わるかも知れません)。ピンチ操作(2本指で間を増減)で拡大・縮小できます。個人的には、iPadでの縦表示が最も収まりがよいと思います。

著作権とライセンス

自炊データ、EPWINGデータの不正利用は厳に慎んでください。

変換プログラムは、パブリックドメインとします。pdfbox-app-2.0.4.jarはApache PDFBoxのものです。

連絡先

このプロジェクト用のなんでも掲示板もあります。EBWin/EBStudioそのものについては、hishidaさまの掲示板のほうが良いでしょう、

謝辞

今もEPWING関連ソフトを熱心にサポートしてくださっているhishidaさまに深くお礼申し上げます。

山口義久先生をはじめ、大阪公立大学共同出版会のみなさまに深く感謝致します。

(C) 2018, Katsuhiko OHKUBO.