2017年08月29日

第2部首を使った漢字変換用システム辞書ファイル6&自称実用全苗字システム辞書

 予告したアップロードの件です。

 先ずは第二部首変換用辞書。

第二部首変換用システム辞書(IME 15、MS-IME 2012、Windows 8以降)


第二部首変換用システム辞書(IME 14、MS-IME 2010、Windows 7)


 なお、IME14用のシステム辞書ファイルをWindows 2000に標準搭載されているMS-IME 2000(IME 7)で試したところ、認識されませでんした。Windows XPに搭載されていたIMEに関してはまた今度試してみたいと思います。Windows VistaやMS-IME 2007は持っていないので試せませんが、MS-IME 2010は確かWindows XPでも載せられたように思うので、Windows Vistaの方はIME 2010を導入すれば使えます。

 同じく前回予告としてちらりと書いたシステム辞書です。

自称実用全苗字 (IME 15、MS-IME 2012、Windows 8以降)


自称実用全苗字 (IME 14、MS-IME 2010、Windows 7)


 苗字に関しては、最近のクラウドを活用したIMEですとマイクロソフト社製でもグーグル社製のものでもかなり網羅されていますが、それでもたまに出て来ないものがあります。この変換辞書は一応、現在使われている苗字に関してはほぼ網羅している……ようです。私も確認したわけじゃないのでよく分かりませんが。

 きっかけはお盆にたまたま何かの苗字の読み方を確認する際、「苗字を沢山集めたサイトがあったけど名前なんだっけ?」と忘れてしまっていたのでグーグルで漠然と検索したら、目的のものはすぐに見つかったのですが、それとは別に目に入ったサイトがあり、用が済んだあとにのぞいてみたことにあります。

実在苗字(名字)の五十音順通覧


 このサイトでは、日本の苗字が30万種もあるというのは疑わしく、実在が確認されていないものをひっくるめたり、大まかな計算によるものだとし、電話帳で調べた限りは10万ほど、旧字や異体字など表記の違いを含めても15万以下じゃないのか?と推測しています。そして電話帳で調べたものをすべて掲載しています。

 多くの人にとって、苗字を網羅した書物やサイトは学問的な探求ではなく単純な興味か実用上の読み方・書き方の確認に使う程度でしょうから、正直10万だろうが30万だろうが、実在していようがいまいがどちらでもいいのではないでしょうか?(笑) 少なくとも実用分が包含されていれば、あとはオマケみたいなものですし、本や一覧表でちまちま探すのなら無駄なものは省かれた方が手間は減りますが、検索サイトや検索用のプログラムで探す場合はそれほど手間でもないですから。

 このサイトの問題提起は、個人的には大筋では間違っていると思いませんが、私が注目したのはそういった情報処理の議論ではなく、一覧がテキストで書かれているという点でした。つまりは訪問者にとってデータの扱いが楽ということです。いくつかのページに分割されていますが、複写して一箇所に集めれば、筆者の主張する電話帳を網羅した苗字全覧が出来上がります。あとは書式を整えてやればそのまま単語登録できます。電話帳を参照したというので主に戦後のものでしょうから、現在使われている苗字はもうこれで全て用が済みます。新たに単語登録する必要も無いですし、「こんな苗字本当にあるのだろうか?」「こういう読み方の苗字の表記はいくつあるのだろうか?」といった素朴な疑問も、ネットや本やTV番組に頼らず手元で簡単に確認できます。漏れているのは主に帰化した人や、特殊な事情で苗字を変更した人程度でしょう。

 そんなわけで、早速データを拾い集めて統合してみました。すでに地名や人名などは独自に単語登録ファイルを作成しているので、最終的にはそこへ吸収させる予定でしたが、その前に掲載分だけをシステム辞書にしてアップロードしたら、他の人にも役に立つかなと思い、今回のようになりました。

 単純に全てを足した分では13万近くあります。ちなみに日本の住所地も郵便局が公表しているものから取ってきて単語登録ファイルにしてるんですが、14万ほどでした。漢字は第二部首変換用ファイル掲載で7万ほどですが、まだまだパソコン上で扱えない漢字は多いですし、異体字のバリエーションもあるので、やはり15万~20万くらいはあるんじゃないかと予想してます。似た様な規模なのが面白いところですが、まぁ、たまたまでしょう。

 その漢字の件ですが、上記サイトではパソコン上で扱えない漢字や、扱いに注意を要する機種依存文字などは全て画像ファイルで表示しています。これでは単語登録できないので、全てテキストに替えました。半分はユニコードで対応できますし、半分は分解表記で対応します。第二部首変換用システム辞書と同じ要領です。更に、一覧表は旧字表記との対応が完璧ではないので、いくらか追記をしています。但し、全部には行っていません。これからのんびりちょっとずつ補完していこうかと思います。基本的に私が自分で利用する為の便で、公開は副次的なものだと考えて下さい。個人的には便利に使ってるので、他の人も使いたければどうぞというおすそ分け程度のもので、注目されたり褒められたいといった所謂承認欲求みたいなものは微塵も無いです(笑) 他にも色々作ってあるんですが、個人利用に最適化しており、他人には不向きなものばかりなので公開予定は今のところ無いです。第二部首の概念もかなり個人利用特化ではありますが、もっと酷いのが一杯あります(笑)

 今回、画像をテキストに変換する際、第二部首変換用ファイルを主に使いました。その過程で、間違っている箇所や変更すべき点、追加をする文字などが複数発見され、結果第二部首変換用ファイルの更新にも繋がったわけです。

 なお、IVS (Ideographic Variation Sequence、異体字シーケンス)をご存じない方は注意してください。簡単に言ってしまえば、半角4文字で1つの文字を表す方式で、これによって例えば草冠が「艹」なのか「艹」なのか「䒑」なのかを区別することができます。但し、フォントやアプリによって使える場合と使えない場合があります。しかるべきフォントを入れて設定さえすればFirefoxや秀丸では大部分表示できますが、電子メールやエクセル2010では対応していません。2016年版のMSオフィスでどうなっているのかは知りませんが、徐々に対応範囲は広がっていくのではないかと思います。フォントに関しては日本の公的機関で公開していたので「IVS フォント」とでも検索したら恐らく出て来るのではないかと思います。

 グーグルに「IVS フォント」と入れると最初にでますね。

IVD/IVSとは | 文字情報基盤整備事業


ゴチャゴチャ鬱陶しい説明で結局何が言いたいのかよく分からん、フォントはどこよ?って人には直リンをどうぞ(笑)

IPAmj明朝ver.004.01


ただし、説明に同意したことになるのでご注意を。特に困ることはないと思いますが。


 それから、第二部首変換用ファイルは追加のあとチェックを入れても変換時に入力する言葉が特殊なので邪魔にはなりませんが、自称実用全苗字ファイルは追加したあと、チェックは入れない方が、普段使わないような苗字が沢山出て来て邪魔になるのを防げるかと思います。「わんさかでてきた」と書いて変換したら「椀坂出て来た」になったり、「悪だくみ」と変換しようと思ったら「和留田組」になったなんてことになりかねません。ハザマさんは45パターンくらいあります。

 チェックの有無以外の導入の仕方は第二部首変換用ファイルと同じですので、

第2部首を使った漢字変換用システム辞書ファイル



を參照して下さい。チェックの話は「⑪□をクリックしてチェックを入れる」です。

posted by Marimó Castellanouveau-Tabasco at 10:44| PC関連 | このブログの読者になる | 更新情報をチェックする