2018年02月07日

ゑいのためとしてゐをするとなしたり①

 花園明朝フォントに追加された漢字の第二部首変換システム辞書ファイルへの追加登録作業は少しずつ進めているのだが、以前少しやり残したものも足すと合計𝟏万𝟒𝟎𝟎𝟎字ほどあるのでまだ時間がかかりそう。

 今日までに第一部首の確定はほぼ完了した。そのうち何千字かはユニコードの私用領域を使っている文字だと分かった。これは花園明朝𝐀で表示されるが、汎用性は落ちるので現段階で第二部首変換に含めるのは保留しておこうと思う。それを抜くと、このあとの作業は何割か減るので楽になりそう。目的ではなく手段として使うための道具作りで𝟏𝟎数万の登録を何度も扱っていると、𝟏万ちょっとは、少ないとは思わないが、それほど苦にはならなくなった。そのおかげで、数千社分の書類の山も大したことない、「時間さえかければできるよね」程度に感じられたのは思わぬ効果だった。以前話題にした『病名くん』所収の傷病名𝟏․𝟓万は既に登録が終わっている。

 追加漢字の今後の流れとしては、

②偏旁冠脚の振り分け
③部首外画数の確定
④第二部首の確定
⑤登録書式の整形
⑥試験登録
⑦修正
⑧既存データへの併合
⑨テキスト・ファイルの作成
⑩単語登録
⑪システム辞書ファイル作成
⑫システム辞書の更新登録


となるが、一番面倒なのが部外画数と第二部首の確定。以前は指を動かしながら画数をかぞえていたが、今回は漢字検索サイトに文字を複写して参照してみようかなと試してみた。この方が速いし正確だろうと。しかし必ずしもそうとは言えないよう。「必ずしも~ない」という言い回しを今使ってふと、「そういえば先日間違えて逆を書いてしまわなかったかな?」と思ったので念のため確認してみたら、逆になっていた。重要な違いなので改めて書いておこう。

必不²死¹:必ズ死ナズ﹦絶対死なない
不²必死¹:必ズシモ死ナズ﹦死ぬとは限らない

 以前のも修訂しておいた。眠い時間帯に書くのは要注意だな。やはり時間を気にせずに書いた方がよさそう。聖徳太子と一緒に恥搔いてしまった(笑)

 それはともかく、漢字検索サイトで部首外画数を確認する中で、今回の追加漢字とは関係ないが、延長で確認してみたもので、少し疑問に思うことがあった。

 その前に、漢字検索サイトに関して話題にしておく。ネット上には公私含めていくつも漢字を扱ったサイトがある。しかし数が少なかったり扱えるフォントが無い、ブラウザの表示環境に限界があるなど、さまざまな問題から、なかなかすべてを網羅しているものは出てこず、また個人の趣味の範囲内でやるにも限界がある状態だった。手段はいろいろあるが、個人的にはオフラインの環境でも使える「𝐆𝐓検索」と「今昔文字鏡」が圧倒的な数を有していたことから便利に使わせてもらっていたが、どちらも独自のフォントファイルが必要なこと、文字鏡は完全利用の場合有料になることが問題だった。

 オンラインでないと使えないのが問題だが、ここ𝟓年くらいだろうか、中国のカンテン
汉典
を使っている。これは無料で数も多く、また独自フォントではなく、出て来る漢字も複写が可能なので非常に便利。『コウキジテン
康煕字典
』や『セツモンカイジ
說文󠄁解字
』の中身も参照でき、総画数や部首外画数、書き順も載っている。以前「避」と「危」の書き順を紹介したが、あのアニメイションもここから借りた。基本的な漢字の書き順がアニメイションで表示される。音声による中国語の音も確認できる。

 その『汉典』で、

𦥮


という字を引いた。すると、

部首:臼
部外:𝟔
総筆画:𝟏𝟐
筆順:ノフフ一丨ノ丨一一フ一一


と出て来る。この漢字は上下に分かれると考えて冠部の書き順が「丿𠃑𠃍一丨」、脚部の書き順が「丿丨一一𠃍一一」だと紹介している。脚部は要するに「臼」の書き順のこと。

 「臼」はこの漢字の部首で、部首としての「うす」は通常𝟔画扱いになる。しかし「Eヨ」のように真ん中で割れる字形も存在しており、その場合は𝟕画になってしまう。𝟔画のままにしようとすると、最初の「丿丨」を𝟏画で書く必要がある。ここで問題が生じる。

 総画数が𝟏𝟐画だとして、冠部はいったい何画なのだろうか?私は最初、普通にかぞえて𝟓画と思った。しかし「部外:𝟔」と出ている。書き順は「丿𠃑𠃍一丨」。私も同じようにかぞえた。「これ、𝟓画だよね」となる。「ノ」までが部外で𝟔画なのか?とも考えたが、「丿𠃑𠃍一丨丿」で区切れる方法が思いつかない。

 他はどうしているのだろう?と別の漢字検索サイトも当たってみることにした。台湾にイタイジジテン
異󠄂體字字典
というものがある。去年いつのまにかリニューアルされていたが、このサイトの歴史は古く、前世紀末から既にある。あの時代に圧倒的な規模を誇る漢字字典はここだけだった。しかも無料。出典情報もすでに添付されていた。初期のころは自動ダウンロードソフトでまとめて落とすこともできたのだが、手元に潤沢な空き容量が無くて断念。余裕が出た現在となっては自動ダウンロードができなくなってしまった。

 異体字、つまり同じ意味で形が違う漢字を大量に収録しているが、歴史が古い関係でフォント対応はあまり多くない。今でもフォント化されていないものが大量に収録されている。なので複写で利用するには不便だが、異体字を探したり、漢字辞書代わりとして使うには向いている。以前、漢字をおぼえるなら部品に分けておくこと・部品の名前をこのようにとらえておくとあとで応用がきくといった話をちらりとしているが、あれは数が増えるほど漢字をおぼえるのが楽になるのと、わからない・知らない漢字でもこういう辞書を使って自分で調べる際に楽になるということを想定している。詳しくはまた別途に触れる。

 中国と台湾を紹介したので一応日本のも触れておくが、法務省が公開している『戸籍統一文字情報』というサイトがある。名前の通り、あくまで戸籍や住民票に使う漢字を表示させるのが目的で、漢字全体を網羅するものではない。そのかわり、中国系サイトが弱い和製漢字に強いという特徴がある。それ以外はリロードすると最初からになったり、字形のみの検索だったり、𝟒桁ユニコードしか扱えなかったり、漢字の複写ができなかったりと、それほど使えない。個人的にはどうしても調󠄃べたいときにいろいろ当たって駄目だった場合の最後のオマケで使う程度。昨年ユニコード登録が完了したと言っているのでそのうち複写には完全対応するのかも知れないが、あまり期待はしていない。公開されたのも『異󠄂體字字典』に比べるとだいぶ遅かった。『異󠄂體字字典』を初めて見つけたころ、日本ではまだインターネットの話題が一部に限られており、少し経ってから始まったのは、いかにインターネットは嘘が多く害のあるメディアかという議論だった。マスコミがネットの不正確さを盛んに論じていた頃、個人的には「すでにこれだけの規模のサイトが作られていて無償公開されているのに、日本では有志の趣味程度が限界、むしろ否定的な大人たちも多い。この国、大丈夫なんだろうか?」と思ったものだった。

 ところで『異󠄂體字字典』、以前は『異󠄂體字辭典』と書かれていたように思うが気のせいだろうか?何はともあれ、こちらで先ほどの漢字を引くとこのように出る。

𦥮


 やはり総画𝟏𝟐、部外𝟔と出る。『康煕字典』に出ているらしいので、単純にそれを写しただけかも知れない。『康煕字典』の字形だと数字の「𝟓」のように「一𠃑一」を書いてから「己」を書き、「丨一一」を𝟐回左右対称に書くと、𝟔画&𝟔画になるが、そうなると部首が「臼」とは違うことになってしまう。

 辞書が間違っているのか私の解釈が間違っているのかよくわからないが、正解がはっきりしないと第二部首の確定が面倒臭くなる。現状では「うすあし6もとる」としてあるが、「うすあし5もとる」か「うすあし5ひとつ」のほうが正しいのでは?とも思っている。ややこしい時は考えられる全パターンを登録すればいいだけのことなのでそれほど迷う必要はないのだが、あとで正解がわかった時に探して修正するのが大変になるのでできればやりたくない。

posted by Marimó Castellanouveau-Tabasco at 09:35| 情報処理 | このブログの読者になる | 更新情報をチェックする