Not only is the Internet dead, it's starting to smell really bad.:2021年02月09日分

2021/02/09(Tue)

[Windows][I18N] Windows 10 の国際化についての違和感 (その4)

以前 Windows 10の国際化についての違和感という記事をほとんど本題に入らないまま途中まで書いて放置してたんだけど、ここで挙げた「漢字ファイル名によみがなは無い」問題はわりと初期の大規模アップデートで修正されている。 昔のこと過ぎてどのバージョンかまでは失念したが、おそらくRS2と呼ばれてた1703(17H1)あたりだったと思う。

それでは私は読めなかった難読名字(オタクはなぜか読めるらしいが理由は知らない)を使ったサンプルをみてみよう。

このとおり「 小鳥(ことり)」と「 小鳥遊(たかなし)」が区別できてるし、意地悪で入れた「小鳥/遊び」も文節で分かち書きできているようだ。 おそらくMS-IMEの再変換機能を使って漢字のよみがなを取得する処理を無理矢理実装したんだろーなーとまでは予想できる。

しかし人名辞書のせいでちょっとおもしろい事になるケースをみつけた。

まず最初のパターン、「金」という姓を持つ人名を使ったサンプルなのだが

とよみがながブレるのだよね。

ちょっと考えればこれは単純な話で、MS-IMEの辞書の元となったコーパス(おそらく新聞とか)の頻度統計で優先順位が決まってるんだろうと判る。 つまりこのブレってのは1998年の 金大中(キム・デジュン)氏の大統領就任より1973年の 金大中事件(きんだいちゅうじけん)の方が日本でより大きく報道されたという歴史的経緯ということだ。 日本の報道ルールで日本語読みでなく現地の発音を尊重するようになったのは90年代くらいだっけか、オタクじゃないので以下略。

南北でルール変えてるのかなという仮説も最初考えたんだけど、これは金泳三を例として追加したことで否定できた。 というかこれ本当は「金大中/(氏)」と「金大中/事件」で読み方変えなきゃいけないんじゃねーので辞書の不備だよなぁという気がする、まぁ重箱の隅だけどさ。

そんでこっからがそんな細かい話でなく本題、最後の一文字削って「金大」「金泳」「金日」という非人名のフォルダを作ると途端に意味不明の挙動を示すようになるのよね。

つまり

と解釈されるもよう、最初は金大で人名登録されてるのかと思ったけど、そういうわけではないっぽい。 つーか金大(金沢大学)困るよね、いや困らんか別に。

どうしてこうなったかを考察すると、金大と金泳は人名辞書との部分一致以外の他に候補が無いから「キム」、金日は曜日と解釈され「金/日」と文節で分かち書きされ「きん」なのかなぁと。でもそれだと金大は頻度優先によって「きんだい」になるはずなんだけどねうーんわからん。

ともあれ無理矢理な実装はこうやってボロ出ちゃいますね、まぁ実用上はこんなもんで十分かもしれんが。

ちなみに日本史の教科書で名前だけ知ってる金玉均はMS-IMEの登録が「きんぎょくきん」のみで「キム・オッキュン」が無いようなのできんた以下略

[Windows][I18N] Windows 10 の国際化についての違和感 (おまけ)

前記事で不採用にした画像に懐かしいコピペを添え供養しておく。

49: ID:oEohd0gg0
レンタルビデオ屋に、頭文字Dのビデオ借りに行ったんだけど 「か行」探しても全然ないんだよ
で、レンタルビデオ屋のアホ店員が「あたまもじD」って読んでるんじゃね?と思って
「あ行」を確認したらマジで置いてあってビビったわwww

ほんと日本語の自然言語処理って難しいね、 頭文字(イニシャル)Dの続編はMFゴースト、 init.d(SysVinit)の後継はSystemDなどという知識すら必要になるのだ(なってない)。