!kiyoka.blog.2015_02 RSSPLAIN

Related pages: !kiyoka.blog.list
555555533333333333333333333333333333333333333233355455555555555555255
5

kiyoka日記。NendoSekkaの開発や、最近思うことなど

5

最新10件!kiyoka.blog   過去記事一覧!kiyoka.blog.list

5

kiyoka.blog_header 

5

このブログを書いている人: 西山 清香(kiyoka) - twitter: @kiyokaEXT

5

5

 

5

 

3

kiyoka.2015_02_23[Sekka] SKKユーザーを満足させるのは難しい

3

 

3

前回の記事で、Sekkaをレベルアップできないかという話題を書いた。

3

SKKライクなIMEの特徴である、シフトキーを頻繁に押さないといけないという問題をなんとか改善できないか…

3

ローマ字先頭の大文字を指定しなくても快適に使えるようにならないかということを軽々しく書いた。

3

 

3

SKKユーザーを満足させるのは難しい

3

いろいろ試してみて、漢字とひらがなは「現段階では」人間が細かく指定したほうがよいという結論になった。「現段階では」という括弧書きだが。

3

いくらIMEが賢くなってもどこかでユーザーの考えていることとくい違ってしまう。つまりそれは誤変換だ。

3

本当のことをいうと、ユーザーが考えていることと完全に一致した結果を返せれば、それは誤変換は無いということになるので、完全に満足できる「賢さ」というポイントは必ずあるはずだ。

3

しかし、コンピューターの能力は有限なのでどこかでその壁が来る。

3

 

3

試しに、共起頻度の辞書100MByte分を追加して実験してみたが、変換中の単語の直前2語が辞書にヒットするとは限らず、どの単語が確からしいかは推定できない。(bigramとskip-bigram)

3

辞書には "日本語" と "変換" は共起するという情報があるので "日本語"の直後の"henkan" は漢字の"変換"と推定できるが、いつもこのようにうまくいくとは限らない。

3

自分の文章が必ずセオリーどおりのパターンで構成されているわけではない。辞書に無ければそれでアウトだ。

3

SKKユーザーはこの「漢字」と「ひらがな」と「カタカナ」間の誤変換というのを普通の人以上に嫌うので、なかなか難しい問題だ。

3

 

3

パーソナライズというもうひとつの問題

3

Webコーパスなどから集計した共起頻度の辞書を使うと、例えば句読点として「、。」を使うのか「,.」を使うのかという個人設定を維持することを困難にする。

3

コーパスとその人の趣向が一致しない場合、期待しない候補が選択されてしまう。(まあ、狭い範囲での解決策はいろいろあるが)

3

この点、SKKは最後の選択肢が愚直に第一候補になるので、文脈によって変換候補の順位が影響を受けない。

3

 

3

結論

3

SKKユーザーのように少しの誤変換も許しがたいユーザーにとって、IMEの挙動に推測はなるべく入れないほうが良い。

3

恐らく、SKKユーザーを納得させることができるのは人間の知性を上まわる「強いAI」が完成した時しかありえないだろう。

3

 

3

使ったデータ

3

辞書は以下の2gmと3gmを使った。

3
 N-gram コーパス - 日本語ウェブコーパス 2010EXT
3
 形態素 N-gram 頻度 10 以上のファイルリスト    圧縮時 12.1GB,展開時 75.2GB 
3

 

3

GitHubの作業branch

3

多分リリース予定なし。将来の約に立つかも。

3
 https://github.com/kiyoka/sekka/tree/ngram_dict
3

 

3

感想

3

自分でいうのもなんだが、SKKユーザーはなかなか頑固ものである…

3

 

2

comment (disabled)

3

3

 

3

 

5

kiyoka.2015_02_12[Sekka] SKKライクな日本語入力システムでシフトキーを押す回数を減らしたい

5

 

4

Sekkaを話題にするのがあまりに久しぶりなのだが、思い立ってSekkaをさらに改善できないか検討している。

5

今度は、大文字始まりのローマ字を入力しなくても単語が漢字かひらがなかカタカナかを勝手に推測してくれるというもの。

5

本来、SKKライクなIMEを使っている人は、ひと手間掛けてもよいから思考を乱されるような誤変換を減らしたいという心理で使っている。

5

なので、わざとひらがなで「ひらがな」と入力したいところを第一候補に「平仮名」という漢字が出てくるといやがられる。

5

 

5

ただ、使い易さというのはバランスなので、あまりにもシフトキーを押す回数が多い場合はそれも思考のさまたげになる。(小指が痛いというのも思考の妨げになる)

5

毎回先頭大文字のローマ字を入力しなくてもよいならそれに越したことはない。

5

 

5

回避策は二つあって、一つは形態素bi-gramの辞書を導入するもの。

5

隣りあう形態素同士の共起頻度を使って、文脈から明らかに漢字を優先すべきローマ字は漢字候補を優先する。

5

例えば、「漢字」で確定された次の単語で henkan と入力された場合でも Henkan  と入力したかった可能性も考慮し 「変換」 と 「へんかん」を共起頻度の得点を積んだ上で変換候補に入れる。

5

 

5

もう一つは、Ctrl-Jでの変換確定時にマウスのダブルクリックのように素早くCtrl-jを2回押すと先頭を大文字にしたとみなす。 (henkan Ctrl-j Ctrl-j」というキーストローク)

5

この案は安易すぎるかもしれないけど、意外とこういう姑息な方法でも効果があったりするのでやってみるのもよいかな。

5

 

2

comment (disabled)

5

 

5