kiyoka.2010_01_26 RSSPLAIN

Related pages: !kiyoka.blog.list !kiyoka.blog.2010_01
5555555555555555555555555555555
5

[Sumibi][KVS] key-valueストアを使ったSumibiのリライト(アイデア段階)

5
 B0031OTZ1M  Software Design ( ソフトウェアデザイン ) 2010年 02月号 <雑誌>
5

 

5

今日、本屋で見つけて買ってきた。

5

特集記事の『key-valueストア講座』を読んでいて、Sumibiをkey-valueストアを利用したシステムに書き直したくなってきた。

5

もちろん、現行のSumibiのアルゴリズムをそのまま再実装するわけではなくて、並行してSumibiの問題点を修正しながらリライトするという意味だ。

5

 

5
個人的に問題だと思っているところ(普段SumibiはEmacsから常用している)
5
レスポンスが悪い
5

Ctrl-Jを押してから変換結果が返ってくるまで平均して1秒以上かかる

5

 

5
文章の入力中はアルファベットしか画面に表示されない為、自分のタイプミスが見つけにくい
5

例えば『日本語を変換する』という文章を入力する場合は、変換するまでは次の様なローマ字のみの画面になる。

5
 nihongo wo nyuuryoku suru [ここでCtrl-Jを押すと変換実行] 
5

例えば、上記の nihongo の部分を nihango と入力しても簡単に間違いに気づけない。変換してから間違いに気づく。

5

実は、ニホンゴをニハンゴと打ち間違えているのだけど、ローマ字だとわかりにくいでしょう?

5

 

5
オフラインでは使えない
5

sumibi.org経由で変換するので当然といえば当然。

5

 

5

データ構造をどのような形にすれば良いかはボンヤリとしかイメージできていないが、key-valueストアにはあらかじめ計算リソースを大量に使っていろんな統計情報を集計済みにしておく必要が有りそう。

5

現行のSumibiは、統計情報からの尤度の計算をMySQLの力技で毎回計算させているので、そのあたりを見直せば問題のレスポンスは改善するだろう。

5

ただ、パーソナライズの方法(個人辞書の扱い)をどうやるかという問題は日本語変換エンジンを開発している人はみんな悩んでいる問題で、私も全く解決案を思いついていない。

5

 

5

タイプミスについては、むしろタイプミスを許容して曖昧検索する方が良いかなと思っている。

5

オフラインでは使えないという問題は、目をつぶろう。NetBookが売れる時代なんだし。そっち方向には突き進んでよいだろう。

5

ボンヤリ考えている機能を実現しようと思うと、辞書は現行のSumibi辞書の2GByte程度では済まないだろうから、誰もローカルにはインストールしたくないだろう。

5

 

5

※注意: 実際に開発するかどうかは分かりません。KVSの勉強がてら個別のアイデアの実装と評価だけはやるかも知れません。いつになるかな…

5

 

5

...comment disabled...