kiyoka.2011_07_06 RSSPLAIN

Related pages: !kiyoka.blog.list Sekka.ReleaseNote kiyoka.2011_07_07 kiyoka.2011_07_13 kiyoka.2011_08_10 kiyoka.2011_08_24 Sekka.FAQ !kiyoka.blog.2011_08 !kiyoka.blog.2011_07
4555555555555555555444444444444444444445555545455555
4

[Sekka] 平仮名フレーズ辞書を追加してみようかな(1)

5
 NbpKsE
5

現在のSekka (version 0.8.7)は、漢字の語彙ならば、曖昧辞書検索を使ってミスタイプを補正してくれる。これがSKKに対するアドバンテージになっていると思う。

5

しかし平仮名のフレーズ、例えば「しました」とか「なっています」などのように平仮名のフレーズは辞書に無いのでミスタイプを救えない。

5

「なっています」のように少々長めのフレーズだとかなりミスタイプをしてしまう。まだ改善の余地がある。

5
 natteimas   (最後のuを入力せずに変換した例)
5

 

5

そこで、平仮名の入力モードにおいても、辞書にあるフレーズならば曖昧辞書検索で救済することを考える。

5

 

5

Sekka側の実装自体はそんなに手間では無いと思うが、辞書をどうやって入手するか、もしくは作るかが問題。

5

そんなおり、@nokunoEXTさんがこんな記事を書いてくださっていたので、ここから選ぶことにし

5

た。(NLP関係のリソースまとめ - nokunoの日記EXT)

5

 

5

ざっと中を見てみた。ライセンス的に使えなさそうなものは最初から除外した。

5

 

5

N-gram コーパス - 日本語ウェブコーパス 2010EXT

5

1-gramで頻度まで求めてくれているので非常に使いやすく、なんの加工もなしにフレーズ辞書に使えそう。

5

但し、日本語として美しくないものも大量に含まれていて、今回のアプリケーションには適さない。曖昧辞書検索で間違いを正そうとしているので、書き言葉でないフレーズに補正されるのはいただけない。

5

 

4

一部抜粋してみてみよう。

4
xz -cd ./nwc2010/ngrams/word/over999/1gms/1gm-0000.xz | head -1000
4
   .
4
   .
4
 ぁり     9140
4
 ぁりがと   4256
4
 ぁりがとぅ  4372
4
 ぁりがとぅござぃました    2241
4
 ぁりがとぅござぃます     3422
4
 ぁりがとう  1224
4
 ぁりがとうございます     1497
4
 ぁりがとぉ  3532
4
 ぁりました  1084
4
 ぁります   3322
4
 ぁりません  1482
4
   .
4
   .
4

 

4

 

4

IPAdicEXT

5

ここから美しい書き言葉の組み合わせを生成できそう。

5

ただ、付属のドキュメント ipadic-ja.pdfEXT を見た限りでは、かなりの作業がいりそう。

5

まあ形態素解析用の辞書から、全組み合わせのコーパスを作りだそうというのだから目的が違いすぎる。

5

ほかのデータを見てから再度検討。

5

 

4

 

5

と、ここまで来てふと考えた。

4

上記のコーパスの1-gramをIPAdicに付属のChasenで解析し、正しく解析しきれたものを採用すればいいのではないかな?

5

それなら頻度1000以上ではなく頻度100以上の1-gramに対して解析してもそんなに大量の語彙数にならないのではないか。

5

 

5

他にもWikipediaとかのコーパスもあるので、もう少し見てから決めよう。

5

 

5

...comment disabled...