kiyoka.2013_03_16 RSSPLAIN

Related pages: !kiyoka.blog.list kiyoka.2013_03_23 !kiyoka.blog.2013_03
5555555555555555555
5

[Sekka][辞書] 平仮名フレーズ辞書を入れかえたい

5

 

5

日々使っているとSekkaの平仮名フレーズ辞書に不満が出てくる。

5

あまりに、口語体の表現が多く含まれているので、固めの文章を書いているときにも、口語体の表現が出て、うっかり確定してしまう。

5

それを直すのがめんどくさい。

5

なんとかならんのか…というのが発端。

5

たとえば、「…かもな」 みたいなフレーズがひょっこり出てきたりする。

5

 

5

例えば、Sekka 1.2.1で「だったのかも」と打ちたくて「dattanokamo」Ctrl-Jと入力すると、「だったのかもな」が出てくる。

5

友達同士で使うような最後の「ね」とか「な」とかのフレーズは辞書に入っていて欲しく無い。

5

もし入れるなら「ね」とか「な」が無い「だったのかも」が一緒に入っているべき。そうすれば、「だったのかも」が第一候補になる。

5

 

5

ただ、WebコーパスではWebのコンテンツを収集しているだけなので、それらが全てセットになっていることを保証することはできない。どれが含まれてどれが含まれないかは確率になる。

5

ということは、そのような口語体の表現を含まないコーパスである程度分量があるものが必要となる。

5

 

5

2013年の今日ならそのような n-gram コーパスはあるんじゃないか。または、簡単に作れるんじゃなか。例えばウィキペディア日本語版とか。

5

というわけで、久しぶりに大規模データマイニングをしてみようかなと思う。

5

 

5

...comment disabled...