!kiyoka.blog.2013_03 RSSPLAIN

Related pages: !kiyoka.blog.list
5555555444444444444444444444344455555555555555555535
5

kiyoka日記。NendoSekkaの開発や、最近思うことなど

5

最新10件!kiyoka.blog   過去記事一覧!kiyoka.blog.list

5

kiyoka.blog_header 

5

このブログを書いている人: 西山 清香(kiyoka) - twitter: @kiyokaEXT

5

5

 

5

 

4

kiyoka.2013_03_23[Sekka][辞書] 平仮名フレーズ辞書の入れかえ成功

4

 

4

Wikipedia日本語版のテキストデータを使って平仮名フレーズを作った。

4

これまで使っていた日本語ウェブコーパス 2010EXTは廃止した。

4

 

4

結果、先日のエントリ「kiyoka.2013_03_16[Sekka][辞書] 平仮名フレーズ辞書を入れかえたい」で書いたように口語体の表現が少なくなり、固めの文章が書きやすくなった。

4

さらに、もう一つメリットがあって、辞書のライセンスがわかりやすくなった。

4

WikipediaはGFDLなので、はれてSekkaの辞書は全て次のオープンな素材から生成された辞書となった。

4

 

4
平仮名フレーズ1 = Wikipedia
4

GPDL。

4

 

4
平仮名フレーズ2 = IPADic 
4

BSDライセンスに近い? 但しDeibanでは non-freeに分類されているらしい。

4

 

4
日本語と片仮名  = SKKの辞書
4

GPL2。

4

 

4

というわけで、前よりもDebianなどのディストリビューションに入れやすいものになった。

4

一週間くらい使ってみて、Sekka 1.3.0と一緒に公開する予定。

4

 

3

comment (disabled)

4

4

 

4

 

5

kiyoka.2013_03_16[Sekka][辞書] 平仮名フレーズ辞書を入れかえたい

5

 

5

日々使っているとSekkaの平仮名フレーズ辞書に不満が出てくる。

5

あまりに、口語体の表現が多く含まれているので、固めの文章を書いているときにも、口語体の表現が出て、うっかり確定してしまう。

5

それを直すのがめんどくさい。

5

なんとかならんのか…というのが発端。

5

たとえば、「…かもな」 みたいなフレーズがひょっこり出てきたりする。

5

 

5

例えば、Sekka 1.2.1で「だったのかも」と打ちたくて「dattanokamo」Ctrl-Jと入力すると、「だったのかもな」が出てくる。

5

友達同士で使うような最後の「ね」とか「な」とかのフレーズは辞書に入っていて欲しく無い。

5

もし入れるなら「ね」とか「な」が無い「だったのかも」が一緒に入っているべき。そうすれば、「だったのかも」が第一候補になる。

5

 

5

ただ、WebコーパスではWebのコンテンツを収集しているだけなので、それらが全てセットになっていることを保証することはできない。どれが含まれてどれが含まれないかは確率になる。

5

ということは、そのような口語体の表現を含まないコーパスである程度分量があるものが必要となる。

5

 

5

2013年の今日ならそのような n-gram コーパスはあるんじゃないか。または、簡単に作れるんじゃなか。例えばウィキペディア日本語版とか。

5

というわけで、久しぶりに大規模データマイニングをしてみようかなと思う。

5

 

3

comment (disabled)

5