kiyoka.2011_08_10 RSSPLAIN

Related pages: !kiyoka.blog.list Sekka.ReleaseNote kiyoka.2011_08_24 Sekka.FAQ !kiyoka.blog.2011_08
45555555555555555555555555555555555555555555555555
4

[Sekka] 平仮名フレーズ辞書を追加してみようかな(4)

5
 NbpKsE
5

 

5

先日来のエントリ 

5
 「kiyoka.2011_07_06[Sekka] 平仮名フレーズ辞書を追加してみようかな(1)」
5
 「kiyoka.2011_07_07[Sekka] 平仮名フレーズ辞書を追加してみようかな(2)」
5
 「kiyoka.2011_07_13[Sekka] 平仮名フレーズ辞書を追加してみようかな(3)」
5

の続き。

5

 

5

前回、6-gram Webコーパスから平仮名フレーズを抜きだしてSekkaの辞書にする件を書いた。

5

それらは、実際にSekkaに組み込んでみて使いやすくなったので採用した。(未だリリース版には入っていないので注意)

5

今、この文章は平仮名フレーズ辞書が入った開発版のSekkaを使って入力している。

5

平仮名のフレーズもスペルミスを救済してくれるので、非常に気を抜いて入力できる。非常によいです。

5

 

5

さて、さらに追加でWebコーパスだけでは得られないフレーズをIPADICから取得しよう考えている。

5

ここまでやって初めてSekkaのフレーズ辞書データが揃う。

5

 

5

例えば、ipadic-2.7.0のtarボールに格納されているデータから拾うと、

5

 

5

Noun.adverbal.dicからは、

5
  (品詞 (名詞 副詞可能)) ((見出し語 (いつか 2576)) (読み イツカ) (発音 イツカ) )
5
  (品詞 (名詞 副詞可能)) ((見出し語 (すべて 1464)) (読み スベテ) (発音 スベテ) )
5
  (品詞 (名詞 副詞可能)) ((見出し語 (おとつい 3278)) (読み オトツイ) (発音 オトツイ) )
5
  (品詞 (名詞 副詞可能)) ((見出し語 (このごろ 2305)) (読み コノゴロ) (発音 コノゴロ) )
5

 

5

Noun.others.dicからは、

5
  (品詞 (名詞 非自立 副詞可能)) ((見出し語 (ところ 896)) (読み トコロ) (発音 トコロ) )
5
  (品詞 (名詞 非自立 副詞可能)) ((見出し語 (うち 950)) (読み ウチ) (発音 ウチ) )
5
  (品詞 (名詞 特殊 助動詞語幹)) ((見出し語 (そう 6)) (読み ソウ) (発音 ソー) )
5
  (品詞 (名詞 非自立 一般)) ((見出し語 (とき 2740)) (読み トキ) (発音 トキ) )
5
  (品詞 (名詞 非自立 副詞可能)) ((見出し語 (はず 2915)) (読み ハズ) (発音 ハズ) )
5
  (品詞 (名詞 非自立 副詞可能)) ((見出し語 (かぎり 2149)) (読み カギリ) (発音 カギリ) )
5
  (品詞 (名詞 非自立 副詞可能)) ((見出し語 (ため 428)) (読み タメ) (発音 タメ) )
5

 

5

Verb.dicからは、

5
  (品詞 (動詞 自立)) ((見出し語 (さしだす 3505)) (読み サシダス) (発音 サシダス) (活用型 五段・サ行) )
5
  (品詞 (動詞 自立)) ((見出し語 (わりきる 3505)) (読み ワリキル) (発音 ワリキル) (活用型 五段・ラ行) )
5
  (品詞 (動詞 自立)) ((見出し語 (ひしめきあう 3505)) (読み ヒシメキアウ) (発音 ヒシメキアウ) (活用型 五段・ワ行促音便) )
5

 

5

などの単語を取り出せればと考えている。

5

 

5

それにしても、なんでipadicのデータはS式っぽいフォーマットになっているのだろう。

5

まあ、Lisperにはそのまま(read)できて処理しやすいのでいいのだけど。他の言語で読み込む場合はどうするんだろ。まあいいか。

5

 

5

ここらでipadicの生データをmongoDBとかに入れて検索しやすくすると試行錯誤する時、レスポンスが速くていいのではと思っていたが、Nendo処理系をチューニングして速くなったのと、一旦手順が確立した後の再現性を考えると、Nendoでスクリプトを作ったほうがいいだろう。

5

 

5

Nendoが手に馴染むようになって、Rubyでプログラミングとかは、もうする気が起きないなぁ。

5

gemは作ったり、使ったりするんだけど。

5

 

5

...comment disabled...