~の基礎

勉強用

bigramデータを参照させてもらっていたサイトの消滅問題 および bigramがより適切を digraphとしてきていた問題。

困っている 十分に困っている

Brown Corpusのデータの加工済みの孫引きを使って 先の論を進めていた。ところがこれをめぐって 少なくとも二つの問題が生じている。

どんな問題なのか

  • 一つは 用語の最適ではない適用問題。
    • bigramをすべきだったところに digraphを用いてきてしまったことである。

他の問題を挙げるとすれば、

  • 三つ目は データ採取の来歴 特に母集団の採り方の問題である。
    • Brown Corpusが この問題に取り組む上でのデータとして 目的に叶い 依拠するに足るものであるか?
      • これは データ選択の適/不適によっては とんでもない結果に導かれれ、場合によっては 命やら将来の子々孫々に係わるからである。

  • 四つ目は このbigramを含む 加工後のリストの名称および略号である。日本語では ブラウン・コーパス順序無し連続ニ文字頻度ってな言い方になる。約すとどうするべきか。 Brown Corpus Bigram Frequency BCBF? 順序無しは?

*1:BCDF(or BCDP):https://docs.google.com/spreadsheet/pub?key=0AqzxPHll8XJldHpYS3NkanVUT0pYNHlJTkZtYjBKRGc&output=html