bigramデータを参照させてもらっていたサイトの消滅問題 および bigramがより適切を digraphとしてきていた問題。
困っている 十分に困っている
Brown Corpusのデータの加工済みの孫引きを使って 先の論を進めていた。ところがこれをめぐって 少なくとも二つの問題が生じている。
どんな問題なのか
- 一つは 用語の最適ではない適用問題。
- bigramをすべきだったところに digraphを用いてきてしまったことである。
- 以前から ちょっと 弱いなと思ってはいたが 用例が無いわけでもないし まあそのままにしてきた。google:Distribution Of Digraph Frequency -raycy
- 安岡孝一大先生の文章でbigramを選択してあったので まあ bigramが正なのかな と観念
- cf.
これらのBCDF(or BCDP)*1をみる、、
my仮説「Dvorak&Dealey(, successors from the Gilbreths?) が 母音を一列に並べたわけ」、敗れたり? - 葉仮名raycy - KliologY
- 二つめは 参照させてもらっていたサイトが 消滅してしまったことである。
- http://www.cs.gmu.edu/~sean/cs499/pmwiki.php/Main/DistributionOfDigraphFrequency
- このWebページ名にDigraphFrequencyとあったことから 私も つい digraphを使ってしまったのかなあ と思う、、って人のせいにしたがってますか?
- http://www.cs.gmu.edu/~sean/cs499/pmwiki.php/Main/DistributionOfDigraphFrequency
他の問題を挙げるとすれば、
- 三つ目は データ採取の来歴 特に母集団の採り方の問題である。
- Brown Corpusが この問題に取り組む上でのデータとして 目的に叶い 依拠するに足るものであるか?
- これは データ選択の適/不適によっては とんでもない結果に導かれれ、場合によっては 命やら将来の子々孫々に係わるからである。
- Brown Corpusが この問題に取り組む上でのデータとして 目的に叶い 依拠するに足るものであるか?
- 四つ目は このbigramを含む 加工後のリストの名称および略号である。日本語では ブラウン・コーパス順序無し連続ニ文字頻度ってな言い方になる。約すとどうするべきか。 Brown Corpus Bigram Frequency BCBF? 順序無しは?