言語学に触れてみる

さて、この手の研究のメインストリートを知らなすぎるので言語学の本を読んでみました。

情報科学のための自然言語学入門―ことばで探る脳のしくみ

情報科学のための自然言語学入門―ことばで探る脳のしくみ

(DSの「英語漬け」の成績が上がるという副産物をもたらましたw。でも読むのは結構しんどかったです。何度も同じ例が、繰り返して丁寧に書かれているので、なんとか読めました。)


そもそも、なんでこのようなのことを調べたかは、
1.作成中のGPの出力をリスト構造にすべきか、それともベクターにすべきか判断が付かなかったため。
2.ツリー構造を陽に表現しない(自然言語の記述に近い)ベクターで表現しても大丈夫か判断するため。
でした。結局、言語学のアプローチは現時点でGPに反映させることが困難です。
たしかに、リスト構造を使うと統語構造に近いツリーが表現可能のように思います。
しかし
1.個体が統語構造を意識したリストを出力するようにはなっていない。
2.リスト構造の出力「(e (d f (k g)))」等では個体の出力の評価を例文「(a f d p)」等とハミング距離で行うことが困難。
3.GPにおいて優秀な個体がいつまでたっても発生しないと予測される。
と言うわけで、(e (d f (k g)))は(e d f k g)と表現を変更したほうが、とにかく動くものを作ることができそうです。ですので個体の出力は(e (d f (k g)))をベクター表現もしくはネストしないリストに変換し(e d f k g)のような表現を採用しようと思います。


【基本的用語】
統語構造
語>句>文
文(Sentence : S)
句(Phrase)
語([Word|Term|Vocable]?)


例文「太郎が大きい梨を食べた」


「太郎」名詞 (Noun : N)
「が」格助詞 (Case Particle : C)
「大きい」形容詞 (Adjective : A)
「食べ」動詞 (Verb : V)
「た」時制 (Tense)


名詞句 (目的語) (Noun Phrase : NP)
「梨を」


動詞句 (Verb Phrase : VP)
「梨を食べた」


形容詞句(Adjective pharase : AP)
「かわいい」「寒い」AP->A
「怖い」「うまい」AP->NP A


後置詩句(Postposition Phrase : PP)
「研究室で」PP->NP P


【Web資料】
形態素解析構文解析入門
http://www.unixuser.org/~euske/doc/nlpintro/index.html

現在、「言語学」という分野は、次の 5つの階層に分けられた諸分野全体のことをいう。最初のほうに出てくる分野はすでによく研究されており、下に行くほど問題のレベルが高くなっていき、まだ謎が解けていない部分が多くなってくる :

1. 音韻論 phonology
2. 形態論 morphology
3. 構文論 (統語論) syntax
4. 意味論 semantics
5. 語用論 pragmatics

http://ja.wikipedia.org/wiki/%E8%A8%80%E8%AA%9E%E5%AD%A6

いかなる言語も一定程度の複雑さを有していることが明らかとなり、言語の進化といった見解は現在は否定されている


【気になった本】
心のパターン
http://www.iwanami.co.jp/moreinfo/0053860/top.html

私がこの本を書くことになったのは,生成言語学を導いている考え方が,生成言語学が心と脳の研究に影響を及ぼしたにもかかわらず,一般の人にわかるようになっていないからです.(…)言語学の概念上の基礎は,どの点から見ても進化論,遺伝学,宇宙論,カオス理論,量子電磁力学などと同じくらい刺激的です.もしかすると私たちに心のいちばん奥にある自我について教えてくれるものがあるために一層刺激的なのかもしれません.

単語と辞書
http://www.iwanami.co.jp/moreinfo/0069030/top.html

2.3 単語辞書の実装法
(a) 単語辞書を表現するためのデータ構造   (b) 疎行列の表現法に基づく単語辞書の実装法
2.4 Nグラムの平滑化
(a) 最尤推定法  (b) 加算法  (c) 線形補間法  (d) バックオフ法