語彙規則

English version

語彙規則(lexical rule)は、語彙素(lexeme)と呼ばれる語彙項目の基本形から新たな語彙項目を生成するための規則です。 例えば、動詞の原形から過去形を、名詞の単数形から複数形を作るといった規則が考えられます。 Enjuにおける語彙規則の種類は、"enju/types.lil"で定義されています。 また、その実装は"enju-devel/invlexrule.lil", "enju-devel/lexrule.lil"および"enju-devel/lexcommon.lil"で定義されています。 なお、語彙規則の種類および実装はEnjuの文法に特化したものになっています。

Enjuの語彙規則の特徴

Enjuの語彙規則には、通常の語彙素から語彙項目への変換をするものと逆に語彙項目から語彙素への変換をするものの二種類があります。 これは、コーパス指向文法開発の欠点をカバーし、より多くの語彙項目を獲得するための工夫です。 コーパスから得られた語彙項目のほとんどは何らかの統語的変化を起こしているので、文法抽出の際にはまず逆方向の語彙規則を適用して語彙素を獲得します。 最後に、順方向の語彙規則をすべての語彙素に適用して辞書を拡張します。 この方法をとると、順方向の規則のみを用いるよりも多くの語彙素が得られるため語彙項目も多くなります。 また、各規則間には半順序関係が定義されており、この順序に従って一つの語彙項目(語彙素)に複数の語彙規則を重ねて適用することができます。

各ソースファイルの中身

語彙規則の種類

語彙規則は基本的にすべての単語に同じように適用されますが、(*)を付けた規則については特殊なケースとみなし、コーパス内で規則の適用が観測された動詞にのみ適用されます。


Enju 開発者用マニュアル Enju ホームページ 辻井研究室
MIYAO Yusuke (yusuke@is.s.u-tokyo.ac.jp)