unimaker: unigram 確率モデル作成ツール

English version

unigram probability model のためのイベントファイルを作るツールです.

unimaker モデル名 イベント抽出モジュール lexicon template lexbank イベントファイル
モデル名確率モデルの名前(構文解析の時にも使います)
イベント抽出モジュールイベント抽出 predicate が実装されている lilfes module
lexicon文法獲得で得た lexicon (lildb 形式)
template文法獲得で得た template (lildb 形式)
lexbank文法獲得で得た lexbank (lildb 形式)
イベントファイルunfiltered event を出力するファイル (テキスト形式または gz/bz による圧縮形式)
オプション
-ffFeature forest 形式でイベントを出力します.
-n 閾値イベントを抽出する文の数
-vデバッグ用メッセージを表示します.
-vvデバッグ用メッセージをたくさん表示します.

確率モデルの名前は,一つのイベントファイルに対して一つ割り当てます.違 う名前を割り当てれば,複数のイベントファイルを同時に用いることができま す.

文法および lexbank を入力として,lexical entry の出力確率(unigram probability)の最大エントロピーモデルを作成するためのツールです.このツー ルでは,確率モデルの学習に必要な unfiltered event を作成します.

unfiltered event とは,以下のように // で区切られたフィールドを持つ文字 列です.

in//IN//vp[PPnp]//uni

最後のフィールド(uni)はこのイベントのカテゴリを表しています. カテゴリは,後のステップでこのイベント形式にフィルタをかける時などに利 用します.カテゴリが同じイベントに対しては同じフィルタをかけるので, フィールドの数が同じである必要があります.つまり,フィールドの数が違う イベントを使いたい時は,カテゴリ名を分けて下さい.

各 unfiltered event は,対象となるイベントを文字列で表したものです.こ れは,amismodel.lil で定義された extract_lexical_event/4 の第4引数で 得られるリストの要素をつなげたものです.

extract_lexical_event(+$ModelName, -$Category, +$LexEntry, -$Event)
$ModelName確率モデルの名前
$Categoryカテゴリ名
$LexEntry語彙項目
$Eventイベントを表す文字列リスト
語彙項目のイベントを取りだします.

確率モデルの名前は,unimakerの第一引数で与えたものと同じもの を指定してください.

素性関数の値(integer または float)を指定したい時は,以下のインタフェー スを使って下さい.

extract_lexical_event_feature_value(+$ModelName, -$Category, +$LexEntry, -$Event, -$Val)
$ModelName確率モデルの名前
$Categoryカテゴリ名
$LexEntry語彙項目
$Eventイベントを表す文字列リスト
$Val素性関数の値
語彙項目のイベントとその値を取りだします.

MAYZツールキットマニュアル MAYZホームページ 辻井研究室
MIYAO Yusuke (yusuke@is.s.u-tokyo.ac.jp)