イベントファイルから amis 形式のデータファイルを作るツールです.
amisfilter モデル名 マスクモジュール ueventファイル カウントファイル モデルファイル イベントファイル | |
モデル名 | 確率モデルの名前(構文解析の時にも使います) |
マスクモジュール | unfiltered event にかけるマスクが実装され ている lilfes module |
ueventファイル | 入力の unfiltered event ファイル (テキストま たは gz/bz 圧縮形式) |
カウントファイル | feature の頻度を出力するファイル (テキスト 形式) |
モデルファイル | モデルファイル (AmisModel 形式) |
イベントファイル | イベントファイル (AmisEvent 形式) |
オプション | |
-t 閾値 | 素性の頻度の閾値 (デフォルト: 1) |
-e 閾値 | 出力するイベントの数の上限値 |
-v | デバッグ用メッセージを表示します. |
-vv | デバッグ用メッセージをたくさん表示します. |
unimaker や forestmaker で作られる unfiltered event ファイルから,amis 形式のデータファイルを生成します.
unimaker や forestmaker は,以下のような // で区切られた unfiltered event を出力します.最後のフィールドはカテゴリ名です.
in//IN//vp[PPnp]//uni
この文字列の各フィールドに対し,1 か 0 のマスクをかけ,0 のフィールド は _ で置き換えた文字列が,ME モデルの素性として使われます.例えば,上 の文字列に (0, 1, 1) というマスクをかけると,以下のような素性が得られ ます.
_//IN//vp[PPnp]//uni
マスクは,amismodel.lil で定義された feature_mask/3 で記述します.マス クは 1 か 0 のリストで,unfiltered event のフィールド数と同じ長さでな ければなりません.
feature_mask(+$ModelName, -$Category, -$Mask) | |
$ModelName | 確率モデルの名前 |
$Category | カテゴリ名 |
$Mask | マスクを表す0/1リスト |
確率イベントにかけるマスクを指定します. |
amisfilter は,まずマスクを使って feature を生成します.次に,feature が observed event に現れる回数(empirical frequency)を数え,カウントファ イルに出力します.そして,feature の出現回数が閾値以上のものを採用し, amis 形式のモデルおよびイベントファイルを生成します.