tf*idf 法による特徴的単語の抜き出し
Posted by yoosee on Web at 2005-02-25 23:42 JST1 Tf Idf Ranking
特徴的単語の抜き出し方法。と言う数字で評価する。つまり「あるドキュメント内での出現頻度が高い(tf)」単語のうち「他のドキュメントにはあまり出現し無いもの(idf)」を「そのドキュメントに特徴的な単語」として扱うという考え方らしい。nterm := あるドキュメント内のある単語の出現回数
maxn := ドキュメント内で最も出現頻度が高かった単語の出現回数
tf = 0.5 + 0.5 * nterm / maxn
idf = log2(ドキュメントの数/対象単語が含まれるドキュメントの数) + 1
log の底は任意に変えることで idf の重み付けを変更出来る
とりあえず kakasi -w で単純な単語分割したものを Hash に放り込んで数え上げ、計算してみた。わりとそれなりに特徴的っぽい語句が抽出できて面白い。ただこれは idf の方で統計的な数値を見るから、ある程度ドキュメントの数を貯めないとちゃんとした数字が出ないな。そう言った意味でも bulkfeeds あたりに頼るのが良いのかも知れない。
ちなみにこの日記の本日分(ドキュメントの単位が日単位なので)の特徴的な語句は、「単語」「ドキュメント」「シシャモ」「特徴的」らしい。比較用ドキュメントはこの日記の今月分全てを使った。いい線突いてる気がする。