研究でコサイン類似度を求めなくてはならなくなりました。コサイン類似度ってなんだ??どうやるんだ??まったく検討つかない!というレベルから、計算式はわかった!とりあえず値を出す関数まで作ろう!というレベルに達したのでメモしておきます。あんまりコサイン類似度自体の本質はわかってないかもしれませんが、遅延評価勉強法というかんじです。

コサイン類似度とは

2つのデータが似ているかどうかを、文字列が似てるのを調べる分野では距離などで換算します。ちょっとよくわからないかもしれませんが、ぴいことぴいたろう君の類似度は、なんらかの測定器を使うと60mくらいの距離です。ぴいこと弟の類似度は、その測定器では30mくらいの距離でした。弟とぴいこは近いので、ぴいたろう君より似ています。

みたいなかんじ。

コサイン類似度ではベクトルというものを使います。ベクトルってなんだ!!わけわかんねーこと言うな!!!と思っていましたが、先輩や同期の面々から教わって、なんとなくわかってきました。。。

2つのベクトルの類似度を測るには

ここに、2つのベクトルがあります。ベクトルっていうとわかりづらいです。「配列」にします。配列m1、m2には図のように、Apple Banana Orangeの項目が入っています。これからやりたいのは、m1とm2がどれくらい似ているか(似ている要素を持っているか)です。

計算式を考えないで見てみると、m1とm2にはどちらもAppleが入っているので、それなりに似てそうです。

m1とm2にある要素を展開します。2つの配列には3種類の項目がありました。

各配列にある要素には1のフラグを立てて、ない要素には0を立てます。すると、m1はAppleとBanana、m2はAppleとOrangeにフラグが立ちます。

計算式は上記のような、分数の計算になります。

分子は二つの配列のANDを取ったときの1の個数です。今回でいうとm1とm2どちらにもAppleがあるので、ANDで1になる項目が1つです。

分母はm1の1の個数(AppleとBanana分の2)のルートかける、m2の個数(AppleとOrange分の2)です。

そうすると、1/(ルート2*ルート2) = 0.5となります。

どうなると似るのか

1に近づくと似ています。1だと全く同じ要素を持つものです。0だと全然違う要素のものです。このしきい値はそのシステムによって違うようですが、0.5〜0.7以上あればだいたい似てると思います。たぶん。

function cosSim($w1 = null, $w2 = null){
	$w = array_values(array_unique(array_merge($w1, $w2)));
	for($i=0; $i<count($w); $i++){
		$m1[$i] = false;
		$m2[$i] = false;
	}

	//$wが$m1にあるか調べる
	foreach($w1 as $wi){
		$key = array_search($wi, $w);
		if($key !== FALSE)
			$m1[$key] = true;
	}

	//$wが$m2にあるか調べる
	foreach($w2 as $wi){
		$key = array_search($wi, $w);
		if($key !== FALSE)
			$m2[$key] = true;
	}

	//Cos類似度用計算
	//分子
	$and = 0;
	for($i=0; $i<count($m1); $i++){
		if($m1[$i] && $m2[$i])
			$and++;
	}

	//分母
	$m1and = 0;
	foreach($m1 as $m){
		if($m)
			$m1and++;
	}
	$m2and = 0;
	foreach($m2 as $m){
		if($m)
			$m2and++;
	}

	$m1and = sqrt($m1and);
	$m2and = sqrt($m2and);

	if($and == 0 || $m1and == 0 || $m2and == 0){
		return 0;
	} else {
		return $and/($m1and * $m2and);
	}
}

$m1 = array('Apple', 'Banana');	//文章Aのベクトル
$m2 = array('Apple', 'Orange');	//文章Bのベクトル
echo cosSim($m1, $m2);  //0.5

なんでかソースに色がつかない

2010/11/17 takyaCの指摘で一部分母と分子の表記が逆になってるのに気づきました!修正しました ありがとうございます