Googleの単語認識

Googleの日本語問題に関するQ&A
http://backno.mag2.com/reader/Back?id=0000096023
http://backno.mag2.com/reader/Back?id=0000096023

Googleは検索キーワード自体の品詞分解はしていないということか。グーマニを提供してくれているところで、メルマガも登録していたはずなのにきちんと理解していなかった...トホホ。

この例でいくと、「基礎化粧品」というキーワードはGoogleの辞書に入っている言葉なので、インデキシング時に、「基礎化粧品」という言葉が含まれるページとして認識されている。なんで、「基礎」「化粧品」と別々のキーワードで検索を行ったときには、それぞれの言葉が含まれるページを探すため、「基礎化粧品」で最適化しているようなページはヒットしてこないと。
「基礎化粧」で最適化していれば、「基礎」「化粧」という別々の言葉でインデキシングされているため、「基礎」「化粧」別々で検索しようが、「基礎化粧」で検索しようが検索結果は「ほとんど」変わらないということだ。

でもこの「ほとんど」というところでまた考えこんでしまった。
検索時のキーワードをGoogle形態素解析したりしているわけではない、という前提にたつと、「基礎化粧」というキーワードで検索を行ったときのGoogleの挙動はどのようなものだろう。

「基礎」「化粧」と別々で検索をすれば、
Googleは「基礎」と「化粧」が同時に出現し、且つキーワード金接度の高いページ群を検索結果として返すだけだけなのでわかりやすい。

しかし、「基礎化粧」で検索が実行されたときには、

キーワード:基礎化粧→インデックス探査(というよりむしろ辞書探査か?)→インデックス「基礎化粧」がないことがわかる→???

"基礎化粧"の含まれるページがない(じゃなくて、「基礎化粧」が辞書にない)ということがわかった後の挙動では、やはり品詞分解するしかないんじゃないか。
品詞分解して検索するとき、「基礎」「化粧」でのAND検索になるわけだけれど、このときには「キーワード近接度」が重要になる。「基礎 化粧」で検索するときには、キーワード近接度は見ていないということか。


ちなみに、「ウェディングドレス」や「ウェディングケーキ」は1語として認識しているので、「ウェディングドレス」や「ウェディングケーキ」でどれだけSEOしても、「ウェディング」ってキーワードで検索したときのポジショニングは無理なわけだな。
あと、ちょっと不思議なのは、「ウェディング」で検索したときは、「ウェディング|ウエディング」なんてキャッシュでは表示されてるのに、「ウェディングドレス」とかではキャッシャでは1語扱い。でも、実際の検索結果を見ると、「ウエディングドレス」も「ウェディングドレス」も同じ扱いを受けてる模様。
キャッシュを見たときのキーワードのハイライト表示のルールってのは何なんでしょうか?


「ロッキー ホラー ショー」(a)と「ロッキーホラーショー」(b)の検索結果の違いは、実際の検索結果がヒントになる。(a)で3位でヒットしてきていた「ロッキーホラーピクチャーショー」というタイトルのページよりも、「ロッキー・ホラー・ショー」とは」というページが(b)では上位にきている。

(a)では、「ロッキー」「ホラー」「ショー」というそれぞれの言葉が含まれるページ。且つこの順番が評価される。

(b)では、「ロッキー」「ホラー」「ショー」が含まれ、且つ、「ロッキー」「ホラー」「ショー」の順番と、これらの言葉の近接度が評価される。

ということになる。

(a)のキャッシュ
http://www.google.co.jp/search?q=cache:HTYHrv5n_7sJ:www5.gateway.ne.jp/~rockylin/timewarp-sendaitop.htm+%E3%83%AD%E3%83%83%E3%82%AD%E3%83%BC+%E3%83%9B%E3%83%A9%E3%83%BC+%E3%82%B7%E3%83%A7%E3%83%BC&hl=ja&lr=lang_ja&ie=UTF-8

(b)のキャッシュ
http://www.google.co.jp/search?q=cache:FxqYnGYLNaEJ:wing.zero.ad.jp/~zbf97446/guide.htm+%E3%83%AD%E3%83%83%E3%82%AD%E3%83%BC%E3%83%9B%E3%83%A9%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%BC&hl=ja&lr=lang_ja&ie=UTF-8

もちろん、本文内のテキストマッチだけではなく、リンクテキストなんかやいろいろな要素が加わっているので、一概には説明できないけれど、(a)では、「ロッキー」「ホラー」「ショー」とそれぞれの言葉の位置関係よりも、それぞれの言葉の量が重視されている気がするし、逆に、(b)では、それぞれの言葉の近接度が評価されているように思える。


ちょっと外れるが、
(a)の検索は、個々の単語で「ロッキー ホラー ショー」と、それぞれの言葉での表記ぶれの補正が行われていないのにたいして、
(b)では、ロッキー|ロッキ ホラー ショー|ショウ|ショ と表記のぶれの補正を行っている。

あー、誰か教えてくれないかなぁ。