忍者ブログ

いつものようにスラドを見ていたら、次のような記事が目にとまった。

「言語学の研究にウェブを使う」

で、この記事自体は、「言語学者が、Googleとか使ってウェブをコーパスとして利用する、ってことやってるらしいぜ。Economistの記事に載ってた」ってな、えー何いまさらなこと言ってんのー?っつーもんではあるんだけど、その後の展開がまあまあ面白くってさ、件のエコノミストの記事でも紹介されていた、Language Logっていう言語学者が数人でやってるブログがあんだけど、そこでスラドのその記事に付いたコメントに触発された記事が投稿されたのをきっかけに、「Googleのブーリアンサーチって、ダメじゃん?」ってネタが連投されてんだよね。

で、ちょっとためになる、というか、なるほど、って感じだったんで、メモ。

たとえば"Chirac"と"Sarkozy"という検索語で、"AND"を"OR"を使って検索を行った結果が次の表(詳しくはこのポストを参照)。

検索語 カウント
Chirac 3,260,000
Chirac OR Sarkozy 1,570,000
Chirac OR Chirac 1,950,000
Chirac AND Chirac 1,950,000
Chirac Chirac 2,010,000

ね? 明らかにおかしいっしょ? "Chirac OR Saekozy"だったら"Chirac"単品での検索より多くなんなきゃおかしいし、だいたい"Chirac OR Chirac"とか"Chirac AND Chirac"とか"Chirac Chirac"とかで、元の数より減っちゃうって、どういうことよ? しかも、その減り方を見ても「許容範囲」とは言い難い。

で、もう一発ダメ押し的なサーチ結果。

検索語 カウント
Chirac AND Sarkozy 154,000
Chirac -Sarkozy 1,950,000
-Chirac Sarkozy 32,000
合計 2,424,000

ちょっと考えてもらえば分かると思うんだけど、この合計は"Chirac OR Saekozy"のカウントと同じになんなきゃおかしいんだよね。

もちろん、Googleのサーチは複数のマシーンの連合ではじき出していて、その各々のマシーンに保持されているインデクス自体も違うから、ちょっとぐらいの違いは出るはずなんだ、どうしたって(極端な話、同じ単語を、ちょっと間を空けてから検索しても、その単語を含んでいるページが増えたとかそういう理由ではなくて、カウントは違うものになるはず)。でも、この違いは「誤差の範囲」を軽く凌駕してるよねえ。

で、何でこんなことになっちゃうのか?ってのは、まあ簡単に言うと、Googleのブーリアンサーチアルゴリズムってのがけっこう古い代物らしくって、激増した情報量にたいして有効なサーチができるアルゴリズムじゃない、ってことらしい。

詳しい話やら何やらはこのポストがまとまってるんで、気になる人はどーぞ。

PR
この記事にコメントする
お名前
メールアドレス
URL
コメント
この記事へのトラックバック
この記事にトラックバックする:
カレンダー
11 2017/12 01
S M T W T F S
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
最新コメント
最新トラックバック
メール
ブログ作成者(はやし)に直接訴えたいことがある、という場合は、下のアドレスにメールをどうぞ。

thayashi#ucalgary.ca
(#を@に置換してください)

ブログ内検索
Google
WWW を検索 このブログ内を検索

はやしのブログ内で紹介された
 書籍の検索はこちら
 音盤の検索はこちら
ランダムおすすめ
(忍者ブログに引越してから、うまくうごかなくなってしまいました。いつか、直します)
Randombook
このブログで紹介したことのある本をランダム表示。
Randomusic
このブログで紹介したことのある音をランダム表示。
自分がらみのリンク
はやしのブログ書籍一覧
このブログで言及された書籍の一覧。
はやしのブログ音盤一覧
このブログで言及された音盤の一覧。
最近のおすすめ本
最近のおすすめ音

Copyright © [ はやしのブログ ]
No right reserved except those which belong to someone else.
Special Template : 忍者ブログ de テンプレート and ブログアクセスアップ
Special Thanks : 忍者ブログ
Commercial message : [PR]