[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
いつものようにスラドを見ていたら、次のような記事が目にとまった。
で、この記事自体は、「言語学者が、Googleとか使ってウェブをコーパスとして利用する、ってことやってるらしいぜ。Economistの記事に載ってた」ってな、えー何いまさらなこと言ってんのー?っつーもんではあるんだけど、その後の展開がまあまあ面白くってさ、件のエコノミストの記事でも紹介されていた、Language Logっていう言語学者が数人でやってるブログがあんだけど、そこでスラドのその記事に付いたコメントに触発された記事が投稿されたのをきっかけに、「Googleのブーリアンサーチって、ダメじゃん?」ってネタが連投されてんだよね。
で、ちょっとためになる、というか、なるほど、って感じだったんで、メモ。
たとえば"Chirac"と"Sarkozy"という検索語で、"AND"を"OR"を使って検索を行った結果が次の表(詳しくはこのポストを参照)。
検索語 | カウント |
Chirac | 3,260,000 |
Chirac OR Sarkozy | 1,570,000 |
Chirac OR Chirac | 1,950,000 |
Chirac AND Chirac | 1,950,000 |
Chirac Chirac | 2,010,000 |
ね? 明らかにおかしいっしょ? "Chirac OR Saekozy"だったら"Chirac"単品での検索より多くなんなきゃおかしいし、だいたい"Chirac OR Chirac"とか"Chirac AND Chirac"とか"Chirac Chirac"とかで、元の数より減っちゃうって、どういうことよ? しかも、その減り方を見ても「許容範囲」とは言い難い。
で、もう一発ダメ押し的なサーチ結果。
検索語 | カウント |
Chirac AND Sarkozy | 154,000 |
Chirac -Sarkozy | 1,950,000 |
-Chirac Sarkozy | 32,000 |
合計 | 2,424,000 |
ちょっと考えてもらえば分かると思うんだけど、この合計は"Chirac OR Saekozy"のカウントと同じになんなきゃおかしいんだよね。
もちろん、Googleのサーチは複数のマシーンの連合ではじき出していて、その各々のマシーンに保持されているインデクス自体も違うから、ちょっとぐらいの違いは出るはずなんだ、どうしたって(極端な話、同じ単語を、ちょっと間を空けてから検索しても、その単語を含んでいるページが増えたとかそういう理由ではなくて、カウントは違うものになるはず)。でも、この違いは「誤差の範囲」を軽く凌駕してるよねえ。
で、何でこんなことになっちゃうのか?ってのは、まあ簡単に言うと、Googleのブーリアンサーチアルゴリズムってのがけっこう古い代物らしくって、激増した情報量にたいして有効なサーチができるアルゴリズムじゃない、ってことらしい。
詳しい話やら何やらはこのポストがまとまってるんで、気になる人はどーぞ。
12 | 2025/01 | 02 |
S | M | T | W | T | F | S |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
音
雑
虫
技術
『スペクタクルの社会』を読む
ドゥルーズ講義録
電波
趣味の数学
趣味のゲーデル
『プリンキピア・マテマティカ』を読む
自己紹介もどき
ブログペット俳句
芸術一般
言語ヲタ
お客様
GRE CS
留学
Boing Boing
映画
ちょっといい話
かなりダメな話
魂の叫び
哲学と数学
論文
引用
「いい」とも「ダメ」とも言いがたい話
悲喜こもごも
証明論
ポエム
書物への呪詛
言わずもがななことではあるけれどときに忘れてしまうこと
何か無駄なことをしよう
日々
趣味の勉強
夢
ブログの記事
翻訳
勉強
不眠
文房具
ライフハック
育児
thayashi#ucalgary.ca
(#を@に置換してください)
このブログで紹介したことのある本をランダム表示。
このブログで紹介したことのある音をランダム表示。