忍者ブログ
[PR]
×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

スラド経由で知った論文

Googleを使って機械、つまりコンピュータに語の意味を理解させよう、というか、ある文脈においてある語がどういう意味で使われているかを、machine-processableな形で確定しよう、という試み。

基本的な考え方としては、たとえば"hat"という語の意味を理解したい、あるいは文脈での意味を確定したいという場合、その"hat"という語と、も一つ任意の語の対でブーリアンサーチをかける。そうすっと、たとえば(hat, head)という対の方が、(hat, banana)という対よりもGoogleでのヒット数が多く、ゆえに"hat"という語の意味上の親和性は"banana"とよりも"head"との方が高い……って、こういうプロセスをギチギチ詰めてくと、あら不思議、"hat"の意味がコンピュータにも分かる、も少し控えめに言うと、少なくともどういう文脈で"hat"という語が使われるかコンピュータにも区別できる、ってことなんだけど、どうなの?

「ある文脈である語がどういう意味で使われているか」ということの「理解」だったら、上述の方法で出来るような気がするんだけど、端的に「その語の意味を理解」ってことになると、ちょっといぶかしいなあ。

まあ、これから上記論文を読んでみるけど、何より気にかかるのはGoogleのブーリアンサーチを使ってる、ってことだよね。しかも、統計的な使い方をしている。これが、何にも処理をしていない生データのランダムサンプリング、とかいう形でGoogleが検索結果を出してくれるんだったら、各種統計手法で推定も出来ると思うけど、何せPageRankかましちゃってますからねえ。ここでもうすでに無視できない偏差が生じてるわけで。

そんなわけで、最近Google問題でにぎわっているLanguageLogの人たちがこの論文にどう反応するか、それも楽しみ。

PR
この記事にコメントする
お名前
メールアドレス
URL
コメント
この記事へのトラックバック
この記事にトラックバックする:
カレンダー
03 2024/04 05
S M T W T F S
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
最新コメント
最新トラックバック
メール
ブログ作成者(はやし)に直接訴えたいことがある、という場合は、下のアドレスにメールをどうぞ。

thayashi#ucalgary.ca
(#を@に置換してください)

ブログ内検索
Google
WWW を検索 このブログ内を検索

はやしのブログ内で紹介された
 書籍の検索はこちら
 音盤の検索はこちら
ランダムおすすめ
(忍者ブログに引越してから、うまくうごかなくなってしまいました。いつか、直します)
Randombook
このブログで紹介したことのある本をランダム表示。
Randomusic
このブログで紹介したことのある音をランダム表示。
自分がらみのリンク
はやしのブログ書籍一覧
このブログで言及された書籍の一覧。
はやしのブログ音盤一覧
このブログで言及された音盤の一覧。
最近のおすすめ本
最近のおすすめ音

Copyright © [ はやしのブログ ]
No right reserved except those which belong to someone else.
Special Template : 忍者ブログ de テンプレート and ブログアクセスアップ
Special Thanks : 忍者ブログ
Commercial message : [PR]