検索エンジンはなぜ見つけるのか ―知っておきたいウェブ情報検索の基礎知識

検索エンジンはなぜ見つけるのか ―知っておきたいウェブ情報検索の基礎知識

検索エンジンはなぜ見つけるのか ―知っておきたいウェブ情報検索の基礎知識


昨年ぐらいに、会社で検索勉強会というのをやっていた。
僕はそれに参加していたんだけど、
ここ1年くらいは、全くそういったことを学ぶ機会がなかった。
せっかく勉強したのにもったいないので、もうちょっとその領域の知識を深めたい。
そういう思いでこの本を手に取りました。


この本はスゴいと思う。
さらっと、難しいと思っていた概念を説明している。
こんなに上手く、誰でもわかるように説明している本って
他にないんじゃないかな?っと思いました。


メモ

  • REP(p.49)
    • Robot Exclusion Protocol
    • robots.txtに書くヤツの事
  • 十進分類法(p.80)
    • メルヴィル・デューイ曰く
    • 満足行くように分類することが不可能なのはわかりきった事
    • 実用的なものにするため、調和と正確さを犠牲にしてしまう
  • Boyer Moore法(p.98)
    • 例)とばし読み
  • Suffix Array(接尾辞配列)(p.110)
    • 例)左詰めでソート
  • TRIE(p.119)
    • 例)ツメカケ
  • Double-Array TRIE(p.125)
    • 例)ツメカケをさらに細かく作って、ずらして合成する。
    • さらに色番号を覚えておく
  • 偏りの度合いに応じてもっと柔軟にページ数を少なくする手法(p.130)
    • 分布によって適した手法がある。
    • γ符号(ガンマ)
    • δ符号(デルタ)
    • Golomb符号
  • 単調増加列(p.130)
  • Zipfの法則(p.132)
    • 単語の出現頻度とその順位は反比例する
  • Heapの法則(p.132)
    • 大量の文章を集めると、異なり語数の増加は徐々に鈍ってくる
  • Inverted Index (転置索引) (p.137)
    • 百科事典創作員方式(一度の検索で出し入れが必要な本の冊数を削減)
  • BWT (Burrows Wheeler Transform) (p.142)
    • ゴム紐をでつなげる
  • BWTを用いた検索方式としてFM-index、CSA(Compressed Suffix Array)などがある(p.145)
  • 高いスループット重要
    • Aho-Corasick法 (p.155)
  • 情報要求の段階(ロバート・S・テイラー ) (p.163)
    • Q1 visceral (直感的な)
    • Q2 conscious (意識的な)
    • Q3 formalized (様式化された)
    • Q3 compromized (譲歩した)
  • Vector Space Model (p.176)
  • TF/IDF (TF - Term Frequency, IDF - Inverse Document Frequency) (p.176)
  • ナッシュ均衡(p.181)
  • ダンピングファクタ(p.192)
    • 僕、これあんまり理解できてない、後で調べる。
  • 裏切りのコストを上げる以外に、協調戦略を引き出す手段はない?(p. 194)
  • 教師無し学習 (Unsuperviesed Learning) (p.205)
    • 潜在意味解析 (LSA: Latent Semantic Analysis)
    • PLSA (Probabilistic Lateent Sementic Analysis)
    • 非負値行列因子分解 (Non-negative Matrix Factorization)
  • 薄皮をはぐように質問を研ぐ(p. 210)
    1. the subject of his interest
    2. his motivation
    3. his personal characteristics
    4. the relationship of the inquiry to file organization
    5. anticipated answers
  • 図書館に訊け!(p.216)
    • 読みたい
  • 協調フィルタリング(Collaborative Filtering)(p. 218)
    • 行動履歴情報に基づいて利用者の嗜好や傾向を見つけ出す技術