検索エンジンはなぜ見つけるのか　―知っておきたいウェブ情報検索の基礎知識

作者: 森大二郎
出版社/メーカー: 日経BP社
発売日: 2011/03/10
メディア: 単行本（ソフトカバー）
購入: 8人クリック: 1,087回
この商品を含むブログ (23件) を見る

昨年ぐらいに、会社で検索勉強会というのをやっていた。
僕はそれに参加していたんだけど、
ここ１年くらいは、全くそういったことを学ぶ機会がなかった。
せっかく勉強したのにもったいないので、もうちょっとその領域の知識を深めたい。
そういう思いでこの本を手に取りました。

この本はスゴいと思う。
さらっと、難しいと思っていた概念を説明している。
こんなに上手く、誰でもわかるように説明している本って
他にないんじゃないかな？っと思いました。

メモ

REP(p.49)
- Robot Exclusion Protocol
- robots.txtに書くヤツの事
十進分類法(p.80)
- メルヴィル・デューイ曰く
- 満足行くように分類することが不可能なのはわかりきった事
- 実用的なものにするため、調和と正確さを犠牲にしてしまう
Boyer Moore法(p.98)
- 例)とばし読み
Suffix Array(接尾辞配列)(p.110)
- 例)左詰めでソート
TRIE(p.119)
- 例)ツメカケ
Double-Array TRIE(p.125)
- 例)ツメカケをさらに細かく作って、ずらして合成する。
- さらに色番号を覚えておく
偏りの度合いに応じてもっと柔軟にページ数を少なくする手法(p.130)
- 分布によって適した手法がある。
- γ符号(ガンマ)
- δ符号(デルタ)
- Golomb符号
単調増加列(p.130)
Zipfの法則(p.132)
- 単語の出現頻度とその順位は反比例する
Heapの法則(p.132)
- 大量の文章を集めると、異なり語数の増加は徐々に鈍ってくる
Inverted Index (転置索引) (p.137)
- 百科事典創作員方式(一度の検索で出し入れが必要な本の冊数を削減)
BWT (Burrows Wheeler Transform) (p.142)
- ゴム紐をでつなげる
BWTを用いた検索方式としてFM-index、CSA(Compressed Suffix Array)などがある(p.145)
高いスループット重要
- Aho-Corasick法 (p.155)
情報要求の段階(ロバート・S・テイラー ) (p.163)
- Q1 visceral (直感的な)
- Q2 conscious (意識的な)
- Q3 formalized (様式化された)
- Q3 compromized (譲歩した)
Vector Space Model (p.176)
TF/IDF (TF - Term Frequency, IDF - Inverse Document Frequency) (p.176)
強ナッシュ均衡(p.181)
ダンピングファクタ(p.192)
- 僕、これあんまり理解できてない、後で調べる。
裏切りのコストを上げる以外に、協調戦略を引き出す手段はない？(p. 194)
教師無し学習 (Unsuperviesed Learning) (p.205)
- 潜在意味解析 (LSA: Latent Semantic Analysis)
- PLSA (Probabilistic Lateent Sementic Analysis)
- 非負値行列因子分解 (Non-negative Matrix Factorization)
薄皮をはぐように質問を研ぐ(p. 210)
1. the subject of his interest
2. his motivation
3. his personal characteristics
4. the relationship of the inquiry to file organization
5. anticipated answers
図書館に訊け!(p.216)
- 読みたい
協調フィルタリング(Collaborative Filtering)(p. 218)
- 行動履歴情報に基づいて利用者の嗜好や傾向を見つけ出す技術