Information Retrieval and Web Search まとめ(1): コース概要・半構造化データ
最初にこのコースの概要を軽く説明したあと、構造化データ、非構造化データ、半構造化データについて簡単にまとめる。 この講義で主に扱うのは、非構造化データと半構造化データ。
この記事は Information Retrieval and Web Search Advent Calendar 2020 の1日目の記事です。
コース概要
スタンフォード大学の情報検索のコースで、 IIR や FSNLP の著者である Chris Manning 教授と、Google の Pandu Nayak 氏が講師。
このコースでは以下のようなトピックを扱っている:
- 基本的な検索システムの技術
- テキストの効率的なインデキシング
- ブーリアンモデルとベクトル空間モデル
- 検索の評価とユーザインターフェース
- クローリングやリンク解析などの Web 技術
- 文書分類・クラスタリング
- ランク学習を含むランキング問題
講義で参照する教科書は以下の通り:
- (IIR) Introduction to Information Retrieval, by C. Manning, P. Raghavan, and H. Schütze.
- 日本語版:情報検索の基礎
- (MG) Managing Gigabytes, by I. Witten, A. Moffat, and T. Bell.
- (IRAH) Information Retrieval: Algorithms and Heuristics, by D. Grossman and O. Frieder.
- (MIR) Modern Information Retrieval, by R. Baeza-Yates and B. Ribeiro-Neto.
- (FSNLP) Foundations of Statistical Natural Language Processing, by C. Manning and H. Schütze.
- (SE) Search Engines: Information Retrieval in Practice, by B. Croft, D. Metzler, and T. Strohman.
- (IRIE) Information Retrieval: Implementing and Evaluating Search Engines, by S. Büttcher, C. Clarke, and G. Cormack.
基本的にはこれらの教科書、特に IIR をベースにしていると思われるが、分散表現やパーソナライズなどの新しいトピックも盛り込まれている。
構造化データ
- 構造化データ (structured data) はいわゆる「テーブルデータ」を示すことが多い。
- 数値の範囲やテキストの完全一致 (exact match) が可能
- 例: Salary < 60000 AND Manager = "Smith"
非構造化データ
- 非構造化データ (unstructured data) は典型的にはフリーテキストのデータを指す
- キーワードクエリが発行できる
- もっと賢い、「概念」("concept") を表すようなクエリ
- 例:「薬物乱用に関するすべての Web ページ」
- 古典的なテキスト検索のモデルが仮定しているのはこちら
半構造化データ
- 現実には、ほとんどのデータは非構造化データではない
- 例:講義スライドにもタイトル (title) やリスト (bullets) といった構造がある
- 以下のような「半構造化」検索が可能
講義資料
参考資料
- IIR chapter 1
- MG section 3.2
- MIR section 8.2
- Shakespeare plays