stop-the-world

takuya-a のブログ

Information Retrieval and Web Search まとめ(1): コース概要・半構造化データ

最初にこのコースの概要を軽く説明したあと、構造化データ、非構造化データ、半構造化データについて簡単にまとめる。 この講義で主に扱うのは、非構造化データと半構造化データ。

この記事は Information Retrieval and Web Search Advent Calendar 2020 の1日目の記事です。

adventar.org

コース概要

スタンフォード大学の情報検索のコースで、 IIRFSNLP の著者である Chris Manning 教授と、Google の Pandu Nayak 氏が講師。

このコースでは以下のようなトピックを扱っている:

  • 基本的な検索システムの技術
  • テキストの効率的なインデキシング
  • ブーリアンモデルとベクトル空間モデル
  • 検索の評価とユーザインターフェース
  • クローリングやリンク解析などの Web 技術
  • 文書分類・クラスタリング
  • ランク学習を含むランキング問題

講義で参照する教科書は以下の通り:

基本的にはこれらの教科書、特に IIR をベースにしていると思われるが、分散表現やパーソナライズなどの新しいトピックも盛り込まれている。

構造化データ

  • 構造化データ (structured data) はいわゆる「テーブルデータ」を示すことが多い。
  • 数値の範囲やテキストの完全一致 (exact match) が可能
    • 例: Salary < 60000 AND Manager = "Smith"

非構造化データ

  • 非構造化データ (unstructured data) は典型的にはフリーテキストのデータを指す
  • キーワードクエリが発行できる
  • もっと賢い、「概念」("concept") を表すようなクエリ
    • 例:「薬物乱用に関するすべての Web ページ」
  • 古典的なテキスト検索のモデルが仮定しているのはこちら

半構造化データ

  • 現実には、ほとんどのデータは非構造化データではない
    • 例:講義スライドにもタイトル (title) やリスト (bullets) といった構造がある
  • 以下のような「半構造化」検索が可能
    • 「Title contains data AND Bullets contain search」
    • 「Title is about Object Oriented Programming AND Author something like stro*rup」

講義資料

参考資料