stop-the-world

takuya-a のブログ

Information Retrieval and Web Search まとめ(24): 質問応答

前回は、shingle とスケッチを利用した重複検知について説明した。今回は、Web における質問応答を扱う。

この記事は Information Retrieval and Web Search Advent Calendar 2020 の24日目の記事です。

adventar.org

情報検索と質問応答

  • 情報検索 (information retrieval) という名前は標準になっているが、実際に行われているのは文書検索 (document retrieval) であることが多い
    • それ以上のことはユーザが自身に任されている
  • 2025 年のウェブ検索はどうなっているだろう?
    • 検索ボックスにキーワードを入力している?
    • セマンティックウェブを使っている?
    • 自然言語でコンピュータに質問している?
    • ソーシャル検索、もしくは人力の (human powered) 検索を使っている?

Google 検索の歴史

  • Pigeon アップデート (July 2014)
    • ランキングシグナルとして距離や位置情報をより重視するようになった
  • Mobilegeddon (Apr 21, 2015)
    • モバイル親和性 (mobile friendliness) が主要なランキングシグナルに組みこまれた
  • App Indexing (Android, iOS support May 2015)
    • 検索結果からアプリに遷移できるようになった
  • Mobile-friendly 2 (May 12, 2016)
    • 約半数の検索がモバイル由来になった
  • Fred (1Q 2017)
    • スパムサイト (spammy, clickbaity, fake) を下げるような様々な変更が入った
  • 検索結果ページのスニペットがより長くなった (Nov 2017)
  • Mobile-first Index (Mar 2018)
    • デスクトップ版ではなくモバイル版のページをインデックスするようになった
  • 検索結果ページのスニペットの長さが元に戻った (May 2018)
  • Medic アップデート
    • ページの専門性、権威性、信頼性をより重視するようになった
    • ダイエットや栄養、医療品に関するサイトでランキングに大きな変化があった
  • コアアルゴリズムアップデート (Mar 2019)
    • "Medic 2" 的なアップデートがされた

ナレッジベースを使った検索

  • 古典的なテキスト検索ではなく、構造化されているナレッジベース (knowledge base) を使ってグラフ検索を行う
  • Web ページに埋め込まれている半構造化データを使ったアプリケーションも増えている

Web 検索における最近の課題

  • モバイル検索の増加
    • モバイルでの検索が増えたことにより、音声検索、自然言語による検索が増えつつある
    • モバイルでは自然言語理解 (natural language understanding)質問応答 (question answering) が重要になることがわかってきた
  • 情報の質
    • 情報源 (information provenance)情報の信頼性 (information reliability) は Web においてずっと懸念されてきたが、近年、「フェイクの (fake)」情報が拡散されるようになっている

知的エージェントに向けて

  • 2つのゴール
    • 文字列を使わない (things, not string)
    • 検索ではなく推論 (inference)

質問応答

質問応答のパラダイム

  • テキストベースのアプローチ
    • TREC QA, IBM Watson, DrQA
  • 構造化されたナレッジベースを使ったアプローチ
  • 上記のハイブリッド

"Things, not strings"

From To Requires
ターム (term) 概念 (concept) パース (parsing)、曖昧性解消 (disambiguation)、共参照解析 (coreference)
タームの同一性 (term identity) 含意 (entailment) 概念の関係性 (concept relations)
共起 (co-occurrence) 構文的関係 (syntactic relation) 文書構造、パース (parsing)
タームインデックス (term index) 意味インデックス (semantic index) 概念の曖昧性解消 (concept disambiguation)、推論 (inference)

行動と意図

f:id:takuya-a:20201224234143p:plain
ユーザの検索意図と行動

エンティティの曖昧性解消とリンキング

Siri のアプローチ

  • クエリの意味表現 (semantic representation) を構築
    • 時刻、日付、場所、エンティティ、数量
  • このセマンティクスで構造化データベースにクエリ

テキストベース質問応答

  • 質問処理 (question processing)
  • パッセージ検索 (passage retrieval)
  • 回答処理 (answer processing)

IBM Watson

  • ハイブリッドアプローチ
    • クエリの浅い (shallow) 意味表現を構築
    • 情報検索の手法で回答候補を生成
    • よりリッチな知識情報を使って、各候補をスコア付けする
      • 地理空間データベース
      • 時間の推論 (temporal reasoning)
      • タクソノミー (taxonomical classification)

言語から知識へ

単語アラインメント

f:id:takuya-a:20201224234244p:plain
([Wen-tau+ 2013] Figure 1) 単語アラインメント

LCC の質問応答システム

f:id:takuya-a:20201224234337p:plain
([Harabagiu+ 2003] Figure 1) 質問応答システム LCCアーキテクチャ

Open-domain Question Answering

f:id:takuya-a:20201224234413p:plain
([Chen+ 2017] Figure 1) 質問応答システム DrQA の概要

  • 古典的な TF-IDF とバイグラムのハッシュを組み合わせると document retriever の性能が上がった

f:id:takuya-a:20201224234503p:plain
([Chen+ 2017] Table 3) 文書検索の精度

講義資料