2020-12-01から1ヶ月間の記事一覧
前回は、質問応答とその手法(テキストベース、ナレッジベースを使った方法、それらのハイブリッド)について説明した。今回はパーソナライズについてまとめる。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の25日目の記事です…
前回は、shingle とスケッチを利用した重複検知について説明した。今回は、Web における質問応答を扱う。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の24日目の記事です。 adventar.org 情報検索と質問応答 Google 検索の歴史 …
前回は Web クローラの要件やそのアーキテクチャについて解説した。今回は、重複した文書の検知について扱う。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の23日目の記事です。 adventar.org 重複ページの検知 重複・準重複検…
前回は PageRank などのリンク解析手法について説明した。今回は、Web のクローリングを扱う。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の22日目の記事です。 adventar.org クローリングの概要 クローラの動作 クローリング…
前回はランク学習手法について説明した。今回は、リンク解析について扱う。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の21日目の記事です。 adventar.org リンク解析の概要 ハイパーテキストとリンク リンク解析と情報検索 有…
前回は Word2vec, BERT などの単語埋め込み手法と、それらの情報検索への応用について説明した。今回は、ランク学習について紹介する。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の20日目の記事です。 adventar.org 情報検索…
前回は決定木によるテキスト分類について説明した。今回は、情報検索での分散表現の利用について解説する。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の19日目の記事です。 adventar.org 単語の表現 検索ログによるクエリ拡張…
前回は、テキスト分類タスクとナイーブベイズについて説明した。今回は決定木によるテキスト分類についてまとめる。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の18日目の記事です。 adventar.org テキスト分類の評価用データ…
前回は、様々なプルーニングアルゴリズムによって検索システムを高速化する方法について説明した。今回から、文書のテキスト分類について解説していく。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の17日目の記事です。 advent…
前回は、多値適合性に基づくランクつき検索評価指標である nDCG と、クリックデータの活用に際しての注意点やテクニックについて解説した。今回は、検索システムの効率性 (efficiency) について議論する。 この記事は Information Retrieval and Web Search …
前回は、ランクなしの(二値)評価指標である精度と再現率、そして二値適合性に基づくランクつき指標である Precision@K、MAP について解説した。今回は多値適合性に基づく nDCG、そしてクリックデータの活用について説明する。 この記事は Information Retr…
前回は、確率的生成モデルから導出された重み付け手法である Okapi BM25 について解説した。今回から検索システムの評価について説明する。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の14日目の記事です。 adventar.org 適合…
前回は、確率的情報検索の基本となる確率的ランキング原理とバイナリ独立モデルについて説明した。今回は確率的モデルによる重み付け手法である Okapi BM25 について解説する。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の13…
前回は、TF-IDF とコサイン類似度による文書のスコアリングについて解説した。今回からは確率的モデルを取り入れた情報検索である、確率論的情報検索について紹介する。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の12日目の記…
前回は、Noisy channel モデルによるクエリのスペル訂正について説明した。今回は、文書のスコアリングとそのモデルについて書く。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の11日目の記事です。 adventar.org ランク付き検…
前回は、Permuterm インデックスや k-gram インデックスを使ったワイルドカード検索について解説した。今回は、クエリのスペル訂正を扱う。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の10日目の記事です。 adventar.org スペ…
前回は、ポスティングリストの圧縮のための様々な符号化について説明した。今回はワイルドカード検索についてまとめる。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の9日目の記事です。 adventar.org ワイルドカードクエリ ワ…
前回は、検索インデックスで使用する辞書の圧縮について扱った。今回は、ポスティングリストの圧縮について解説する。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の8日目の記事です。 adventar.org ポスティングリストの圧縮 …
前回は、MapReduce を使った分散インデキシングと、ログマージによる動的インデキシングについて説明した。今回は、インデックス圧縮技術の1つである辞書の圧縮について解説する。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の…
前回は、1つのマシンを使ったインデックス構築アルゴリズムである BSBI (Blocked sort-based indexing) と SPIMI (Single-pass in-memory indexing) を紹介した。今回は、分散インデキシングと動的インデキシングについて説明する。 この記事は Information …
前回はフレーズクエリと位置インデックスについて説明した。今回は、基本的なインデックス構築と、外部メモリ(=ストレージ)を使ったインデキシングについて紹介する。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の5日目の記…
前回はシンプルな AND クエリと、その最適化について紹介した。今回は、フレーズ検索を実現する方法について説明する。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の4日目の記事です。 adventar.org フレーズクエリ "stanford …
前回はインデックスを構築する方法を説明した。今回から、クエリをどうやって処理するのか説明していく。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の3日目の記事です。 adventar.org AND クエリ Brutus AND Caesar というク…
情報検索の概要と、情報検索における基本的なデータ構造である転置インデックス、そしてその構築方法について説明する。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の2日目の記事です。 adventar.org 情報検索とは 情報検索 (i…
最初にこのコースの概要を軽く説明したあと、構造化データ、非構造化データ、半構造化データについて簡単にまとめる。 この講義で主に扱うのは、非構造化データと半構造化データ。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の…