stop-the-world

takuya-a のブログ

Information Retrieval and Web Search まとめ(25): パーソナライズ

前回は、質問応答とその手法(テキストベース、ナレッジベースを使った方法、それらのハイブリッド)について説明した。今回はパーソナライズについてまとめる。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の25日目の記事です…

Information Retrieval and Web Search まとめ(24): 質問応答

前回は、shingle とスケッチを利用した重複検知について説明した。今回は、Web における質問応答を扱う。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の24日目の記事です。 adventar.org 情報検索と質問応答 Google 検索の歴史 …

Information Retrieval and Web Search まとめ(23): 重複検知

前回は Web クローラの要件やそのアーキテクチャについて解説した。今回は、重複した文書の検知について扱う。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の23日目の記事です。 adventar.org 重複ページの検知 重複・準重複検…

Information Retrieval and Web Search まとめ(22): Webクローリング

前回は PageRank などのリンク解析手法について説明した。今回は、Web のクローリングを扱う。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の22日目の記事です。 adventar.org クローリングの概要 クローラの動作 クローリング…

Information Retrieval and Web Search まとめ(21): リンク解析

前回はランク学習手法について説明した。今回は、リンク解析について扱う。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の21日目の記事です。 adventar.org リンク解析の概要 ハイパーテキストとリンク リンク解析と情報検索 有…

Information Retrieval and Web Search まとめ(20): ランク学習

前回は Word2vec, BERT などの単語埋め込み手法と、それらの情報検索への応用について説明した。今回は、ランク学習について紹介する。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の20日目の記事です。 adventar.org 情報検索…

Information Retrieval and Web Search まとめ(19): 分散表現

前回は決定木によるテキスト分類について説明した。今回は、情報検索での分散表現の利用について解説する。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の19日目の記事です。 adventar.org 単語の表現 検索ログによるクエリ拡張…

Information Retrieval and Web Search まとめ(18): テキスト分類(2)

前回は、テキスト分類タスクとナイーブベイズについて説明した。今回は決定木によるテキスト分類についてまとめる。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の18日目の記事です。 adventar.org テキスト分類の評価用データ…

Information Retrieval and Web Search まとめ(17): テキスト分類(1)

前回は、様々なプルーニングアルゴリズムによって検索システムを高速化する方法について説明した。今回から、文書のテキスト分類について解説していく。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の17日目の記事です。 advent…

Information Retrieval and Web Search まとめ(16): 検索システムの効率性

前回は、多値適合性に基づくランクつき検索評価指標である nDCG と、クリックデータの活用に際しての注意点やテクニックについて解説した。今回は、検索システムの効率性 (efficiency) について議論する。 この記事は Information Retrieval and Web Search …

Information Retrieval and Web Search まとめ(15): 評価(2)

前回は、ランクなしの(二値)評価指標である精度と再現率、そして二値適合性に基づくランクつき指標である Precision@K、MAP について解説した。今回は多値適合性に基づく nDCG、そしてクリックデータの活用について説明する。 この記事は Information Retr…

Information Retrieval and Web Search まとめ(14): 評価(1)

前回は、確率的生成モデルから導出された重み付け手法である Okapi BM25 について解説した。今回から検索システムの評価について説明する。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の14日目の記事です。 adventar.org 適合…

Information Retrieval and Web Search まとめ(13): 確率的情報検索(2) BM25

前回は、確率的情報検索の基本となる確率的ランキング原理とバイナリ独立モデルについて説明した。今回は確率的モデルによる重み付け手法である Okapi BM25 について解説する。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の13…

Information Retrieval and Web Search まとめ(12): 確率的情報検索(1) 確率ランキング原理とバイナリ独立モデル

前回は、TF-IDF とコサイン類似度による文書のスコアリングについて解説した。今回からは確率的モデルを取り入れた情報検索である、確率論的情報検索について紹介する。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の12日目の記…

Information Retrieval and Web Search まとめ(11): スコア計算:TF-IDFとベクトル空間モデル

前回は、Noisy channel モデルによるクエリのスペル訂正について説明した。今回は、文書のスコアリングとそのモデルについて書く。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の11日目の記事です。 adventar.org ランク付き検…

Information Retrieval and Web Search まとめ(10): スペル訂正

前回は、Permuterm インデックスや k-gram インデックスを使ったワイルドカード検索について解説した。今回は、クエリのスペル訂正を扱う。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の10日目の記事です。 adventar.org スペ…

Information Retrieval and Web Search まとめ(9): ワイルドカード検索

前回は、ポスティングリストの圧縮のための様々な符号化について説明した。今回はワイルドカード検索についてまとめる。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の9日目の記事です。 adventar.org ワイルドカードクエリ ワ…

Information Retrieval and Web Search まとめ(8): ポスティングリストの圧縮

前回は、検索インデックスで使用する辞書の圧縮について扱った。今回は、ポスティングリストの圧縮について解説する。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の8日目の記事です。 adventar.org ポスティングリストの圧縮 …

Information Retrieval and Web Search まとめ(7): 辞書の圧縮

前回は、MapReduce を使った分散インデキシングと、ログマージによる動的インデキシングについて説明した。今回は、インデックス圧縮技術の1つである辞書の圧縮について解説する。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の…

Information Retrieval and Web Search まとめ(6): インデックス構築(2)

前回は、1つのマシンを使ったインデックス構築アルゴリズムである BSBI (Blocked sort-based indexing) と SPIMI (Single-pass in-memory indexing) を紹介した。今回は、分散インデキシングと動的インデキシングについて説明する。 この記事は Information …

Information Retrieval and Web Search まとめ(5): インデックス構築(1)

前回はフレーズクエリと位置インデックスについて説明した。今回は、基本的なインデックス構築と、外部メモリ(=ストレージ)を使ったインデキシングについて紹介する。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の5日目の記…

Information Retrieval and Web Search まとめ(4): フレーズ検索と位置インデックス

前回はシンプルな AND クエリと、その最適化について紹介した。今回は、フレーズ検索を実現する方法について説明する。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の4日目の記事です。 adventar.org フレーズクエリ "stanford …

Information Retrieval and Web Search まとめ(3): クエリ処理

前回はインデックスを構築する方法を説明した。今回から、クエリをどうやって処理するのか説明していく。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の3日目の記事です。 adventar.org AND クエリ Brutus AND Caesar というク…

Information Retrieval and Web Search まとめ(2): 転置インデックス

情報検索の概要と、情報検索における基本的なデータ構造である転置インデックス、そしてその構築方法について説明する。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の2日目の記事です。 adventar.org 情報検索とは 情報検索 (i…

Information Retrieval and Web Search まとめ(1): コース概要・半構造化データ

最初にこのコースの概要を軽く説明したあと、構造化データ、非構造化データ、半構造化データについて簡単にまとめる。 この講義で主に扱うのは、非構造化データと半構造化データ。 この記事は Information Retrieval and Web Search Advent Calendar 2020 の…

Goで構造体の非公開フィールドにアクセスする方法

Go の 構造体 (struct) におけるフィールドは、フィールド名が小文字始まりであれば 非公開フィールド (unexported field) となり、パッケージ外からアクセスすることができません(参考: Exported identifiers - The Go Programming Language Specification…

Rust の開発環境セットアップ

Linux (Ubuntu 19.10) に Rust の開発環境を作ったメモです。IDE として VSCode を使います。 Rust の開発環境 Rust ツールチェイン rustc Rust プログラムをコンパイルするコンパイラ cargo ビルドマネージャ兼パッケージマネージャ std Rust の標準ライブ…

情報検索とその周辺

これは、情報検索・検索エンジン Advent Calendar 2019 の 1 日目の記事です。 情報検索・検索エンジン Advent Calendar を作った経緯 情報検索、検索エンジン周りのアドベントカレンダー誰か— すずどら (@sz_dr) November 6, 2019 情報検索はまだないんでし…

論文メモ: Fast Approximate Filtering of Search Results Sorted by Attribute (SIGIR 2019)

前回に引き続き、 SIGIR 2019 の efficiency に関する論文を読んだメモです。

論文メモ: Accelerated Query Processing Via Similarity Score Prediction (SIGIR 2019)

IR Reading 2019秋で標題の論文を紹介しました。 発表で使ったスライドは以下です: speakerdeck.com 以下は、この論文を読んだときのメモです。 概要 検索エンジンで top-k のクエリ処理を高速化するのが目的 クエリ処理中の動的な文書の pruning(枝刈り)…