大量データに対するLIMIT/OFFSET のパフォーマンス低下の原因と対策

はじめに

「皆さんは途中まで読んでいた本を続きから読みたい時、どうしますか？」

普通だったら、しおりを挟んでおいて、そこから読み始めますよね？

自分は前回読んだページまで、１ページ目から１枚ずつめくっていた　みたいです。。。

指定件数分取得するクエリでは以下のようなSELECT文を使用していました。

SELECT * FROM A LIMIT "指定件数" OFFSET "前回までに処理した件数";

パフォーマンス低下の原因は、LIMIT OFFSETの処理でした。

OFFSET は、指定された行数だけ結果セットの先頭からデータを読み飛ばす処理を行う。
たとえば、OFFSET 10000 と指定した場合、データベースは内部的に少なくとも 10000 行のデータを一旦取得し、その後で最初の 10000 行を破棄してから残りのデータを返す。
冒頭の「１ページ目から１枚ずつめくっていた」とは、このこと

例えるなら、10000 ページある本の 9001 ページ目から 10 ページを読む場合、OFFSET は最初の 9000 ページをすべてめくってから目的のページにたどり着くようなイメージ。
直接 9001 ページを開く方が圧倒的に効率的。（しおりを使ったほうがいい。）

データベースで大量のデータをページネーションする際にOFFSET を使用する代わりに、
- 特定のカラムの値に基づいてデータの範囲を指定して効率的に目的のデータを取得する手法。
OFFSET のように指定された件数をスキップするのではなく、
- 「特定の条件を満たすレコード以降のデータを取得する」というアプローチを取ります。
つまり、
- 「しおりを挟んでおいて、そこから読みなおす」ということ

ソートキーは、idとします

SELECT * FROM テーブル 
WHERE id > "前回取得した最後のレコードのid" ORDER BY id

データ移行時のSELECT文に使用していたLIMIT OFFSETを、シークメソッドに修正した結果
- 処理時間が4時間半になりました。
修正前と比べると
- 約20時間短縮されました！
1000000件ごとの処理時間を確認すると、改修前は件数が増えるにつれて処理時間が長くなっていましたが
- 改修後は件数が増えても処理時間は一定になりました。

大量データに対して LIMIT と OFFSET を使用した場合の遅延は、主に OFFSET が指定された行数だけデータを読み飛ばすという非効率な処理に起因する。
必要なデータだけを効率的に抽出するのではなく、不要なデータまで一旦処理する必要があるため、処理時間が増加してしまう。
そのため、シークメソッドやインデックスの活用など、OFFSET を避ける、または効率化するアプローチが重要になる。

本を読むときは、しおりを挟みましょう