ヤフー社内でやってるMySQLチューニングセミナー大公開

ヤフー社内でやってる
MySQLチューニングセミナー
大公開
2016/02/20 MyNA , JPUG 合同勉強会

ヤフーはどんなRDB使ってるの？
2

Yahoo! JAPANのRDB環境
• 11g RAC Enterprise Edition
• 約200DB
• サーバ 200台, Exadata もあるよ
• MySQL 5.1 (RR,Mixed)
Percona 5.5 (RR,Mixed)
Percona 5.6 (RC,RBR,GTID)
• 約500DB
• サーバ 300台
Oracle
Database
MySQL
Percona

自己紹介
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
5
• 三谷智史（@mita2）
• 所属 DBMS技術
RDB専門部隊 13名
• DB Administration 黒帯

DBAあるある
• へんなクエリ流されて、負荷が爆発
• SQLがスパゲッティすぎて解読不能
6
RDBを正しく使ってもらうために、
社内でセミナーを実施しています。

ヤフー社内でやってる
MySQLチューニングセミナー大公開
7

ご注意
• 個人の経験をもとに記載しています。間違った情報が含ま
れてたりするかもしれません。
• Version 5.5 を前提に記載しております。最新のバージョ
ンでは改善されているケースもあります。
8

本日の流れ
1. インデックスについて
2. SQLチューニング手順
1. 重いクエリの洗い出し
2. 実行計画の確認
3. SQLチューニング例
※ InnoDBを前提。MyISAMはもう卒業しましょう。

インデックスについて

• インデックスはツリー構造
• データはソートされている
• リーフノードに値と行のPKを格納
なぜ、インデックスで高速化するのか？
PK col1 time
1 a 11:15
2 f 01:10
3 d 03:01
：：：
SELECT * FROM t WHERE col1 = ‘f’
インデックス対象
a-p r-z
a
pk=1
d
pk=3
f
pk=2
p
pk=9
r
pk=4
t
pk=5

カーディナリティとは
• カーディナリティが低いと効果が少ない
• カーディナリティが高いデータの例
• AUTO_INCREMENT、住所、更新日時
• カーディナリティが低いデータの例
• フラグ、カテゴリ、都道府県

なぜ効果が少ないのか？
0
pk=1
pk=3
pk=5
：
：
：
1
pk=2
pk=4
pk=6
：
：
：
PK is_pk_even_num
（PKが偶数か？）
time
1 0 11:15
2 1 12:31
3 0 13:44
4 1 14:01
：：：
1000000 1 20:01
SELECT * FROM t WHERE is_pk_even_num = 1
AND time <= 12:00
• 半分までしか絞り込めない
• インデックスを経由することによる
オーバーヘッドが無視できない
×
50万回

PK is_pk_1000multi
(PKが1000の倍数?)
time
1 0 11:15
： 0 12:31
1000 1 13:44
：： 14:01
：：：
1000000 1 20:01
例外
0
pk=1
pk=2
pk=3
：
：
：
1
pk=1000
pk=2000
pk=3000
：
SELECT * FROM t WHERE is_pk_1000multi = 1
AND time <= 12:00
• 分布が偏っていれば効果が大きくなる
• 条件によって効果が異なる
×
1000回

Left-Most-Index
以下のインデックスは同じ？
違います
インデックスA.
CREATE INDEX idxA1 ON mytable (col1);
インデックスB.
CREATE INDEX idxB1 ON mytable (col1, col2);
インデックスC.
CREATE INDEX idxC1 ON mytable (col2, col1);

複合インデックスでは指定順が重要
a
pk=1
9 a
pk=2
8 b
pk=3
7 b
pk=4
6
5
pk=1
c 6
pk=4
b 7
pk=2
b 8
pk=3
a
a b～c
5～6 7～9
col2col1
col1col2
c
pk=5
5
9
pk=5
a

複合インデックスでは指定順が重要
絞り込み対象カラム
→
1.WHRER col1 =
‘x’
2.WHERE col2 =
‘x’
3.WHERE col1 = ‘x’ AND col2 = ‘x’
インデックスA idxA1
が利用される
idxA2
が利用される
idxA1, idxA2 どちらかが利用される。
※
インデックスB idxB1
が利用される
インデックスは利
用されない
idxB1 が利用される。
idxA1, idxA2より高速。
インデックスC インデックスは利
用されない
idxC1
が利用される
idxC1が利用される。
idxA1, idxA2より高速。
※ 場合によってはインデックスマージ
インデックスA.

インデックスを貼るときのポイント
• カーディナリティの高いカラムを選ぶ
• 複合インデックスのカラムの順に注意
• 更新性能・キャッシュ効率が低下するため、
必要なものだけに貼る

SQLチューニングの手順
1. 重いクエリランキングを出す
2. 実行計画を確認する
3. チューニング
1. SQLの書き換え
2. インデックスを貼る
3. テーブル構成をみなおす etc

重いSQLの洗い出し方 STEP1
スロークエリーログに全SQLを記録
$ sudo rm mysqld-slow.log
$ mysql –u user_name –p
mysql> SET GLOBAL long_query_time = 0;
mysql> SET GLOBAL log_slow_verbosity=full;
mysql> FLUSH LOGS;
# User@Host: user[user] @ [1.2.3.4]
# Query_time: 0.067361 Lock_time: 0.000030 Rows_sent: 16 Rows_examined: 121031
SET timestamp=1346772142;
SELECT zpam.zip_cd
FROM zip_area_mast zpam
WHERE zpam.point_cd = 11276 AND zpam.del_flag = 0;
:
実行時間
テーブルロックした時間
行ロックした時間はカウン
トされていので注意！
結果の行数
スキャンした行数

• Percona Tookit の pt-query-digest で集計
重いSQLの洗い出し方 STEP2
$ sudo pt-query-digest --group-by fingerprint¥
--order-by Query_time:sum ¥
--since '2015-06-14 00:00:00' --until '2015-06-14 23:59:59' ¥
mysqld-slow.log
合計実行時間でソート
オプションソート条件
Query_time:avg 平均実行時間
Query_time:sum 合計実行時間
InnoDB_IO_r_bytes:sum バッファプールにヒットせず、DISKから読み取った
データ量

集計結果
# Query 5: 39.92 QPS, 229.19kx concurrency, ID 0x72BFE142E32896BD at byte 88442
# Time range: 2015-10-29 23:00:00 to 23:59:59
# Attribute pct total min max avg 95% stddev median
# ============ === ======= ======= ======= ======= ======= ======= =======
# Count 31 143676
# Exec time 11 660s 150us 623ms 5ms 18ms 10ms 490us
# Lock time 20 13s 32us 5ms 91us 113us 30us 89us
# Rows sent 0 264.02k 0 4 1.88 2.90 0.69 1.96
# Rows examine 0 264.02k 0 4 1.88 2.90 0.69 1.96
# Rows affecte 0 0 0 0 0 0 0 0
# Rows read 0 264.02k 0 4 1.88 2.90 0.69 1.96
# Bytes sent 0 16.80M 83 171 122.61 143.84 17.33 124.25
# Merge passes 0 0 0 0 0 0 0 0
# Tmp tables 0 0 0 0 0 0 0 0
# Tmp disk tbl 0 0 0 0 0 0 0 0
# Tmp tbl size 0 0 0 0 0 0 0 0
# Query size 18 26.14M 148 271 190.81 246.02 51.01 143.84
# InnoDB:
# IO r bytes 9 786.66M 0 80.00k 5.61k 15.96k 9.17k 0
# IO r ops 9 49.17k 0 5 0.35 0.99 0.57 0
# IO r wait 14 569s 0 620ms 4ms 17ms 10ms 0
＜省略＞
SELECT topic_id FROM weather WHERE (consumeruri = ‘abc') AND (consumeruri_type = 'android')¥G
合計実行回数平均実行時間
（1クエリあたり）
レスポンス行数（1クエリあたり）
クエリ
処理過程で読み込んだ行数
（1クエリあたり）
キャッシュヒットせずに
DISKから読んだバイト数

実行計画の確認
• 実行計画＝クエリの処理の流れ
• 「EXPLAIN」をクエリの先頭に付ける
• 更新系クエリはSELECTに書き換え
UPDATE t SET col = newvalue WHERE condition = ‘x’;
EXPLAIN SELECT col FROM t WHERE condition = ‘x’;

代表的なチューニング例
1. type=ALL または type=index で rows が大きい
2. Extra に Using temporary; Using filesort でrowsが大きい
3. select_type が DEPENDENT SUBQUERY
4. JOINにおいて2つ目以降のExtraにUsing whereが出力さてい
て rows が大きい
5. 大量更新
6. データ削除

インデックスが効かない条件
Extra
関数 WHERE datediff(now(), mod_date) > '180'
式 WHERE col1 / 2 = 0
否定構文 WHERE col1 != 3
LIKE検索
※ 前方一致除く
WHERE col1 LIKE ‘%string%’
WHERE col1 LIKE ‘%string’

4. JOINにおいて2つ目以降のExtraにUsing whereが出力さていて
rows が大きい
5. 大量更新
6. データ削除

【2.ソート】 CALC_FOUND_ROWSはNG
• SQL_CALC_FOUND_ROWS句
• 条件にマッチしたレコードが全部で何件あったかを返す
• LIMIT句と一緒に使う
• 「全部で何件」＝ LIMIT句がないのと同じ

【2.ソート】考慮事項
• 1度に使われるインデックスは、
各テーブルにつき１つ
• 選択が必要
• ソートを最適化する
• 絞り込み（WHERE句）を最適化する

【3.相関サブクエリ】期待する動作
team_id team_name
1 Team1
2 Team2
3 Team3
1 Yahoo Taro C
1 Yahoo Jiro Python
2 Yahoo Hanako Ruby
2 Yahoo Saburo PHP
3 Yahoo Sirou Perl
FROM team
最初に実行される
ことを期待
①skill=Cを探す②team_id=1を探す
• memberテーブルを1回読み込む
• teamテーブルを1回読み込む
• 合計＝5 + 3 = 8行の読み込みを期待する

【3.相関サブクエリ】実際の動き
FROM team
team_id team_name
1 Team1
2 Team2
3 Team3
1 Yahoo Taro C
1 Yahoo Jiro Python
2 Yahoo Hanako Ruby
2 Yahoo Saburo PHP
3 Yahoo Sirou Perl
team_id =1 AND skill=C
のレコードを探す
• 合計＝ 3 + 3 * 5 = 18行の読み込み
• 実行計画の「PRIMARY」は外部表（親）を示す
• なぜ、期待どうりに動かないのか？
• MySQLの仕様です。。。（5.6で改善されます）

4. JOINにおいて2つ目以降のExtraにUsing whereが出力さ
ていて rows が大きい
5. 大量更新
6. データ削除

【4.JOIN】NL結合
• MySQLは「NestedLoop結合」のみをサポート
• どんな結合条件でも対応可
• 最速とは限らないがバランスの良いアルゴリズム

【4.JOIN】チューニング
• ループ回数を少なくする
• 結合条件以外の条件にマッチする件数を
テーブルごとにカウント
• 件数が少ないほうを外部表にする
mysql> SELECT COUNT(*) FROM prefecture;
+----------+
| COUNT(*) |
+----------+
| 47 |
+----------+
mysql> SELECT COUNT(*) FROM people where age >=120;
+----------+
| COUNT(*) |
+----------+
| 3 |
+----------+

pref_id prefecture
1 Hokkaido
2 Aomori
～～～～～～
41 Saga
pref_id name age
1 Tokugawa 121
2 Toyotomi 125
～～～～～～～～～～～～
41 Akechi 130
3 Inoue 90
■ people
：
■ people - age_idx
※ MySQLはクラスタインデックスのため主キー＝テーブルで実際はツリーです。
・狙うべき動作

4. JOINにおいて2つ目以降のExtraにUsing whereが出力さてい
て rows が大きい
5. 大量更新
6. データ削除

【6.大量の更新】
バルクインサートにより性能向上
INSERT INTO quote_real_info (ask10_flag, ask10_order, ask10_price, … ＜170カラムぐらい＞
VALUES (NULL, NULL, '1150’, '2012-06-13 15:10:00’, '0’, '900’, …）,
(NULL, NULL, '1152’, '2012-06-13 15:10:01’, '0’, '300', …）,
(NULL, NULL, '1153', '2012-06-13 15:10:00', '0', '100', …）,
(NULL, NULL, '1250', '2012-06-13 15:10:01', '0', '920', …）,
(NULL, NULL, '1151', '2012-06-13 15:10:00', '0', '500', …）,
(NULL, NULL, '1155', '2012-06-13 15:10:01', '0', '150', …）);5万レコード
/sec
VALUES (NULL, NULL, '1150', '2012-06-13 15:10:00', '0', '900', …）;
VALUES (NULL, NULL, '1150', '2012-06-13 15:10:00', '0', '900', …）;
：
：

【6.大量の更新】チューニング方法
• RDBは通常コミット毎にDiskに書き込む
•× Auto-Commit
• バルクインサートはサーバ・クライアント間の通信
回数を減らせるため、より高速
• 1件1件コミット
• 複数件コミット
• バルクインサート
高速

【7.テーブルの削除】
• TRUNCATE = DROP + CREATE
• 注意：AUTO_INCREMENTがリセット
• 条件を指定したい
• パーティション化＋ [DROP|TRUNCATE] PARTITION
DELETE FROM push_message；
TRUNCATE TABLE push_message ；

チューニングの難しいクエリ

必要なデータが大きいもの
SELECT COUNT(*) FROM access_log;
SELECT SUM(a) FROM access_log WHERE data BETWEEN ‘1995-01-01’ AND NOW();
必要なデータが大きいものは遅い
• MySQLは1セッション＝1スレッド＝１CPU
• 作りから見直す必要がある
• 例）集計テーブルを作り更新時に同時にカウ
ントアップする

まとめ
• カーディナリティとキーの指定順に注意
• スロークエリログで犯人を特定
• EXPLAINで分析
• チューニング方法は様々・ケースバイケース
• → 経験あるのみ！

MySQL Casual Slack
• MySQL Casual の Slack （チャット）
• 「MySQL Casual Slack」で検索
64

ありがとうございました

ヤフー社内でやってるMySQLチューニングセミナー大公開

Recommended

More Related Content

What's hot (20)

Viewers also liked (8)

Similar to ヤフー社内でやってるMySQLチューニングセミナー大公開 (20)

More from Yahoo!デベロッパーネットワーク (20)

ヤフー社内でやってるMySQLチューニングセミナー大公開