はじめに
ロバストZスコア(Robust Z-Score)は、分布の歪みや外れ値の影響を軽減する標準化手法です。
本記事では、ロバストZスコアについて、主流の標準化手法であるパーセンタイル(Percentile)やZスコア(Z-Score)と比較しながら解説します。
📊 Why Robust Z-Score Matters
— efStats (@ef_Stats) 2025年12月29日
- A standardization method designed to reduce the impact of skewed distributions and outliers
- It can be seen as a middle ground between Percentile and Z-Score
🧵Thread. pic.twitter.com/aU07w2aKYv
パーセンタイルとZスコア
性質
選手のスタッツを比較する際、主に以下の2つの標準化手法が用いられている。
パーセンタイル
ある選手のスタッツがサンプル全体の中で何%の位置にいるかを、0–100%で表す指標。直感的で、データ分布の形状に依存しない。
Zスコア
ある選手のスタッツがサンプル平均からどれだけ離れているかを、標準偏差を単位として示す指標。サンプルが正規分布に従うことを前提とする。
特にパーセンタイルは、スタッツサイトで広く採用されており、多くのフットボールファンにとって馴染み深い。
メリットとデメリット
パーセンタイルとZスコアにはそれぞれメリットとデメリットがある。
パーセンタイル
+ 直感的、外れ値の影響を受けにくい
- データ間の距離の情報が失われる
Zスコア
+ データ間の距離の情報を保持する
- 外れ値の影響を受けやすい、正規分布を前提とする
私たちは通常、これらの制約を受け入れ、特定のニーズに基づいて選択する。
ロバストZスコア
ロバストZスコアは、平均と標準偏差の代わりに中央値と正規化四分位範囲(normalized IQR, NIQR)を用いることで、Zスコアの主要な弱点を克服する。
計算手順は以下のとおり。
1. 四分位範囲(IQR)の計算:第3四分位数(Q3, 75%点)から第1四分位数(Q1, 25%点)を引く。
2. NIQRの計算:固定値1.3489で除算し、IQRを正規化。固定値は正規分布の確率分布関数から導出したF(0.75)とF(0.25)の差。
3. ロバストZスコアの計算:測定値Xiと中央値をXmの差をNIQRで除算する。
中央値と四分位数を用いるため、平均と標準偏差を使うZスコアよりも外れ値の影響を受けにくい。また、サンプルが完全に正規分布であれば、中央値=平均、NIQR=標準偏差となり、ロバストZスコアはZスコアと同じ振る舞いをする。
具体例
導入
欧州五大リーグにおいてリーグ戦に1,350分以上出場したDMとCM(n=251)の過去365日のスタッツを用いて比較する。

まず、Progressive Passes*1 (PAdj)*2 をリーグ別にヴァイオリンプロットと箱ひげ図で可視化した。
フットボールでは、一部の優秀な選手が外れ値に近いスタッツを記録することが多く、下位50%よりも上位50%の方が分布の幅が広くなりがちである。これにより、Zスコアが前提とする「正規分布」が満たされない場合が出てくる。
例1:Progressive Passes

Progressive Passes (PAdj)について、パーセンタイル、Zスコア、ロバストZスコアを比較する。
パーセンタイルはデータ間の距離を考慮しないため、分布はほぼ均等になる。一方、ZスコアとロバストZスコアは距離を考慮するため、「上位50%の方が分布が広い」という特徴が反映される。
中央値を見ると、パーセンタイルとロバストZスコアは50だが、Zスコアは43.3となる。
例えばPhil Fodenは、パーセンタイル 52、Zスコア 44.5、ロバストZスコア 51.2となる。
これが両者の決定的な違いである。上位50%に属する選手のロバストZスコアは必ず50以上になる。どちらがより直感的だろうか?
例2:xA

次にxA*3 (PAdj)で三者を比較する。
MFではxAが高い選手と低い選手が明確に分かれやすく、このサンプルではZスコアの中央値は37.7と、さらに歪んだ分布となる。
Zスコアが50の選手のxA(PAdj)は0.084。一方、パーセンタイルとロバストZスコアが50の選手は0.064である。1位(パーセンタイル100)の選手が0.329であることを考えると、Zスコアの方が距離を適切に反映しているようにも見える。
しかし、繰り返しになるが、Zスコアは正規性を前提とする。このデータは明らかに正規分布ではない。ここでZスコアを使うのは、根本的前提が崩れた状態での比較である。
ロバストZスコアのデメリット
ロバストZスコアにも当然デメリットはある。第3四分位数 = 第1四分位数(四分位範囲 = 0)の場合、ゼロ除算で計算不能となる。これは大半の選手が0となる「ゼロ過多」スタッツ(例:キッカー以外を含むセットプレイ指標)で発生する。
ただし、これはそれほど大きな問題ではない。セットプレイ指標は、キッカーに限定するかオープンプレイ指標と統合することで、適切に比較可能だからである。
まとめ
ロバストZスコアは、パーセンタイルとZスコアの中間に位置する標準化手法です。両者のメリットを活かしつつ、デメリットの影響を抑えることができます。
特にフットボールの分析において、この手法は主流ではありませんが、この記事をきっかけに、ロバストZスコアが皆様の引き出しのひとつに加われば幸いです。
出典
- Modified Z-Score | Oracle Help Center
docs.oracle.com
- ロバストzスコア:中央値と四分位数で,非正規分布,外れ値を含む標準化 | 生物科学研究所 井口研究室
biolab.sakura.ne.jp
- 統計解析(z-スコアの算出について) | 一般社団法人日本バイオテクノロジー認証機構
jbco.or.jp