THE ZAKKI

ザッキ

Gretlを使ってSplatoon2の勝率に関してLogistic回帰をした

内容:表題の通り

最近使い始めたikaWidget2がCSV形式でデータを出力できたので,こないだの講義で手に入れた統計解析ソフトウェアGretlを使って,勝率について考えてみた。

同ソフトは計量経済学向きに作られてるから,回帰分析に強い(らしい)。

(Gretl -> http://gretl.sourceforge.net/)

 

サンプルサイズ:225

期間:2018/8/21 - 2018/9/11

リソース:自分のSplatoon2の戦績・ikaWidget

 

自チームの行動が勝率にどうかかわるか知りたかったので,自チームのキル数,デス数,スペシャル使用数,アシストキル数,キル/デス比の平均を説明変数にした。被説明変数の勝率は勝ったか負けたかの二値データなので,ロジスティック回帰モデルを使用することにした。各独立変数の正規性は満たされていた。

 

※ロジスティック回帰:説明変数がある値だった時に,2値(例えば1/0)データが一方の値を取る確率の対数オッズを被説明変数にした回帰分析。正直よくわかっていない。

 

結果

モデル 4: ロジスティック回帰, 観測: 1-225 (n = 208)
除去した観測数(欠損値や不完備な観測): 17
従属変数: win2
yhat = 100 / (1 + exp(-X*b))

係数 標準誤差 t値 p値
------------------------------------------------------
const −4.24739 0.0482062 −88.11 6.56e-165 ***
avekill 0.114257 0.0101446 11.26 3.23e-023 ***
aveDeath −0.100471 0.00994585 −10.10 9.93e-020 ***

変換されたデータに基づく統計量:

Sum squared resid 14.34525 S.E. of regression 0.264531
R-squared 0.405088 Adjusted R-squared 0.399284
F(2, 205) 69.79435 P-value(F) 7.61e-24
Log-likelihood −17.03082 Akaike criterion 40.06164
Schwarz criterion 50.07425 Hannan-Quinn 44.11023

もとのデータに基づく統計量:

Mean dependent var 1.622222 S.D. dependent var 0.485913
Sum squared resid 32.18289 S.E. of regression 0.396219

変数の追加についての検定 -
帰無仮説: この変数のパラメータはゼロである
aveSpecial
検定統計量: F(1, 204) = 3.45661
なお、p値(p-value) = P(F(1, 204) > 3.45661) = 0.0644393

変数の追加についての検定 -
帰無仮説: この変数のパラメータはゼロである
aveAssist
検定統計量: F(1, 204) = 0.85864
なお、p値(p-value) = P(F(1, 204) > 0.85864) = 0.355215

変数の追加についての検定 -
帰無仮説: この変数のパラメータはゼロである
aveRatio
検定統計量: F(1, 204) = 2.96826
なお、p値(p-value) = P(F(1, 204) > 2.96826) = 0.0864287

 

とりあえず色々突っ込んでみたが,まあモノを言うのはキル数とデス数みたいだった。

スぺとキルレとアシストは突っ込む順番色々変えても,キル数とデス数の2変数モデルに追加した所で係数が0だった。スぺはともかく,キルレとアシストはキル数とデス数に相関してるはずなので自明だったか。スぺに関しては有意の等落線にいた。一応(キル数,デス数,スぺ数)から勝ち負けを説明するモデルも立ててみたが,説明率の変化が1%未満なので要らないと判断した。

 

上の結果だけ見とくと,勝率の40%くらい(Adjusted R squared = 分散説明率)が自チームのキルとデスによって説明できるらしい。味方toonと罵れるのは4割くらいということだ。残り6割については,今回突っ込まなかった変数や,交互作用,ブキやルールなどの質的変数に拠る変動で構成されてるんだと思う。ただ,10割説明するモデル探すのは辛いし,多岐に渡りすぎてるからナンセンスだと思う。

 

↓スぺ数も追加した場合。Adjusted R Squaredが0.01くらいしか変わってない。赤池情報量もちょっとしか変わってない。

 

モデル 8: ロジスティック回帰, 観測: 1-225 (n = 208)
除去した観測数(欠損値や不完備な観測): 17
従属変数: win2
yhat = 100 / (1 + exp(-X*b))

係数 標準誤差 t値 p値
----------------------------------------------------------
const −4.21921 0.0502601 −83.95 3.74e-160 ***
avekill 0.123723 0.0112967 10.95 2.97e-022 ***
aveDeath −0.0984500 0.00994636 −9.898 4.10e-019 ***
aveSpecial −0.0349549 0.0188011 −1.859 0.0644 *

変換されたデータに基づく統計量:

Sum squared resid 14.10623 S.E. of regression 0.262960
R-squared 0.415000 Adjusted R-squared 0.406397
F(3, 204) 48.23936 P-value(F) 1.32e-23
Log-likelihood −15.28339 Akaike criterion 38.56677
Schwarz criterion 51.91693 Hannan-Quinn 43.96489

 教訓:

今回の分析で言える教訓を考えてみたが,よく浮かばない。何しろ4割と言うとまあまあ大きいけど過半数ではないという微妙な値だから。まあ自チームの行動によって4割くらいは変わるかもね。くらいに収めとくのが丸いかもしれない。

むしろ説明できてない残り6割の方が考えようがあると思う。上にも書いたが,この6割は多分ブキ同士,ブキとルール,ブキとギアなどの相性みたいなめんどくさい要因で成り立ってはいるものの,「試合に潜ってボコされる/ボコる以前の自助努力・考えようによって改善できる」ということを示唆している(かも)。つまりブキやステージについてよく学べば,この6割の内5割(全体の3割)くらいは操作できるかもしれないのだ。試合での打ち合い技術も大事だが,メタを張ることもかなり大事,ということだ。

 

課題

・モデルの選定が合ってるかわからない

・データ数225は少ないかもしれない

・今回は交互作用は見てない(キルとデスだからそんなにないとは思うけど...)

・統計ソフト自体あまりわかってない

 

またデータがたまったらやりたい。

※この内容は僕のデータしか使ってないので,僕か僕に極めてプロフィールの似ているプレイヤーのためにしかならない

Gretl,ikaWidget2の著作権は各々の製作者に属します。