Lassoの非ゼロ変数を代替する候補を可視化する

最近、モデルの解釈性（interpretability）について色々と研究が出ており、興味もあってぼんやりと追いかけている。

“Finding Alternate Features in Lassos”という論文が提案されている：　
Satoshi Hara and Takanori Maehara (2016): "Finding Alternate Features in Lasso", in NIPS 2016 workshop on Interpretable Machine Learning for Complex Systems, December 10th, 2016.　（arXiv, github）
著者の日本語ページにもコンパクトな解説が掲載されている。

Lassoには変数間の相関が高いとき、それらの変数の中から一つだけを選択したがる性質がある(「見落としの問題」と呼ぶそうだ）。この問題に対して、この論文では、LASSOによって選択された変数がもし使われなかったとしたら、かわりにどの変数が選択されるかと考える。著者らによると、代替となる変数を列挙提示することで、納得感や結果の解釈性が得られるのではないか、と期待している。顧客に選択肢を残しておくというのは良いんじゃないだろうか。

具体的な手続きはシンプルで、Lassoで選択された係数 $\beta^*$ の推定量が非ゼロの変数 $X_i$ と推定量ゼロの変数 $X_j$ の組を考え、 $\beta^*$ のもとで全ての組 $(i,j)$ について $\beta_i=0$ 、 $\beta_j\not=0$ とおいて目的関数を解きなおす。 $\beta_j\not=0$ と再推定されたら、「 $X_j$ は $X_i$ の代替となる変数である」と提示され、やっぱり $\beta_j=0$ なら「 $X_j$ は $X_i$ の置き換えにはならない」とする。
また、代替となる変数同士の優劣は、目的関数の変化量を指標スコアとして相対的に順位づけされる。

で、ざっと論文を読んだ後、著者のPythonコードを見たらRでも簡単にできそうだったので、シンプルなOLS + soft-thresholdな罰則項という最小限だけをＲで実装した(github)。

Introduction of "the alternate features search" using R from Satoshi Kato

www.slideshare.net
ローカルに持ってきてDESCRIPTIONを用意してビルドすればパッケージになる（はず）。二分グラフを縦にプロットする方法で地味に手こずったが、この論文の可視化以外にもどこかで役に立つだろう。

面白いなと思った点は、目的関数をタスクに合わせてフレキシブルに設計できるところ。実際に、論文では損失関数をloglossに差し替えて二値分類タスクに適用・実験している。正則化項のほうを弄れば、例えばadaptive Lassoなどへの拡張もできるのではないかと思う。

また、各変数の相関行列と代替性の指標スコアとを比較すると、必ずしも大きさの順番がが一致しないのも興味深い。相関の高い変数が上位に来るのはわかりやすい一方、罰則の強さ( $\lambda$ ）の選び方によっては、割と相関の高くない変数でも代替候補として挙げられてくる。これはもしかしたら、前処理としてマルチコを除く作業をこの手法によってモデル構築後の二次工程に回せるかもしれないし、データによっては発見的な議論につながるかもしれない。
$\lambda$ の選び方について、スライドの例ではcross-validationで求めた値を使った。しかし、変数が増えていくと見なければいけない情報が多すぎるので、強めの罰則をかけてエッセンシャルな変数だけに絞って分析するほうがシンプルかな、とは思った。この辺りは好みもあるかもしれないが、元の論文中では推奨値に関する議論は特に言及がなかったと思う。

代替候補の変数は必ずオリジナルの変数よりも目的関数の評価が下がることもあり、おそらく予測はオリジナルの $\beta^*$ のモデルでやったほうがよい。そういう理由でprediction()は実装しなかった。この方法で予測したいとか2値分類について同様の分析がしたい方は本家のPython版を利用されたい。

推定値がズレる縮小推定の問題や、サンプルサイズよりも変数の数が大きいときに見過ごすといった、Lassoの癖というか性質に対処するアプローチの一例については、以前紹介したことがあるのでそちらも参照されたい。

Oracle property and_hdm_pkg_rigorouslasso from Satoshi Kato