琥珀色呑んだくれ備忘録

メモとか備忘録とか

R

XGBoostExplainerが何をやっているか調べる(4.モデルから予測ルールを抽出する)

目的 関連シリーズ 準備:XGBモデルの学習と予測 学習したxgboostのルール抽出 xgb.model.dt.tree()によるパスの抽出 予測値の再分配 Cover (H)の再計算 勾配(G)とweightの再分配 各ルールのインパクトの集計(Tree Breakdown) 目的 今回は、xgboostExplain…

XGBoostExplainerが何をやっているか調べる(3.予測結果の再構成プロセスを眺める)

目的 関連シリーズ 準備 XGBモデルの学習と予測 予測ルールを抽出する 予測値を再構成する overview 対象の予測 初期化 対象のtreeの取り出し 対象のleafのとりだし 検算 目的 今回は、インスタンスの予測結果が再構成されるプロセスを、explainPredictions(…

XGBoostExplainerが何をやっているか調べる(2.可視化プロセスを眺める)

目的 関連シリーズ 予測結果の可視化プロセスをstep-by-stepで眺める 準備 XGBモデルの学習と予測 可視化の手続き overview 学習したxgboostのモデルから予測ルールを抽出する 指定したインスタンスの予測結果を予測ルールから分解再構成する 分解再構成した…

XGBoostExplainerが何をやっているか調べる(1.とりあえず使う)

目的 関連シリーズ 参考 とりあえず使ってみる インストール XGBモデルの学習と予測 個別の予測結果の可視化 STEP.1. 学習済みXGBモデルからルールセット(leafまでのパス)を列挙してテーブル化 STEP.2. Get multiple prediction breakdowns from a trained…

autoxgboost を使ってみる

前回のTokyoRで@hoxo-mさんがつぶやいていたautoxgboostを使ってみる。 xgboost の自動パラメータ調整は autoxgboost というのが便利そうだった。#tokyorhttps://t.co/LvwY9U2zyx— hoxo_m (@hoxo_m) 2018年7月15日 何? autoxgboostは、mlr と mlrMBOを使っ…

(修正あり)arulesの結果をdata.frameで探索する

R標準のデータフレーム+dplyr等で、探索的にルール抽出⇔眺めるのにパッケージを作った。本家のarulesだとちょっとやりにくいなあと思っている人むけ。 使いかた arules::inspect() の代わりに inspectDF() するだけ。 arules::DATAFRAME() でデータフレーム…

random forestを使った解釈性にもとづく推薦システム

[1706.06691] Interpretable Predictions of Tree-based Ensembles via Actionable Feature Tweakingという論文が提案されている。KDD2017でYahoo Researchの研究者によって発表されたもの、とのこと。Ensemble treesによって、あるサンプルがラベルAと予測…

Lassoの非ゼロ変数を代替する候補を可視化する

最近、モデルの解釈性(interpretability)について色々と研究が出ており、興味もあってぼんやりと追いかけている。“Finding Alternate Features in Lassos”という論文が提案されている: Satoshi Hara and Takanori Maehara (2016): "Finding Alternate Fea…

mxnetパッケージをUbuntuで使うためのセットアップ

Ubuntu14.04でRからmxnet使いたくなってセットアップ。ガイド見ながらやっていけば終わり...と思ったらinstall_depsでいくつか引っかかった。Windows/Macばりに甘やかされたい。次からコピペでやりたいので自分用にメモしておく。 http://mxnet.readthedocs.…

random forestの感度分析+

教科書を読むと、random forestでモデルを学習させて、ある良い予測精度のものが得られたら、まずは各変数の重要度をみて、つぎにpartial dependency partial dependence plot(PDP)を眺めなさい、と書いてある。ある変数の動きに注目して予測値がどう変化…

random forestを予測以外の目的で使う

数年ほど前には最強と言われて一世を風靡していたrandom forestだが、予測以外にも使い道が提案されている。Rのパッケージから紹介したい。 予測全体の把握と仮説ルールの抽出 決定木分析が便利な理由の一つは「どういうルールでその予測が成り立っているの…

foreach+%dopar%をネストしたい

R

並列化できる評価関数があり、その調節パラメータを並列にグリッドサーチしたい。単純に考えると親のソケットクラスタから子クラスタを生成すると良いのかな、と思うがもっといい方法ないものか。評価関数は例えば、randomForestのようなアンサンブル学習で…