24. 非線形回帰XGB_TPE予測モデル作成ワークフロー

24.1. 概要

XGBoostを用いた勾配ブースティング決定木による学習を行う。

24.2. ワークフロー説明

XGBoostを用いた勾配ブースティング決定木による学習を行う。非線形回帰XGB_TPE定義ファイル作成ワークフローで入力した学習データと出力された非線形回帰XGB_TPEモデル定義を編集したものを入力に用いる。本ワークフローで行われる処理は、まず学習データが訓練データとテストデータに分割され、訓練データに関して超パラメータ最適化が行われる。つぎに得られた超パラメータを使用してモデル作成が行われ、その際テストデータが過学習の抑制のために使用される。結果として予測モデルが出力されるほか、超パラメータ最適化やモデル作成に関する評価に用いるためのプロットやRMSEやR2を記載したファイルが出力される。出力される予測モデルは非線形回帰XGB_TPE予測ワークフローの入力として使用される。 ワークフローは 図 720 になる。

../_images/wf12.png

図 720 非線形回帰XGB_TPE予測モデル作成ワークフロー

24.3. ツールの説明

今回のワークフローで使用するツールの説明を行う。

ツール名

非線形回帰XGB_TPEの予測モデル作成

1. 非線形回帰XGB_TPEの予測モデル作成

非線形予測を行うXGBoostにTree-structured Parzen estimatorを用いた超パラメータ最適化を組み合わせたモジュール。非線形回帰XGB_TPE定義ファイル作成ワークフローで出力される非線形回帰XGB_TPEモデル定義で指定された条件を元に超パラメータ最適化と予測モデル作成を行う。このモジュールで出力する予測モデルは非線形回帰XGB_TPE予測ワークフローの入力として使われる。( 図 721 )
../_images/wf_tool112.png

図 721 ツール「非線形回帰XGB_TPEの予測モデル作成」

入力ファイル:
ポート名:学習データ
非線形回帰XGB_TPE定義ファイル作成ワークフローに入力したものと同一の学習データファイル。( 図 722 )
../_images/testdata1.png

図 722 入力ファイル「学習データ」


ポート名:超パラメータ(オプション)
最適化結果ハイパーパラメータを指定すると、超パラメータ最適化処理を省略してファイルの内容を使用しモデル作成のみ行う。( 図 723 )
../_images/hyperparameter_best_para.png

図 723 入力ファイル「超パラメータ」


ポート名:非線形回帰XGB_TPEモデル定義
非線形回帰XGB_TPE定義ファイル作成ワークフローの出力であり、予め内容を編集して学習条件を指定する。( 図 724 )
../_images/config1.png

図 724 入力ファイル「非線形回帰XGB_TPEモデル定義」

出力ファイル:
ポート名:RMSEプロット
モデル作成時の木の本数に対するRMSEのプロットを訓練データ・テストデータについて行ったもの。( 図 725 )
../_images/evals_result.png

図 725 出力ファイル「RMSEプロット」


ポート名:予測モデル
学習結果の予測モデル。非線形回帰XGB_TPE予測ワークフローの入力に使用される。

ポート名:最適化結果ハイパーパラメータ
超パラメータそれぞれの最適化結果。超パラメータとして入力に使用可能。( 図 726 )
../_images/best_param.png

図 726 出力ファイル「最適化結果ハイパーパラメータ」


ポート名:決定係数R2とRMSEスコア
モデル作成時の、訓練データ・テストデータそれぞれについての決定係数R2とRMSE。( 図 727 )
../_images/r2_rmse_score.png

図 727 出力ファイル「決定係数R2とRMSEスコア」


ポート名:特徴量重要度のバープロット
特徴量重要度のバープロット。( 図 728 )
../_images/feature_importance.png

図 728 出力ファイル「特徴量重要度のバープロット」


ポート名:訓練データと予測データのプロット
訓練データとテストデータに関する実測値と予測値のプロット。( 図 729 )
../_images/Experimental_vs_Prediction.png

図 729 出力ファイル「訓練データと予測データのプロット」


ポート名:超パラメータ探索プロット
超パラメータ探索時の繰り返し回数とK-foldの各分割におけるRMSEの平均および標準偏差を表すプロット。( 図 730 )
../_images/errors_hyperparam_tuning.png

図 730 出力ファイル「超パラメータ探索プロット」

24.4. 入力ファイル

このワークフローにおける入力ファイルは 図 722図 724 (オプション 図 723 )となる。入力ファイル名は半角スペースを入れなければ任意のファイル名でよい。

  • サンプル入出力ファイル ダウンロードはこちら (html版のみダウンロード可能)

    • 予測モジュール提供元から受領した入力ファイルにて検証済

24.5. ワークフロー作成

1. ワークフロー一覧から [ワークフローを追加] ボタンをクリックし、ワークフロー登録画面に遷移する。
ワークフロー名に「非線形回帰XGB_TPE予測モデル作成」と入力後、ワークフローの説明を入力する。( 図 731 )
../_images/wf_add8.png

図 731 ワークフローを追加

2. 予測モデルについては、 [選択] ボタンをクリックし、予測モデル選択画面に遷移する。( 図 732 )
../_images/wf_model_select8.png

図 732 予測モデル選択

3. 検索ワード入力欄に、検索する予測モデル名「非線形回帰XGB_TPEの予測モデル作成」と入力後、[検索] ボタンをクリックする。( 図 733 )
4. 検索結果の中から選択する予測モデルの左端のラジオボタンにチェックを付け、[選択] ボタンをクリックする。( 図 734 )
../_images/wf_model_select_decision8.png

図 734 予測モデル選択確定

5. ワークフロー登録画面の [登録] ボタンをクリックする。( 図 735 )
../_images/wf_register12.png

図 735 ワークフロー登録

6. ワークフロー登録後、ワークフロー一覧に先ほど登録した「非線形回帰XGB_TPE予測モデル作成」が表示されるので選択する。( 図 736 )
../_images/wf_list12.png

図 736 ワークフロー一覧画面

7. ワークフローメタ情報画面に遷移後、[デザイン] ボタンをクリックし、ワークフローデザイナー画面に遷移する。( 図 737 )
../_images/wf_design112.png

図 737 ワークフローデザイナー画面

8. デザインメニューの [ツール] アイコンをクリックすると、ツールダイアログが表示されるので、今回使用するツールを選択し、ドラッグ&ドロップで追加する。( 図 738 )
../_images/wf_design212.png

図 738 ツール表示画面

今回使用するツールは、下記の表の通りとなる。ツールの種類は予測モジュール(M)を選択する。

ツール名

非線形回帰XGB_TPEの予測モデル作成

9. 「非線形回帰XGB_TPEの予測モデル作成」ツール上で「右クリック > 入力ポートに接続するデータを配置」をクリックする。次に「右クリック > 出力ポートに接続するデータを配置」をクリックする。( 図 739 )
../_images/wf_design312.png

図 739 入出力ポートの接続

10. デザインメニューの [自動レイアウト] アイコンをクリック後、ワークフローを保存する。( 図 740 )
../_images/wf_save12.png

図 740 ワークフローの保存

11. ワークフローメタ情報編集画面に遷移し、[編集] ボタンをクリックしてステータスを公開中に変更し [登録] ボタンをクリックする。( 図 741 )
../_images/wf_edit12.png

図 741 ステータスの変更

24.6. ワークフロー実行

1. ステータスを変更後ワークフローメタ情報画面に戻るので、[ワークフローを実行] ボタンをクリックするとワークフロー実行画面に遷移する。 実行パラメータ(入力ファイル)を設定後、[実行] ボタンをクリックすることでワークフローが実行される。( 図 742 )
../_images/wf_run112.png

図 742 ワークフロー実行

2. ワークフローが実行されるとラン一覧に実行したワークフローが記載される。( 図 743 )
../_images/wf_run212.png

図 743 ラン一覧画面

3. ランのステータスが完了になることで実行結果をダウンロードすることが可能になる。( 図 744 )
../_images/wf_run312.png

図 744 実行完了

24.7. 実行結果

1. ラン一覧から実行結果をダウンロードしたいランIDをクリックし、ラン詳細画面に遷移する。( 図 745 )
ラン詳細画面の [ダウンロード] ボタンをクリックすると計算結果ファイルダウンロード画面に遷移する。そこで、全ての実行結果をダウンロードするのラジオボタンにチェックを付け、[ダウンロード] ボタンをクリックするとダウンロードが開始される。
../_images/wf_result112.png

図 745 ラン詳細画面と計算結果ファイルダウンロード画面

2. ダウンロードした実行結果ファイルは圧縮されており、"out.zip"というファイル名になっている。
これを解凍すると「(ワークフローID+)ツール名」のフォルダが存在する。( 図 746 )
../_images/wf_result212.png

図 746 実行結果ダウンロードファイル(out.zip)