train_test_split() の stratify パラメータを使って層化サンプリングをする

scikit-learn 機械学習

データセットを分割するときに scikit-learn の train_test_split() をよく使う．今回は train_test_split() に設定できる stratify パラメータを試す．stratify は「層化」という意味で「データセットの特性を考慮した分割」とも言える．特に「不均衡データ…

#scikit-learn #機械学習

2021-11-29

scikit-learn の Pipeline を使って前処理やアルゴリズムをまとめて宣言する

scikit-learn 機械学習 Python

scikit-learn の Pipeline を使うと，データセットの前処理や機械学習アルゴリズムなどを「1つのオブジェクトに」まとめることができる． scikit-learn.org 前回の記事で紹介した「Kaggle Courses」の「Intermediate Machine Learning」コースでも使われてい…

#scikit-learn #機械学習 #Python

2021-11-01

imbalanced-learn の SMOTE モジュールを使って簡単にオーバーサンプリングを実現する

scikit-learn 機械学習 Python

分類などの機械学習モデルを構築するときにデータセットに偏り（不均衡データ）があると適切に学習できない可能性がある．データセットを強制的に増やす操作を「オーバーサンプリング」と言って，SMOTE (Synthetic Minority Over-sampling Technique) や ADA…

#scikit-learn #機械学習 #Python

2021-10-27

iris データセットを libsvm フォーマットにする : scikit-learn の dump_svmlight_file()

scikit-learn 機械学習 Python

scikit-learn の datasets モジュールの中に libsvm フォーマットのデータセットを扱う関数がある．libsvm フォーマットは以下のフォーマットでデータセットを表現し，1番左にラベル（教師データ）を持つ．例えば Amazon SageMaker の組み込みアルゴリズム X…

#scikit-learn #機械学習 #Python

2021-05-07

scikit-learn でカテゴリ変数を変換する : OneHotEncoder と LabelEncoder

scikit-learn 機械学習 Python

前回の記事では Pandas の get_dummies() 関数を使って「カテゴリ変数」の変換（One-Hot エンコーディング）を試した． kakakakakku.hatenablog.com Pandas 以外の選択肢として scikit-learn の sklearn.preprocessing モジュールを使うこともできる．今回は…

#scikit-learn #機械学習 #Python