データエンジニアリングライフサイクルのステージと底流とは /「データエンジニアリングの基礎」を読んだ

本データ機械学習

2024年3月に出版された「データエンジニアリングの基礎」を読んだ仕事で取り組んでいることに関係していて，何かしら新しい気付きや発見があれば良いな〜と思って読んでみたけど，期待以上に素晴らしい一冊だった❗️データを取り扱うときに考慮すべきポイン…

2024-04-16

PyTorch Tutorials「(optional) Exporting a Model from PyTorch to ONNX and Running it using ONNX Runtime」を試した

Python 機械学習 PyTorch ONNX

PyTorch のチュートリアル「(optional) Exporting a Model from PyTorch to ONNX and Running it using ONNX Runtime」を試した❗️ pytorch.org PyTorch に低解像度の画像を高解像度の画像に変換する「超解像モデル」のサンプルがあって，今回のチュートリア…

2022-06-14

実験管理を便利に行う MLflow Tracking に入門した

機械学習

実験管理やモデルレジストリなど，機械学習ライフサイクルをうまく管理するプラットフォームとして有名な「MLflow」に入門する．GitHub リポジトリの Star は 12000 もあってスゴイ！MLflow は MLOps の文脈でもよく聞くので，1度試しておこうと思った．現…

2022-05-16

Pandas で指数表記を無効化する

Python Pandas 機械学習

Jupyter Notebook で Pandas のコードを実装しているときに「指数表記を無効化」する場合は pd.options の display.float_format を設定する．以下にサンプルとして「桁数 2」と「桁数 6」の例を載せておく． # 小数点以下桁数 2 pd.options.display.float_…

2022-03-22

Pandas で NDJSON (.jsonl) を読み込む

Pandas 機械学習 Python

Pandas で NDJSON (Newline Delimited JSON) を読み込む場合 read_json() 関数に lines=True パラメータを設定すれば OK！ pandas.pydata.org NDJSON サンプル dataset.jsonl { "id": 1, "name": "Alice" } { "id": 2, "name": "Bob" } { "id": 3, "name": "…

2021-12-20

Scratchpad は便利！Jupyter Notebook で検証用のセルをシュッと追加する

JupyterNotebook 機械学習 Python

Jupyter Notebook でコードを書いているときに「検証のために一時的にセルを追加してコードを書いて終わったらセルを消す」という操作を頻繁にしている（表現しにくいけど...）．些細な操作ではあるけど地味に面倒だった．そこで「Scratchpad」を使ったら便…

2021-12-13

Feature Engineering : Kaggle Courses で「特徴量エンジニアリング」を学ぶ

機械学習 Python

Kaggle が公開している「Kaggle Courses」で「Feature Engineering」コースを受講した．機械学習モデルを構築するときに重要になる「特徴量エンジニアリング」を多岐にわたる観点から学べる．「特徴量エンジニアリング」の目標は「データセットを目の前の問…

#機械学習 #Python

2021-12-06

現場の視点で機械学習に必要な知識を学べる「仕事ではじめる機械学習第2版」を読んだ

機械学習本

「仕事ではじめる機械学習第2版」を読んだ．実は「第1版」を買ってずっと積読をしていたところに「第2版」が出たので書い直した書名に「仕事ではじめる」と書いてある通り，現場の視点で理解しておくべき「機械学習」の知識がまとまっていて良かった．そし…

2021-11-30

train_test_split() の stratify パラメータを使って層化サンプリングをする

scikit-learn 機械学習

データセットを分割するときに scikit-learn の train_test_split() をよく使う．今回は train_test_split() に設定できる stratify パラメータを試す．stratify は「層化」という意味で「データセットの特性を考慮した分割」とも言える．特に「不均衡データ…

#scikit-learn #機械学習

2021-11-29

scikit-learn の Pipeline を使って前処理やアルゴリズムをまとめて宣言する

scikit-learn 機械学習 Python

scikit-learn の Pipeline を使うと，データセットの前処理や機械学習アルゴリズムなどを「1つのオブジェクトに」まとめることができる． scikit-learn.org 前回の記事で紹介した「Kaggle Courses」の「Intermediate Machine Learning」コースでも使われてい…

#scikit-learn #機械学習 #Python

2021-11-24

Intermediate Machine Learning : Kaggle Courses で学びながら「住宅価格予測」コンペに参加する

機械学習 Python

Kaggle が公開している「Kaggle Courses」で「Intermediate Machine Learning」コースを受講した．Kaggle のコンペティション「Housing Prices Competition for Kaggle Learn Users（住宅価格予測）」をテーマに試行錯誤をして，実際にモデルを登録すること…

#機械学習 #Python

2021-11-19

入門者でも挫折せずに読める！「機械学習図鑑」で "17種類" のアルゴリズムを学ぶ

機械学習本

「機械学習図鑑」を読んだので簡単にまとめる．正確には今年5月頃に読んでいたけど，まだ書評記事を書いてなかったまず前提として，本書を読んだときには僕は機械学習に詳しくなく入門者だった．機械学習に関連する書籍を何冊か買ってみたけど，そのときの…

2021-11-01

imbalanced-learn の SMOTE モジュールを使って簡単にオーバーサンプリングを実現する

scikit-learn 機械学習 Python

分類などの機械学習モデルを構築するときにデータセットに偏り（不均衡データ）があると適切に学習できない可能性がある．データセットを強制的に増やす操作を「オーバーサンプリング」と言って，SMOTE (Synthetic Minority Over-sampling Technique) や ADA…

#scikit-learn #機械学習 #Python

2021-10-27

iris データセットを libsvm フォーマットにする : scikit-learn の dump_svmlight_file()

scikit-learn 機械学習 Python

scikit-learn の datasets モジュールの中に libsvm フォーマットのデータセットを扱う関数がある．libsvm フォーマットは以下のフォーマットでデータセットを表現し，1番左にラベル（教師データ）を持つ．例えば Amazon SageMaker の組み込みアルゴリズム X…

#scikit-learn #機械学習 #Python

2021-06-22

Intro to Machine Learning : Kaggle Courses で「住宅価格予測」に入門した

機械学習 Python

Kaggle が公開している「Kaggle Courses」で機械学習に入門できる「Intro to Machine Learning」コースを受講した．Intro と書いてある通り，入門レベルではあるけど，scikit-learn を使って「決定木（回帰）」や「ランダムフォレスト」で「住宅価格予測」を…

#機械学習 #Python

2021-06-15

Scratch で機械学習を楽しめちゃう！「Scratch ではじめる機械学習」を読んだ

Scratch 機械学習本

最近「Scratch ではじめる機械学習」を読んで，とても楽しめたので紹介したいと思う．本書は Scratch を使って「機械学習で実現できること」を実際に体験できる．そして「機械学習」をあまり意識せずに読むことができるので（特に前半），例えば「子供と一緒…

#Scratch #機械学習

2021-06-14

「単純パーセプトロン」を使った分類（フルーツのグループ分け）を体験できる Scratch プロジェクト

Scratch 機械学習

最近「Scratch ではじめる機械学習」を読んでいる．Scratch を使って「機械学習」を体験することができて，非常に楽しめている．書評記事はまた別に書く予定！本書の中で「第4章 : 機械学習について学ぼう」を読んでいたら「単純パーセプトロン」を使った分…

#Scratch #機械学習

2021-06-01

NumPy / Pandas / Matplotlib / scikit-learn などの理解度確認ができる「Python 3 エンジニア認定データ分析試験」に合格した

資格 Python 機械学習

先週末に「Python 3 エンジニア認定データ分析試験」を受験して合格したとても良い試験で，特に試験勉強をする過程で知識の幅が広がった．試験の認知度向上のためにも紹介したいと思う．当然ながら試験問題に関しては何も書かず，基本的に公開情報をベースに…

#資格 #Python

2021-05-24

Pandas で時系列データをグループ化して集計できる「Grouper」

Pandas 機械学習 Python

Pandas で groupby() 関数を使うと，データセットをグループ化して集計できる．さらに Grouper オブジェクトと組み合わせると，より高機能なグループ化を実現できる．今回は groupby() 関数と Grouper オブジェクトを組み合わせて「時系列データの集計」を試…

#Pandas #機械学習 #Python

2021-05-10

Pandas の機能を実践的に学ぶならこの1冊！「Pandas ライブラリ活用入門」を読んだ

Pandas 機械学習 Python 本

個人的に Pandas を使ってデータ分析をする機会が増えてきて，今までの浅い経験ではうまく使いこなせず，Pandas を中心に細かく学び直している．最近 Pandas 関連の記事を多く書いていることにも関連しているし，少し前には Pandas を学べる「Kaggle Courses…

#Pandas #機械学習 #Python

2021-05-07

scikit-learn でカテゴリ変数を変換する : OneHotEncoder と LabelEncoder

scikit-learn 機械学習 Python

前回の記事では Pandas の get_dummies() 関数を使って「カテゴリ変数」の変換（One-Hot エンコーディング）を試した． kakakakakku.hatenablog.com Pandas 以外の選択肢として scikit-learn の sklearn.preprocessing モジュールを使うこともできる．今回は…

#scikit-learn #機械学習 #Python

2021-05-06

Pandas の get_dummies() 関数でカテゴリ変数をダミー変数に変換する

Pandas 機械学習 Python

Pandas で get_dummies() 関数を使うと「カテゴリ変数」を「ダミー変数」に変換できる．「カテゴリ変数」とは，例えば「血液型」や「職業」など，限られた選択肢の中から選んだ値で，ENUM 型のようなイメージをするとわかりやすい分析業務を前提に考えると A…

#Pandas #機械学習 #Python

2021-04-26

Pandas で相関件数を計算して Seaborn で可視化する

Pandas 機械学習 Python

Pandas で corr() 関数を使うと DataFrame と Series で「相関係数 (correlation coefficient)」を計算できる．今回は DataFrame の corr() 関数と Seaborn を使った可視化を試す． pandas.DataFrame.corr — pandas 1.2.4 documentation pandas.Series.corr …

#Pandas #機械学習 #Python

2021-04-20

Pandas で NaN を操作する : fillna() と interpolate()

Pandas 機械学習 Python

先週紹介した学習コンテンツ「Kaggle Courses : Pandas」で「欠損値 (Missing data) : NaN」の取り扱いを学んだけど，その後「Pandas ライブラリ活用入門」を読んでいたら「置換 : fillna() 関数」に多くのパラメータがあり，他にも「補間 : interoperete() …

#Pandas #機械学習 #Python

2021-04-19

Jupyter Notebook と Pandas で DataFrame を全て表示するオプション設定

Pandas Python 機械学習

Jupyter Notebook で Pandas のコードを実装しているときに同じような表示関連設定を繰り返し使うため，メモも兼ねてまとめておく．オプションは他にも多くあり，詳細はドキュメントに載っている．今回は Python 3.9 と Pandas 1.2.4 を前提とする． pandas.…

#Pandas #Python #機械学習