Pandas で指数表記を無効化する

Python Pandas 機械学習

Jupyter Notebook で Pandas のコードを実装しているときに「指数表記を無効化」する場合は pd.options の display.float_format を設定する．以下にサンプルとして「桁数 2」と「桁数 6」の例を載せておく． # 小数点以下桁数 2 pd.options.display.float_…

2022-03-22

Pandas で NDJSON (.jsonl) を読み込む

Pandas 機械学習 Python

Pandas で NDJSON (Newline Delimited JSON) を読み込む場合 read_json() 関数に lines=True パラメータを設定すれば OK！ pandas.pydata.org NDJSON サンプル dataset.jsonl { "id": 1, "name": "Alice" } { "id": 2, "name": "Bob" } { "id": 3, "name": "…

2021-05-24

Pandas で時系列データをグループ化して集計できる「Grouper」

Pandas 機械学習 Python

Pandas で groupby() 関数を使うと，データセットをグループ化して集計できる．さらに Grouper オブジェクトと組み合わせると，より高機能なグループ化を実現できる．今回は groupby() 関数と Grouper オブジェクトを組み合わせて「時系列データの集計」を試…

#Pandas #機械学習 #Python

2021-05-10

Pandas の機能を実践的に学ぶならこの1冊！「Pandas ライブラリ活用入門」を読んだ

Pandas 機械学習 Python 本

個人的に Pandas を使ってデータ分析をする機会が増えてきて，今までの浅い経験ではうまく使いこなせず，Pandas を中心に細かく学び直している．最近 Pandas 関連の記事を多く書いていることにも関連しているし，少し前には Pandas を学べる「Kaggle Courses…

#Pandas #機械学習 #Python

2021-05-06

Pandas の get_dummies() 関数でカテゴリ変数をダミー変数に変換する

Pandas 機械学習 Python

Pandas で get_dummies() 関数を使うと「カテゴリ変数」を「ダミー変数」に変換できる．「カテゴリ変数」とは，例えば「血液型」や「職業」など，限られた選択肢の中から選んだ値で，ENUM 型のようなイメージをするとわかりやすい分析業務を前提に考えると A…

#Pandas #機械学習 #Python

2021-04-26

Pandas で相関件数を計算して Seaborn で可視化する

Pandas 機械学習 Python

Pandas で corr() 関数を使うと DataFrame と Series で「相関係数 (correlation coefficient)」を計算できる．今回は DataFrame の corr() 関数と Seaborn を使った可視化を試す． pandas.DataFrame.corr — pandas 1.2.4 documentation pandas.Series.corr …

#Pandas #機械学習 #Python

2021-04-20

Pandas で NaN を操作する : fillna() と interpolate()

Pandas 機械学習 Python

先週紹介した学習コンテンツ「Kaggle Courses : Pandas」で「欠損値 (Missing data) : NaN」の取り扱いを学んだけど，その後「Pandas ライブラリ活用入門」を読んでいたら「置換 : fillna() 関数」に多くのパラメータがあり，他にも「補間 : interoperete() …

#Pandas #機械学習 #Python

2021-04-19

Jupyter Notebook と Pandas で DataFrame を全て表示するオプション設定

Pandas Python 機械学習

Jupyter Notebook で Pandas のコードを実装しているときに同じような表示関連設定を繰り返し使うため，メモも兼ねてまとめておく．オプションは他にも多くあり，詳細はドキュメントに載っている．今回は Python 3.9 と Pandas 1.2.4 を前提とする． pandas.…

#Pandas #Python #機械学習