MENU
  • ホーム
  • Contact Us
Hayashi's discovery-oriented learning | 地域研究と分析の林
地域研究と分析の林
  • ホーム
  • Contact Us
地域研究と分析の林
  • ホーム
  • Contact Us
Youtubeチャンネルはこちら(鉄道趣味メイン)
  1. ホーム
  2. データ前処理と即席可視化
  3. ダミーのデータセットを作成する方法

ダミーのデータセットを作成する方法

データ可視化手法の検討時に観測データで直接試す前にやっておきたい。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 乱数を生成するためのシードを設定
np.random.seed(0)

# それぞれの群のサンプルサイズ
n = 50

# 中央値が異なる2群の乱数データを生成
group1 = np.random.normal(loc=0, scale=1, size=n)
group2 = np.random.normal(loc=2, scale=1, size=n)
numpy.ndarrayではなくpd.DataFrameの状態で変数に格納したい場合
# ndarrayからDataFrameへ(ただし縦持ちのデータ)
df = pd.DataFrame({
    'Group': ['Group 1'] * n + ['Group 2'] * n,
    'Values': np.concatenate([group1, group2])
})

# さらにそれを横持ちのデータにしたい場合
df['Index'] = df.groupby('Group').cumcount() # インデックスを設定
df_wide = df.pivot(index='Index', columns='Group', values='Values') # 変換
df_wide.reset_index(drop=True, inplace=True) # マルチインデックスの解除
新着記事
  • 鳳派出所の風景(後編)
  • 鳳派出所の風景(中編)
  • 鳳派出所の風景(前編)
おすすめ

Youtubeチャンネル
https://www.youtube.com/watch?v=w2q30VHcXj4
  • ホーム
  • Contact Us

© 地域研究と分析の林.