おはようございます!
ゆきちゃんママです。
ちょこちょこ統計の勉強について書いていますが、今回はこれまで整理してきた分析の「考え方」を、実際に手を動かしてやってみることにしました!
[:contents]
統計の勉強って、どんな段階があるの?
統計を学ぶとき、ざっくり分けてこんな段階があると思います:
-
分析の意味や背景を理解する「考え方」
-
データを整理して分析できる形にする「準備」
-
ツールを使って実際に分析する「実行」
-
結果を読み解いて理解する「解釈」
それぞれの視点からじっくり向き合うことって、本当に大事だなあと日々感じています。
Rだけじゃない!? Google Colabで分析できるってホント?
私は普段、RStudioを使って分析していますが、最近「Google Colab(グーグル・コラボ)でもRが使えるらしい!」という話を聞きました。
しかも、RだけじゃなくPythonにも対応していて、データ整理から分析まで、全部このツール上で完結できるとのこと。
これは試してみるしかない…!
というわけで今回は、Google ColabでRを使って分析してみた手順を、実際の研究データを使いながら記録していきたいと思います。
まずはGoogle Colabを開こう!
出てきた画面で「New Notebook」をクリックすると、新しいノートブックが開きます。
Colabの基本の使い方
上にある「+コード」や「+テキスト」で、それぞれコードとメモを書き込むことができます。
私はあとで何をしたか忘れてしまうタイプなので、テキストにはしっかり解説を書く派です(笑)
コードがわからなくても大丈夫!AIにお願いしよう
Colabでは、GoogleのAI「Gemini」が使えます(最近のアップデートで生成AIが統合されたようです)。
上部の枠にある「生成」をクリックすると、入力した内容に応じて必要なコードを自動で書いてくれるんです!
たとえば、こう入力してみました:
Google DriveからRO_CIT_data.xlsxのamplitude_first_expシートを読み込んでください。
すると、ちゃんとコードが出てきました!
生成されたコード(Python版)
import pandas as pd
from google.colab import drive
# Google Driveをマウント
drive.mount('/content/drive')
# Excelファイルのパス
file_path = '/content/drive/MyDrive/RO_CIT_data.xlsx'
# 'amplitude_first_exp' シートを読み込む
try:
df = pd.read_excel(file_path, sheet_name='amplitude_first_exp')
print("Successfully loaded 'amplitude_first_exp':")
print(df.head()) # 最初の5行を表示
except FileNotFoundError:
print(f"Error: File not found at {file_path}")
except Exception as e:
print(f"An error occurred: {e}")
ちゃんと読み込めたか確認もしてくれる、ありがたいコードです。
エラーが出ても安心!
もしうまくいかなくても、一番下の「エラーの説明(青い文字)」をクリックすれば、AIがどこが悪いかを教えてくれます。
私は英語が得意じゃないので「日本語で教えて」とお願いして、和訳してもらってます(笑)
いよいよRを使う準備!
Colabの初期設定では、ランタイムがPythonになっています。
Rを使うには、ランタイムのタイプをRに変更する必要があります。
私は今回、Googleドライブからファイルを読み込むところまではPythonで行ったので、そこまでは初期設定のままで大丈夫でした。
でも、最初からRで処理を進めたい場合は、事前にランタイムをRに変更しておく必要があります。
その設定方法は、次の通りです!
1. 画面上部の ▼マークをクリック
2. 「ランタイムのタイプを変更」を選ぶ
3.「Python 3」となっているところを「R」に変更!
これで準備完了!いよいよ本番です。
T検定もAIにお願いしてみた!
今回は、df に格納された「Relevant」と「Irrelevant」の列を使って、対応のあるt検定をしたかったので、こんなふうにお願いしました:
dfという変数に格納されているデータのRelevantとIrrelevantについて、対応のあるt検定をしてください。
すると、出てきたコードがこちら👇
生成されたコード(R版)
# 対応のあるt検定を実行
t_test_result <- t.test(df$Relevant, df$Irrelevant, paired = TRUE)
# 結果を表示
t_test_result
これで、無事に自分のデータを使ってt検定ができました!
おわりに
コードが苦手でも、AIの力を借りればここまでできちゃう時代なんですね。
ただ、AIが書いたコードが必ず正しいとは限らないので、ときどき詳しい人に聞いたり、少しずつ自分でも勉強していくことも大事だなと思いました。
今回は分析の第一歩として、ColabでのR分析体験を記録してみました。
次回は結果の読み解きもやっていきたいです!