Python の Pandas の勉強をする時、書籍などについているサンプルデータを使うことが多いのですが、自分にとって身近なデータを使う方が楽しいだろうな、とよく思う。
自分のブログのアクセスデータだったら、思い入れもあるから数字の 1 つに 1 つにいろいろ感じることがあるんじゃないかと思い、Google Analytics のデータを使うことにしました。
Google Analytics のデータは API を使ってみることにしました。
API を使ってみたかったのもあるので一石二鳥です。
参考にしたもの
参考にしたのは Google アナリティクス公式です。
「はじめてのアナリティクス Reporting API v4: サービス アカウント向け Python クイックスタート」
v4 ってあるから GA4 対応と思っていたけど関係ないらしい、、、ややこしい。。
ちょうどこの Python クイックスタートを使った記事もありました。
こちらも参考にさせていただきました。
Google アナリティクス API の種類
Google アナリティクスの API はいろんな種類があるようです。
調べたら API がいろいろあって迷いました。
学習ページに全体像の図がありました。
Repoting API は Reporting の Core Repoting API のようです。
必要な手順
- Reporting API の有効化
- 認証情報
- サービスアカウント
- json (client_secrets.json)
- Google Analytics4 のビューにユーザー追加
- pip でインストール(pip install --upgrade google-api-python-client)
サンプルコード
クイックスタートにある以下のサンプルコードを実行します。
from apiclient.discovery import build from oauth2client.service_account import ServiceAccountCredentials SCOPES = ['https://www.googleapis.com/auth/analytics.readonly'] KEY_FILE_LOCATION = 'client_secrets.json' VIEW_ID = 'アナリティクス設定画面のビューIDを入れる' def initialize_analyticsreporting(): credentials = ServiceAccountCredentials.from_json_keyfile_name( KEY_FILE_LOCATION, SCOPES) analytics = build('analyticsreporting', 'v4', credentials=credentials) return analytics def get_report(analytics): return analytics.reports().batchGet( body={ 'reportRequests': [ { 'viewId': VIEW_ID, 'dateRanges': [{'startDate': '7daysAgo', 'endDate': 'today'}], 'metrics': [{'expression': 'ga:sessions'}], 'dimensions': [{'name': 'ga:country'}] }] } ).execute() def print_response(response): for report in response.get('reports', []): columnHeader = report.get('columnHeader', {}) dimensionHeaders = columnHeader.get('dimensions', []) metricHeaders = columnHeader.get( 'metricHeader', {}).get('metricHeaderEntries', []) for row in report.get('data', {}).get('rows', []): dimensions = row.get('dimensions', []) dateRangeValues = row.get('metrics', []) for header, dimension in zip(dimensionHeaders, dimensions): print(header + ': ' + dimension) for i, values in enumerate(dateRangeValues): print('Date range: ' + str(i)) for metricHeader, value in zip(metricHeaders, values.get('values')): print(metricHeader.get('name') + ': ' + value) def main(): analytics = initialize_analyticsreporting() response = get_report(analytics) print_response(response) if __name__ == '__main__': main()
これを実行すると、以下のようになります。
ga:country: Japan Date range: 0 ga:sessions: 9
1週間のセッション合計とアクセスがきた国がわかります。
セッション数が少ないので、まだ分析できそうにありません。。。