Column

コラム

  • 【API・データ検証奮闘記】#14.Wikipedia AP...

【API・データ検証奮闘記】#14.Wikipedia APIでPV数取得してみた

本コラムでは、APIやデータに関連する言語などを無邪気に触ってみた備忘録として、ライトに記載していきます!(連載記事はこちら
「ちょっと違くない」「他にいい方法あるのに」といったご意見もあるかと思いますが、何卒お手柔らかに!!

<プロフィール>
富松 良介
2017年、サイバー・コミュニケーションズ(現:CARTA COMMUNICATIONS、略称「CCI」)入社。Oracle Bluekai・Treasure Data等のDMPや、AWS・GCP等のPublicCloud領域を担務。2019年6月よりデータの利活用を推進するコンサルティング会社「株式会社DataCurrent」に出向し、事業会社の基盤構築・運用や自社ソリューション開発を担当。

●Wikipedia APIでPV数取得してみた

ボス
ボス
Wikipediaの特定のページのPV数を日別で欲しい。
モブ
モブ
かしこまり!!

WikipediaのPV数データ取得の手順から取得した結果までをご紹介致します。

ステップ1. どうやって取得できるか調査してみた

モブ1
モブ1
API!!
モブ2
モブ2
手動!!
モブ3
モブ3
スクレイピング!!
モブ
モブ
APIで取得することにしよう!!
ボス
ボス
それでやってくれ。

●ステップ2. データ取得してみた

早速Pythonでデータを取得してみる。

import requests
import json
import pandas as pd

page = '鬼滅の刃'
headers = {'User-Agent': 'Sample Header'}
url = f'https://wikimedia.org/api/rest_v1/metrics/pageviews/per-article/ja.wikipedia/all-access/user/{page}/daily/2015070100/2022062700'

res = requests.get(url, headers=headers).content
content = json.loads(res.decode('utf-8'))
wikiList = []
for r in content['items']:
  wikiList.append([
                   r['article'],
                   r['timestamp'][0:8],
                   r['views']
                   ])
df = pd.DataFrame(wikiList,columns=['page','date','pv'])

ステップ3. 取得結果

取得結果
意識高いモブ
意識高いモブ
ちなみに、WikipediaのPVデータは年毎・月毎でも取得できるよ!

最後に

弊社では、定点的なリサーチやトレンドの分析をおこなっています。性別や年代等の属性や検索トレンドのダッシュボード提供等様々なパッケージをご用意しておりますので、お気軽にお問い合わせください。

》顧客分析サービスの詳細はこちら

》トレンドモニタリングサービスの詳細はこちら

本データに関するお問い合わせは下記にて承ります。
株式会社DataCurrent
info@datacurrent.co.jp

人気のコラムランキング

PICK UP

企業のDX推進に向けた人材教育支援について

GA4marketingPICK UP コラム内製化

【データプライバシーコラム】電気通信事業法改正の解説(2022年7月時点)

CMPPICK UP コラムデータプライバシーデータプライバシーコラム個人情報保護

CMP導入時の注意点

CMPPICK UP コラムデータプライバシーデータプライバシーコラム個人情報保護

Treasure Data CDPを活用したOneID(統合ID)構築4 日付の落とし穴

CDPCDP活用ID統合PICK UP コラム

TOPへ
戻る