TOP
コラム
【API・データ検証奮闘記】＃１３．Wikipedia AP...

2022.05.24 コラム

【API・データ検証奮闘記】＃１３．Wikipedia APIやってみた

本コラムでは、APIやデータに関連する言語などを無邪気に触ってみた備忘録として、ライトに記載していきます！（連載記事はこちら）
「ちょっと違くない」「他にいい方法あるのに」といったご意見もあるかと思いますが、何卒お手柔らかに！！

＜プロフィール＞
富松良介
2017年、株式会社サイバー・コミュニケーションズ（CCI）入社。Oracle Bluekai・Treasure Data等のDMPや、AWS・GCP等のPublicCloud領域を担務。2019年6月よりデータの利活用を推進するコンサルティング会社「株式会社DataCurrent」に出向し、事業会社の基盤構築・運用や自社ソリューション開発を担当。

●Wikipedia APIデータ取得やってみた

ボス

Wikipediaで作品調べたときに右上に出てくる概要表のデータが欲しい。

モブ

かしこまり！！

Wikipwdiaの概要表データ取得の手順から取得した結果までをご紹介致します。

対象	Wikipedia概要表データ APIリファレンス:　https://m.mediawiki.org/wiki/API:REST_API/ja 概要表仕様:　https://ja.wikipedia.org/wiki/Help:Infobox

●ステップ１.　どうやって取得できるか調査してみた

モブ1

API！！

モブ2

手動！！

モブ3

スクレイピング！！

モブ

APIで取得することにしよう！！

ボス

それでやってくれ。

●ステップ２.　データ取得してみた

早速Pythonでデータを取得してみる。

import requests
import bs4
import pandas as pd
import re

page = '鬼滅の刃'
headers = {'User-Agent': 'Sample Header'}
url = f'https://ja.wikipedia.org/w/rest.php/v1/page/{page}/html'

res = requests.get(url, headers=headers).text
soup = bs4.BeautifulSoup(res, 'html.parser')
table = soup.findAll("table", {"class":"infobox bordered"})

df = pd.read_html(str(table))
df = pd.concat(df)
df = df.dropna(how='any')
integration_df = pd.DataFrame(df.values.tolist(), columns = ['key','value'])
integration_df.drop_duplicates(subset=['key','value'],inplace=True, keep=False)

●ステップ3.　取得結果

意識高いモブ

ちなみに、Wikipediaのデータはファイルでも提供されているよ！

●最後に

弊社では、定点的なリサーチやトレンドの分析をおこなっています。性別や年代等の属性や検索トレンドのダッシュボード提供等様々なパッケージをご用意しておりますので、お気軽にお問い合わせください。

》顧客分析サービスの詳細はこちら

》トレンドモニタリングサービスの詳細はこちら

本データに関するお問い合わせは下記にて承ります。
株式会社DataCurrent
info@datacurrent.co.jp

PICK UP

2024.04.19

企業のDX推進におけるダッシュボード内製化について

DX marketing PICK UP コラムダッシュボード内製化

2024.03.15

企業のDX推進に向けた人材教育支援について

GA4 marketing PICK UP コラム内製化

2022.07.25

【データプライバシーコラム】電気通信事業法改正の解説（2022年7月時点）

CMP PICK UP コラムデータプライバシーデータプライバシーコラム個人情報保護

2022.06.24

CMP導入時の注意点

CMP PICK UP コラムデータプライバシーデータプライバシーコラム個人情報保護

Column

コラム

【API・データ検証奮闘記】＃１３．Wikipedia APIやってみた

●Wikipedia APIデータ取得やってみた

●ステップ１.　どうやって取得できるか調査してみた

●ステップ２.　データ取得してみた

●ステップ3.　取得結果

●最後に

人気のコラムランキング

PICK UP

Column

コラム

【API・データ検証奮闘記】＃１３．Wikipedia APIやってみた

●Wikipedia APIデータ取得やってみた

●ステップ１. どうやって取得できるか調査してみた

●ステップ２. データ取得してみた

●ステップ3. 取得結果

●最後に

人気のコラムランキング

PICK UP

●ステップ１.　どうやって取得できるか調査してみた

●ステップ２.　データ取得してみた

●ステップ3.　取得結果