PigData

リサーチ会社必見、研究に必要な数十万件のデータ1年分を3日で取得

2020年06月08日(月)

リサーチ会社は多種多様なデータを取り扱っています。そのデータは研究論文の執筆やより精度の高い分析など様々な場面で用いられ、時には過去1年分、10年分、といった大容量のデータを必要とします。
今回は、数十万件もの航空データの過去データを必要としていたリサーチ会社のPigDataスクレイピング事例をご紹介します。

 

隠れているデータもスクレイピングで取得

今回取得した航空データは、Webサイト上では実際の出発時間「06:28」と表示されているものも、実は裏では秒数まで表示されるコードで書かれていました。なので、スクレイピングで取得したデータは「06:28:51」のように、より詳細なものを取得できました。

 

大容量データをデータ整形

どんなにたくさんのデータがあっても、分析できるかたちになっていなければ研究に用いることができません。ひとつひとつのデータを細かい列にわけ、全ての単位を統一することで分析することが可能となります。
今回は実際の到着時刻が備考に明記されていたのを数字だけ抜き出し、ひとつの列として表示しました。

 

人手でやると1カ月以上、スクレイピングなら3日

1年分で数十万件ものデータとなる場合があります。
1ページにまとまっているならまだしも、何度も条件を変えて、たくさんのページをみなければならない場合、人手でやろうと思うと果てしない時間がかかります。このような「何ページもにわたる」「大容量のWebデータ」を取得するのにスクレイピングは最適です。
今回も、「いつもなら1カ月以上かかるが、3日で正確なデータが大量に手に入って助かった」とのお声を頂きました。

資料ダウンロード
問い合わせ
無料ツールを使う

リリース一覧へ マーケティングインサイト一覧へ