教員コラム 経済学専攻
データ分析を始める前の下ごしらえ(経済学 吉根 勝美 准教授)
2023年12月19日
各府省が実施している公的な統計調査をはじめとして、さまざまな統計データがインターネットで公開されるようになり、エクセルさえ使えれば、コンピュータの専門家にお任せすることなく、自分でデータ分析ができる時代になりました。
しかし、実際の分析の前に、データの下ごしらえが必要なことがよくあります。例えば、見た目を整えるためだけの空白行は、分析前に削除しなければなりません。2020年には、総務省が「統計表における機械判読可能なデータの表記方法の統一ルールの策定」を発表し、初めからコンピュータ処理しやすいデータが公開されるようになりつつあります。
下ごしらえというより、大がかりなデータ変換が必要なこともあります。総務省統計局「社会生活統計指標-都道府県の指標-2023」掲載の統計表から、小学校と中学校の都道府県別女性教員割合の分布状況を可視化する下のような箱ひげ図をエクセルで作成するには、一番右の表のようなデータ形式にしなければなりません。しかし、ネットから入手した統計表は一番左の表のような横持ちデータ(47行×6列)の形式になっています。そこで、いったん中央の表のような縦持ちデータ(47×6=282行)の形式に変換することにしました。見た目のわかりやすさは犠牲になりますが、この後のデータ変換・抽出や分析がしやすいという点では有利なデータの持ち方です。なお、今回のデータ変換には、最近のエクセルに搭載されているパワークエリの機能を利用しました。
誰もが自分でデータ分析する時代には、自分が持っているデータも自分で管理しなければなりません。この際、データの表記方法の統一ルールやデータの持ち方にも配慮するといいかもしれません。