私は現在、2つの職場でデータ解析やプログラミング関連の仕事を兼業しています。本研究所では、プログラミングを通じてデータの管理や利用を支える裏方として働いています。扱うデータの種類や規模は職場間で異なりますが、どちらも「たくさんのデータを活用する」仕事です。
近年、さまざまな分野で扱えるデータの量や種類が急速に増えています。測定機器や解析サーバーの進歩、機械学習手法の発展、SNSを含むWebデータの増加、研究データのオープン化などが背景にあります。この流れの中で、「データ駆動型」のアプローチが増えているように感じています。
「データ駆動型研究」とは、まずデータがあり、その中から規則性や傾向を見つけて新たな知見を得るアプローチです。既存データの解析を通じて仮説を立て、それを検証していくイメージです。一方で、「仮説駆動型研究」では、まず仮説を立てて、その検証のためのデータを収集します。ただし、実際の研究では両方の要素が混在する場合も多いと思います。
本研究所では主にアンケートデータを扱っているため、収集できるデータ量が急に増えるわけではありません。しかし、管理や活用の面では、やはり扱えるデータ量が増えているといえます。たとえば最近、長年蓄積された共同調査データを体系化し、リレーショナル・データベースという形式に整理しました。これにより、データの検索や抽出が容易になり、活用の幅が大きく広がっています。また、解析時間の短縮により、かつて数日かかっていた処理が数十分で完了するなど、データを起点とした仮説構築がスムーズになっています。
現在、共同調査データベースを活用して「データ駆動型研究」に取り組んでいます。多くの方々が時間と労力をかけて回答・収集してきた貴重なデータを、さらに活用し、新しい知見を生み出す一助となれればと思います。
研究員 松本 薫