研究成果の再現・再利用を容易にするデータ解析機能

藤原 一毅

オープンサイエンス基盤研究センター

特任准教授

研究分野

オープンサイエンス

クラウドコンピューティング

学術情報基盤

研究背景・目的

 「××大学の○○先生が最近発表したデータ分析手法を自社サービスの開発に使いたい」「論文のアルゴリズムを自社データに適用したい」。開発者がそう思っても、すぐに可能とは限りません。論文の結果がなぜか再現できない、パッケージの依存関係が壊れていて実行できない、ソースコードが見つからないなどの問題がよくあります。ソフトウェア開発のプロでない研究者にとって、論文発表と同時にプログラムを再利用可能な形で配布することは、ハードルの高い作業なのです。NII Research Data Cloud (NII RDC) の一部として私が開発しているデータ解析機能は、研究者がプログラムを再利用可能な形で公開することを促進します。これにより研究成果を誰もが確実に再現でき、派生研究や応用製品の開発を気軽にスタートできる世界をめざします。

研究内容

 NIIが全国の研究者に提供するデータ管理基盤GakuNin RDMを拡張する形で、①実行環境構築機能、②計算機持ち込み機能、③計算再現パッケージ機能、を開発しています。①は、プログラム実行に必要なミドルウェアやパッケージを指定すると、それらがインストールされた実行環境(コンテナ)がNIIのクラウド上に自動構築される機能です。JupyterLabとRStudioを標準の実行環境としてサポートしています。②は、①の構築先としてNII以外の計算機を選択できる機能です。これにより、研究機関が提供するスーパーコンピュータなどをGakuNin RDMからシームレスに利用できます。③は、GakuNin RDMで管理されているデータ・プログラム・実行環境定義をまとめて「計算再現パッケージ」としてリポジトリに公開する機能です。これを入手すれば、誰でもそのプログラムが動く実行環境を再構築し、研究成果を再現できます。

図1 GakuNin RDMと連携するデータ解析機能
図2 研究の再現性を支える3つの機能

産業応用の可能性

 研究者が計算再現パッケージを公開する習慣が多分野に広まれば、産業界においても多様な研究成果を容易に再利用できるようになります。クラウドサービス(PaaS)を提供する企業は、自社のインフラを2計算機持ち込み機能に対応させることで、GakuNin RDMからシームレスに利用可能な計算資源を全国の研究者に提供できます。高度なデータ分析ソフトウェアやSaaSを提供する企業は、自社のソフトウェアを1実行環境構築機能で指定可能にすることで、その計算再現パッケージを再利用する研究者にもリーチできます。

冊子版バックナンバー

PDFダウンロード