NICT NEWS
宇宙天気予報特集
宇宙天気予報研究を支える大規模分散ストレージの構築 電磁波計測研究センター宇宙環境計測グループ 有期技術員 森川 靖大

背景

NICT電磁波計測研究センター宇宙環境計測グループでは、宇宙災害の低減や防止に向けて各種観測データを元に宇宙天気予報の実現を目指しています。その研究手法は幅広く、地上観測ネットワークによる地球電離圏擾乱や太陽活動のモニタリングから、スーパーコンピュータ(以下、スパコン)を用いた計算機シミュレーションまで、様々なアプローチで予報の実現に向けて研究を進めています。そのような研究を進める上では、データを保管するためのストレージが研究のインフラとして重要な役割を果たします。観測機器の発達やスパコンの性能向上に伴ってデータの量は日々増加しており、それら膨大なデータを保管するためのストレージは今後の研究に不可欠となってくることが予想されます。そこで、宇宙環境計測グループではNICTが運用する研究開発テストベッドネットワークJGN2plusと分散ファイルシステムGfarm*1を活用した宇宙天気研究利用のための大規模ネットワーク分散ストレージの構築と試験運用を行っています。

市販機材の活用によるストレージの大容量化

宇宙天気予報のためのシミュレーション研究では、地球周囲の電離圏、磁気圏、果ては太陽風やコロナ質量放出の発生源である太陽も含め様々な対象について扱っているため、研究が進むにつれデータ量も飛躍的に増大します。近い将来、1ペタ(1015)バイトのストレージですら十分ではなくなり、機材や運用のコストを抑えつつ大容量化を実現することが必要となります。私たちは市販の機材を活用することで容量単価を抑えるためにサーバやディスクに関して何通りかの組み合わせを試し、現在は図1のようにサーバを構成することで1テラ(1012)バイト当たりおよそ10,000円程度に費用を抑えています。これらのサーバに分散ファイルシステムミドルウェアであるGfarmを導入することで、ネットワーク上に分散した複数のストレージを1つの仮想的なストレージとして機能させています。複数のサーバ上にファイル複製をとることで、サーバ個別のディスクトラブルに関わらず、ネットワーク分散ストレージ全体の継続運用が可能です。また容量を増やす場合には新しく用意したサーバにミドルウェアのインストールと設定を行うだけ済みます。従来のストレージ増強はたいていシステム全体のリプレースが必要となっていましたので、それに比べると格段に低コスト化になります。このような工夫によって大容量・安定性・拡張性を満たすストレージが実現できたと考えています。

図1●低コストストレージサーバの構成

スパコンとの連携

スパコン上で計算されたデータをこのネットワーク分散ストレージ上で効率的に研究利用できるようにするため、JGN2plusを介してネットワーク分散ストレージと全国3カ所のスパコン(NICT本部(小金井)、大阪大学サイバーメディアセンター、名古屋大学情報基盤センター)とを1~10Gbps のネットワークで接続しています(図2)。これにより、3カ所のスパコンで計算されたデータを高速にネットワーク分散ストレージ上に転送することができるようになりました。ストレージサーバも東京(小金井、大手町)、大阪、名古屋、沖縄に分散配置しており、地理的に離れた場所にいる研究者同士がこのストレージを共有するための準備も進めています。

図2●ストレージサーバの全国展開

研究者にとって使いやすいストレージサービスの提供

研究者がこのストレージを用いて速やかに研究を始められるよう、ファイルへのアクセスに際してミドルウェアを意識させない環境、すなわち研究者から見るとNFS*2やCIFS*3マウントされているのと同じ感覚で使えるような環境を整えつつあります。このネットワーク分散ストレージは2009年10月から試験運用を始め、現在に至ります。十数名以上の研究者が試験運用を前提にこのストレージ上で研究を始めつつあり、現在全体の容量がおよそ420テラバイト、そのうちの340テラバイト程度(ファイル数4千万程度)が利用されています(図3)。

図3●ネットワーク分散ストレージの総容量と使用量(物理容量換算)、および保管ファイル数の推移

今後の展望

本稿でご紹介しました大規模分散ストレージは、数百テラバイト以上の容量を持つ一方で、スパコンで生成された多種多様のデータの保管や解析から、論文に用いる画像の作成といったことまで、すなわち研究者自身が研究に必要な一通りの作業を行えることを目指した新しいシステムです。これまでに例がない試みであるため、予期しないトラブルや不具合に遭遇することも多いですが、グループ内外の研究者の方々とも協力し、正式運用を目指して試行錯誤をしながら改良を進めています。ここで紹介したストレージは、宇宙環境計測グループが中心となって構築を進めているNICTサイエンスクラウド「OneSpaceNet」のサービスの1つとして提供されています。ご興味をお持ちの方はhttps://seg-web.nict.go.jp/scuser/をご覧下さい。

用語解説

  • *1 Gfarm
    産業技術総合研究所、筑波大学の建部修見氏らがオープンソースで開発している分散ファイルシステムである。広域なネットワーク上で、どこからでも高速でアクセス可能な分散ファイルシステムを目標として開発が続けられている。(http://datafarm.apgrid.org/
  • *2 NFS( Network File System)
    Sun Microsystems社によって開発された、UNIX系OSで標準的に利用される分散ファイルシステムとそのプロトコルである。
  • *3 CIFS(Common Internet File System)
    主にMicrosoft Windowsで使用されるファイル共有のためのプロトコルSMB(Server Message Block)を、Windows以外のOSでも利用できるように拡張したプロトコルである。
井上 諭
森川 靖大(もりかわ やすひろ)
電磁波計測研究センター 宇宙環境計測グループ 有期技術員
北海道大学大学院理学研究科修了後、2009年4月にNICTに入所。宇宙天気研究用のクラウドコンピューティング環境の構築に従事。博士(理学)。
独立行政法人
情報通信研究機構
総合企画部 広報室
Copyright: National Institute of Information and Communications Technology. All Rights Reserved.
NICT ホームページ 前のページ 次のページ 前のページ 次のページ