Hadoop分散ファイルシステム
HDFS
HDFSとは、Apache Hadoopの中核をなす分散ファイルシステムで、安価なサーバーを多数並べて、ペタバイト級の大規模データを信頼性高く保存する仕組み。
最終更新: 2026/1/28
アーキテクチャ
- NameNode (マスター): ディレクトリ構造や、どのデータがどこにあるかを管理する司令塔。
- DataNode (スレーブ): 実際にデータを保存する作業員。
思想
「計算をデータの場所に移動させる」という思想で作られています。 巨大なデータを移動させるのは大変です。だから、データがあるDataNodeの上で計算プログラム(MapReduce)を動かすことで、ネットワーク通信を減らして高速化しました。
現在の立ち位置
Hadoop自体は素晴らしい技術でしたが、運用が大変でした。現在は、クラウド上のオブジェクトストレージ(S3など)に関数が取って代わられつつありますが、HDFSの考え方は多くの分散システムに継承されています。
由来・語源
(記述募集中)
使用例
(記述募集中)
関連用語
- 関連: