2025年4月14日 星期一 乙巳(蛇)年 正月十五 设为首页 加入收藏
rss
您当前的位置:首页 > 计算机 > 云技术 > 大数据

Hadoop 分布式文件系统 HDFS

时间:12-14来源:作者:点击数:13

Hadoop 分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS 是一个高度容错性的系统,适合部署在廉价的机器上。

HDFS 能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS 放宽了一部分 POSIX 约束,来实现流式读取文件系统数据的目的。HDFS 在最开始是作为Apache Nutch 搜索引擎项目的基础架构而开发的。HDFS 是 Apache Hadoop Core 项目的一部分。

Hadoop 是 Apache 基金会下一个开源的分布式计算平台,它以分布式文件系统 HDFS 和 MapReduce 算法为核心,为用户提供了系统底层细节透明的分布式基础架构。用户可以在不了解分布式底层细节的情况下,充分利用分布式集群进行高速运算和存储。

Hadoop 是一个能够让用户轻松架构和使用的分布式计算平台。它主要有以下几个优点:  

  • 高可靠性。Hadoop 按位存储和处理数据的能力值得人们信赖。  
  • 高扩展性。Hadoop 是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。  
  • 高效性。Hadoop 能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。  
  • 高容错性。Hadoop 能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。  
  • 低成本。与一体机、商用数据仓库以及 QlikView、Yonghong Z-Suite 等数据集市相比,Hadoop 是开源的,项目的软件成本因此会大大降低。  

缺点:

  • 不适合低延迟数据访问。
  • 无法高效存储大量小文件,会占用大量的 namenode 内存。  
  • 不支持多用户写入以及任意修改文件。
方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门
本栏推荐