分布式文件系统 分布式文件系统是如何实现较高Secondary水平扩展的

时间:2024-09-20 12:11:28 来源:风铃百科 作者:管理员

HDFS分布式文件系统具有哪些优点

HDFS分布式文件系统具有以下优点:

1.支持超大文件。HDFS分布式文件系统具有很大的数据集,可以存储TB或PB级别的超大数据文件,能够提供比较高的数据传输带宽与数据访问吞吐量,相应的,HDFS开放了一些POSIX的必须接口,容许流式访问文件系统的数据。

2.高容错性能。HDFS面向的是成百上千的服务器集群,每台服务器上存储着文件系统的部分数据,在集群的环境中,硬件故障是常见的问题,这就意味着总是有一部分硬件因各种原因而无法工作,因此,错误检测和快速、自动的恢复是HDFS最核心的架构目标,因此,HDFS具有高度的容错性。

3.高数据吞吐量。HDFS采用的是“一次性写,多次读”这种简单的数据一致性模型,在HDFS中,一个文件一旦经过创建、写入、关闭后,一般就不需要修改了,这样简单的一致性模型,有利于提高吞吐量。

4.流式数据访问。HDFS的数据处理规模比较大,应用一次需要访问大量的数据,同时这些应用一般都是批量处理,而不是用户交互式处理,应用程序能以流的形式访问数据集。

分布式文件存储和分布式对象存储区别

二者之间具体的差异表现为:

1、支持的存储访问协议不同

分布式对象采用更加专用的协议(比如HTTP)或者API接口(例如S3或是Swift)进行访问,相比通用的NAS文件协议,需要前端应用做针对性的适配和接口定制开发。

2、支持的数据读写模式不同

与文件系统不同,分布式对象不支持数据的随机读取和写入,仅可针对整个文件做put或是get操作,这种模式基本把分布式对象限定在有限的数据写入后,有限的读取、极少修改的应用场景,例如互联网的云盘、备份归档以及法规遵从等温冷数据应用场景。

3、数据结构不同

文件采用树形目录结构,可以满足应用多级目录嵌套使用模式,但是随着嵌套层次和文件数量的增加,读取和存储数据时需要更长访问路径,当访问的文件过小时,单个文件访问性能受影响较大。

如何搭建分布式服务器

目前最流行的开源分布式文件系统就是Ceph和GlusterFS。文件存储这一块,GlusterFS比CephFS稳定(Ceph更擅长于块存储和对象存储)。从安装部署角度来看,GlusterFS比Ceph简单。最后,GlusterFS上面可以对接Samba,也可以对接NFSGanesha等,都很容易。

分布式数据库和传统数据库的区别

分布式文件系统(dfs)和分布式数据库都支持存入,取出和删除。但是分布式文件系统比较暴力,可以当做key/value的存取。

分布式数据库涉及精炼的数据,传统的分布式关系型数据库会定义数据元组schema,存入取出删除的粒度较小。

分布式文件系统现在比较出名的有GFS(未开源),HDFS(Hadoopdistributedfilesystem)。分布式数据库现在出名的有Hbase,oceanbase。其中Hbase是基于HDFS,而oceanbase是自己内部实现的分布式文件系统,在此也可以说分布式数据库以分布式文件系统做基础存储。

分布式文件系统是如何实现较高Secondary水平扩展的

分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群,形成无限扩展的能力。这些节点分为两类,一类叫“主节点”(MasterNode)或者也被称为“名称结点”(NameNode),另一类叫“从节点”(SlaveNode)或者也被称为“数据节点”(DataNode)。