分布式文件系统分布式文件系统是如何实现较高Secondary水平扩展的

时间:2024-09-20 12:11:28 来源:风铃百科 作者:管理员

HDFS分布式文件系统具有哪些优点

HDFS分布式文件系统具有以下优点:

1.支持超大文件。HDFS分布式文件系统具有很大的数据集，可以存储TB或PB级别的超大数据文件，能够提供比较高的数据传输带宽与数据访问吞吐量，相应的，HDFS开放了一些POSIX的必须接口，容许流式访问文件系统的数据。

2.高容错性能。HDFS面向的是成百上千的服务器集群，每台服务器上存储着文件系统的部分数据，在集群的环境中，硬件故障是常见的问题，这就意味着总是有一部分硬件因各种原因而无法工作，因此，错误检测和快速、自动的恢复是HDFS最核心的架构目标，因此，HDFS具有高度的容错性。

3.高数据吞吐量。HDFS采用的是“一次性写，多次读”这种简单的数据一致性模型，在HDFS中，一个文件一旦经过创建、写入、关闭后，一般就不需要修改了，这样简单的一致性模型，有利于提高吞吐量。

4.流式数据访问。HDFS的数据处理规模比较大，应用一次需要访问大量的数据，同时这些应用一般都是批量处理，而不是用户交互式处理，应用程序能以流的形式访问数据集。

分布式文件存储和分布式对象存储区别

二者之间具体的差异表现为：

1、支持的存储访问协议不同

分布式对象采用更加专用的协议（比如HTTP）或者API接口（例如S3或是Swift）进行访问，相比通用的NAS文件协议，需要前端应用做针对性的适配和接口定制开发。

2、支持的数据读写模式不同

与文件系统不同，分布式对象不支持数据的随机读取和写入，仅可针对整个文件做put或是get操作，这种模式基本把分布式对象限定在有限的数据写入后，有限的读取、极少修改的应用场景，例如互联网的云盘、备份归档以及法规遵从等温冷数据应用场景。

3、数据结构不同

文件采用树形目录结构，可以满足应用多级目录嵌套使用模式，但是随着嵌套层次和文件数量的增加，读取和存储数据时需要更长访问路径，当访问的文件过小时，单个文件访问性能受影响较大。

如何搭建分布式服务器

目前最流行的开源分布式文件系统就是Ceph和GlusterFS。文件存储这一块，GlusterFS比CephFS稳定（Ceph更擅长于块存储和对象存储）。从安装部署角度来看，GlusterFS比Ceph简单。最后，GlusterFS上面可以对接Samba，也可以对接NFSGanesha等，都很容易。

分布式数据库和传统数据库的区别

分布式文件系统（dfs）和分布式数据库都支持存入，取出和删除。但是分布式文件系统比较暴力，可以当做key/value的存取。

分布式数据库涉及精炼的数据，传统的分布式关系型数据库会定义数据元组schema，存入取出删除的粒度较小。

分布式文件系统现在比较出名的有GFS（未开源），HDFS（Hadoopdistributedfilesystem）。分布式数据库现在出名的有Hbase，oceanbase。其中Hbase是基于HDFS，而oceanbase是自己内部实现的分布式文件系统，在此也可以说分布式数据库以分布式文件系统做基础存储。

分布式文件系统是如何实现较高Secondary水平扩展的

分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群，形成无限扩展的能力。这些节点分为两类，一类叫“主节点”(MasterNode)或者也被称为“名称结点”(NameNode)，另一类叫“从节点”（SlaveNode）或者也被称为“数据节点”(DataNode)。

上一篇：分封制？什么是分封制，它有什么特点
下一篇：分度值是什么意思，物理当中，分度值是什么意思

TAG标签：分布式文件系统

原文链接：http://www.fenglin360.com/baike/392340.html

热门排行：沈阳铁西体育馆，沈阳铁西...

同级分类

实用工具

在线起名在线测名大师起名