一、硬件故障检测
因为hdfs系统(分布式文件系统)可由数百或数千个存储文件数据片段的服务器组成,即hdfs系统包含较多的硬件设备,所以hdfs系统的硬件故障是常态,而非异常态。因此,hdfs系统的设计框架需包含故障检测和数据自动快速恢复。
hdfs系统故障检测和数据自动快速恢复功能具体过程如下:hdfs系统将数据分块,即数据块的形式存储于不同硬件设备中。通常,每个数据块在hdfs系统被存放于三个硬件设备中,即每个数据块的份数是三份。当某一硬件设备出现故障时,hdfs系统在检测到该设备故障后,可根据其他硬件设备的备份,将该硬件设备的数据再复制一遍,使hdfs系统中每个数据块的份数保持在三份。
二、数据访问
hdfs系统被设计为适合批量处理数据,具有较大的数据吞吐量。hdfs系统不适合交互式访问。交互式访问是指用户在客户端输入命令,系统可立即对用户命令做出反应。交互式访问需要系统具有较快速的反应时间,而hdfs系统处理数据的速度可能是几个小时或几天,因此,hdfs系统的速度不足以支持交互式访问。
图片来源:学堂在线《大数据导论》
三、大数据集
hdfs系统(分布式文件系统)的数据集群被设计为可包含数百个节点(个人理解:计算机或服务器均可作为hdfs系统的节点),百度最大的hdfs系统数据集群可能包含4000个节点。
hdfs系统的数据存储量可达至100tb的数量级,一些hdfs系统的数据存储量可超过该数量级。
hdfs系统被设计为可支持大文件存储。数据量越大,hdfs系统的支持量越好。相对于大文件存储,hdfs系统比较不适合存储零散的小文件,这是因为所存储的文件越小,主节点记录文件存储节点的日志文件(个人理解:存储节点的日志文件包含数据的存储位置等信息)越大,主节点的压力越大。
四、简单一致性模型
hdfs系统被设计为简单一致性模型。简单一致性模型是指多数hdfs系统的文件操作模式是一次写入多次读取,即文件一旦被创建、写入、关闭后,就不再需要修改。hdfs系统不适合对文件进行频繁的修改和删除。
五、将计算移动至数据
数据计算的最理想状态是在靠近数据的存储位置计算,如果不能实现数据计算的最理想状态,则需要通过将数据移动至计算或将计算移动至数据后再进行数据计算。
hdfs系统的数据计算方式是通过将计算移动至数据后再进行数据计算。将hdfs系统的数据存储于多个数据节点,在计算过程中,可根据数据节点所存储的数据进行相应计算,各数据节点计算结束后,再将各数据节点计算结果汇总。
hdfs系统的数据计算方式适合大数据的计算,并且可以消除网络拥堵,提高系统整体的吞吐量,数据计算的成本更低。如果将超过100tb的数据移动至计算中心,数据计算的速度将低于hdfs系统的数据计算方式,而且由于数据量大,网络需要承受较大的压力,容易造成拥堵,数据计算的成本更高。
六、异构软硬件平台间的可移植性
hdfs系统被设计为可简便地实现平台间的迁移,即不同的操作系统均可使用hdfs系统。该特点可推动大数据集应用更多采用hdfs系统。
2024年锂电行业五大投资变化及未来三大投资新机会
5位数码管显示驱动+32位按键扫描,二合一语音芯片,WT2003H-B001
【新专利介绍】无线差压变送器
安防上市企业是目前人工智能+安防最有利的推动者
屏下光学指纹已成中高端智能手机的标配
分布式文件系统的设计框架
模拟芯片行业的整体增速均高于其他行业
魅族16T曝光该机搭载骁龙855处理器拥有三种配色
酷派陷入巨额亏损、连年腰斩连手机业务也陷入泥潭,面临摘牌的风险
分享一个不错的Howland电流泵电路图
努比亚Z17mini怎么样?56秒破亿超17万销量,小屏双摄Z17mini首销卖疯了!你说好不好?
N5244A安捷伦网络分析仪无法进入测试界面维修
如何对51单片机进行ROM扩展
五大无线技术详细介绍对比
AD7416组成的恒温控制器电路图
区块链系统还面临着哪些安全问题
三星表面的高利润,其实背后隐藏着重大危机
vivo X20什么时候上市?vivoX20最新消息:vivo官方确认全面屏2.0即将到来,vivoX20海报更惊艳
华为因侵犯PanOptis专利被罚1050万美元!
力矩马达的工作原理_力矩马达结构