hadoop不支持数据的随机读写
作者:百变鹏仔日期:2023-08-17 20:22:27浏览:10分类:文字大全
hadoop不支持数据的随机读写是因为其效率低下。Hadoop并非不支持随机读写,它也支持。但效率低下,并且存在很多问题需要开发人员在自己的程序解决。hadoop设计的初衷是大规模数据的计算和olap分析,应用场景区别与数据库,因此在HDFS设计时候就侧重在一次写入多次读取。
Hadoop到底是干什么用的?
解决问题的层面不一样
首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。
同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。
两者可合可分
Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外,还提供了叫做MapReduce的数据处理功能。所以这里我们完全可以抛开Spark,使用Hadoop自身的MapReduce来完成数据的处理。
相反,Spark也不是非要依附在Hadoop身上才能生存。但如上所述,毕竟它没有提供文件管理系统,所以,它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择Hadoop的HDFS,也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的,毕竟,大家都认为它们的结合是最好的。
用途:将单机的工作任务进行分拆,变成协同工作的集群。用以解决日益增加的文件存储量和数据量瓶颈。
通俗应用解释:
比如计算一个100M的文本文件中的单词的个数,这个文本文件有若干行,每行有若干个单词,每行的单词与单词之间都是以空格键分开的。对于处理这种100M量级数据的计算任务,把这个100M的文件拷贝到自己的电脑上,然后写个计算程序就能完成计算。
关键技术:
HDFS(Hadoop Distributed File System):
既可以是Hadoop 集群的一部分,也可以是一个独立的分布式文件系统,是开源免费的大数据处理文件存储系统。
HDFS是Master和Slave的主从结构(是一种概念模型,将设备分为主设备和从设备,主设备负责分配工作并整合结果,或作为指令的来源;从设备负责完成工作,一般只能和主设备通信)。主要由Name-Node、Secondary NameNode、DataNode构成。
Name-Node:分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等
Secondary NameNode:辅助 NameNode,分担其工作,紧急情况可以辅助恢复
DataNode:Slave节点,实际存储数据、执行数据块的读写并汇报存储信息给NameNode
HDFS客户端的存储流程:当客户需要写数据时,先在NameNode 上创建文件结构并确定数据块副本将要写道哪几个 datanode ,然后将多个代写 DataNode 组成一个写数据管道,保证写入过程完整统一写入。
读取数据时则先通过 NameNode 找到存储数据块副本的所有 DataNode ,根据与读取客户端距离排序数据块,然后取最近的。
鹏仔 微信 15129739599百科狗 baikegou.com
图片声明:本站部分配图来自网络。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
- 上一篇:已经是第一篇了
- 下一篇:已经是最后一篇了
猜你还喜欢
- 04-26 腿组词有哪些
- 04-26 古组词有哪些
- 04-26 佝偻读音是什么?
- 04-26 执组词和拼音 汉字执组词
- 04-26 什么汉字的左右或上下偏旁部首互换后可以成为另一个字?
- 04-26 乐组词有哪些
- 04-26 侯的拼音和组词 有关候的拼音意思
- 04-26 兴开头的成语有哪些
- 04-26 火加上经的右边读什么?
- 04-26 昂字怎么读
- 04-26 被可以组什么词 被字怎么组词
- 04-26 烁怎么组词
- 搜索