作业3 分布式数据库HBase

随笔5个月前发布棋恩

37 0 0

一. 单选题（共7题，14分）

1. (单选题, 2分)下列选项中，关于HBase和BigTable的底层技术对应关系，哪个是错误的？

A. GFS与HDFS相对应
B. MapReduce与Hadoop MapReduce相对应
C.

GFS与Zookeeper相对应

Chubby与Zookeeper相对应

我的答案: C: GFS与Zookeeper相对应 ;正确答案: C: GFS与Zookeeper相对应 ;

2分

2. (单选题, 2分)
在HBase中，关于数据操作的描述，下列哪一项是错误的？

HBase不支持修改操作

HBase采用了更加简单的数据模型，它把数据存储为未经解释的字符串

C. HBase在设计上就避免了复杂的表和表之间的关
D.

HBase操作不存在复杂的表与表之间的关系

我的答案: A:HBase不支持修改操作 ;正确答案: A:HBase不支持修改操作 ;

2分

3. (单选题, 2分)HBase中需要根据某些因素来确定一个单元格，这些因素可以视为一个“四维坐标”，下面哪个不属于“四维坐标”？

行键

关键字

列族

时间戳

我的答案: B:关键字 ;正确答案: B:关键字 ;

2分

4. (单选题, 2分)关于HBase的三层结构中各层次的名称和作用的说法，哪个是错误的？

-ROOT-表记录了.META.表的Region位置信息

.META.表保存了HBase中所有用户数据表的Region位置信息

C. Zookeeper文件记录了-ROOT-表的位置信息
D.

Zookeeper文件记录了用户数据表的Region位置信息

我的答案: D:Zookeeper文件记录了用户数据表的Region位置信息 ;正确答案: D:Zookeeper文件记录了用户数据表的Region位置信息 ;

2分

5. (单选题, 2分)下面关于主服务器Master主要负责表和Region的管理工作的描述，哪个是错误的？

在Region分裂或合并后，负责重新调整Region的分布

B. 对发生故障失效的Region服务器上的Region进行迁移
C.

管理用户对表的增加、删除、修改、查询等操作

D. 不支持不同Region服务器之间的负载均衡

我的答案: D:不支持不同Region服务器之间的负载均衡;正确答案: D:不支持不同Region服务器之间的负载均衡;

2分

6. (单选题, 2分)HBase只有一个针对行健的索引，如果要访问HBase表中的行，下面哪种方式是不可行的？

通过单个行健访问

通过时间戳访问

通过一个行健的区间来访问

全表扫描

我的答案: B: 通过时间戳访问 ;正确答案: B: 通过时间戳访问 ;

2分

7. (单选题, 2分)下面关于Region的说法，哪个是错误的？

A. 同一个Region不会被分拆到多个Region服务器
B. 为了加快访问速度，.META.表的全部Region都会被保存在内存中
C.

一个-ROOT-表可以有多个Region

为了加速寻址，客户端会缓存位置信息，同时，需要解决缓存失效问题

我的答案: C: 一个-ROOT-表可以有多个Region ;正确答案: C: 一个-ROOT-表可以有多个Region ;

2分

二. 多选题（共8题，16分）

8. (多选题, 2分)关系数据库已经流行很多年，并且Hadoop已经有了HDFS和MapReduce，为什么需要HBase？

Hadoop可以很好地解决大规模数据的离线批量处理问题，但是，受限于Hadoop MapReduce编程框架的高延迟数据处理机制，使得Hadoop无法满足大规模数据实时处理应用的需求上

HDFS面向批量访问模式，不是随机访问模式

传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题

传统关系数据库在数据结构变化时一般需要停机维护；空列浪费存储空间

我的答案: ABCD: Hadoop可以很好地解决大规模数据的离线批量处理问题，但是，受限于Hadoop MapReduce编程框架的高延迟数据处理机制，使得Hadoop无法满足大规模数据实时处理应用的需求上 ; HDFS面向批量访问模式，不是随机访问模式 ; 传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题 ; 传统关系数据库在数据结构变化时一般需要停机维护；空列浪费存储空间 ;正确答案: ABCD: Hadoop可以很好地解决大规模数据的离线批量处理问题，但是，受限于Hadoop MapReduce编程框架的高延迟数据处理机制，使得Hadoop无法满足大规模数据实时处理应用的需求上 ; HDFS面向批量访问模式，不是随机访问模式 ; 传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题 ; 传统关系数据库在数据结构变化时一般需要停机维护；空列浪费存储空间 ;

2分

9. (多选题, 2分)HBase与传统的关系数据库的区别主要体现在以下哪几个方面？

数据类型

数据操作

存储模式

数据维护

我的答案: ABC:数据类型 ; 数据操作 ; 存储模式 ;正确答案: ABCD:数据类型 ; 数据操作 ; 存储模式 ; 数据维护 ;

1分

10. (多选题, 2分)下列关于数据模型的描述，哪些是正确的？

HBase采用表来组织数据，表由行和列组成，列划分为若干个列族

每个HBase表都由若干行组成，每个行由行键（row key）来标识

列族里的数据通过列限定符（或列）来定位

每个单元格都保存着同一份数据的多个版本，这些版本采用时间戳进行索引

我的答案: ABCD: HBase采用表来组织数据，表由行和列组成，列划分为若干个列族 ; 每个HBase表都由若干行组成，每个行由行键（row key）来标识 ; 列族里的数据通过列限定符（或列）来定位 ; 每个单元格都保存着同一份数据的多个版本，这些版本采用时间戳进行索引 ;正确答案: ABCD: HBase采用表来组织数据，表由行和列组成，列划分为若干个列族 ; 每个HBase表都由若干行组成，每个行由行键（row key）来标识 ; 列族里的数据通过列限定符（或列）来定位 ; 每个单元格都保存着同一份数据的多个版本，这些版本采用时间戳进行索引 ;

2分

11. (多选题, 2分)HBase的实现包括哪三个主要的功能组件？

A. 库函数：链接到每个客户端
B.

一个Master主服务器

许多个Region服务器

廉价的计算机集群

我的答案: ABC:库函数：链接到每个客户端; 一个Master主服务器 ; 许多个Region服务器 ;正确答案: ABC:库函数：链接到每个客户端; 一个Master主服务器 ; 许多个Region服务器 ;

2分

12. (多选题, 2分)HBase的三层结构中，三层指的是哪三层？

Zookeeper文件

数据类型

-ROOT-表

.META.表

我的答案: ACD:Zookeeper文件 ; -ROOT-表 ; .META.表 ;正确答案: ACD:Zookeeper文件 ; -ROOT-表 ; .META.表 ;

2分

13. (多选题, 2分)Zookeeper是一个很好的集群管理工具，被大量用于分布式计算，它主要提供什么服务？

配置维护

域名服务

负载均衡服务

分布式同步

我的答案: ABD: 配置维护 ; 域名服务 ; 分布式同步 ;正确答案: ABD: 配置维护 ; 域名服务 ; 分布式同步 ;

2分

14. (多选题, 2分)下列关于Region服务器工作原理的描述，哪些是正确的？

每个Region服务器都有一个自己的HLog 文件

每次刷写都生成一个新的StoreFile，数量太多，影响查找速度

合并操作比较耗费资源，只有数量达到一个阈值才启动合并

Store是Region服务器的核心

我的答案: ABCD:每个Region服务器都有一个自己的HLog 文件 ; 每次刷写都生成一个新的StoreFile，数量太多，影响查找速度 ; 合并操作比较耗费资源，只有数量达到一个阈值才启动合并 ; Store是Region服务器的核心 ;正确答案: ABCD:每个Region服务器都有一个自己的HLog 文件 ; 每次刷写都生成一个新的StoreFile，数量太多，影响查找速度 ; 合并操作比较耗费资源，只有数量达到一个阈值才启动合并 ; Store是Region服务器的核心 ;

2分

15. (多选题, 2分)下列关于HLog工作原理的描述，哪些是正确的？

A. 分布式环境必须要考虑系统出错。HBase采用HLog保证
B.

HBase系统为每个Region服务器配置了一个HLog文件

Zookeeper会实时监测每个Region服务器的状态

D. Master首先会处理该故障Region服务器上面遗留的HLog文件

我的答案: ACD:分布式环境必须要考虑系统出错。HBase采用HLog保证; Zookeeper会实时监测每个Region服务器的状态 ; Master首先会处理该故障Region服务器上面遗留的HLog文件;正确答案: ABCD:分布式环境必须要考虑系统出错。HBase采用HLog保证; HBase系统为每个Region服务器配置了一个HLog文件 ; Zookeeper会实时监测每个Region服务器的状态 ; Master首先会处理该故障Region服务器上面遗留的HLog文件;

1分