阅读权限90
最后登录2017-4-10
在线时间5 小时
积分95
注册时间2016-9-11
精华0
主题0
UID84917
帖子34
金币46
威望0
贡献-100
技术0
活跃39
论坛贵宾VIP-永久权限
- 贡献
- -100
- 技术
- 0
- 活跃
- 39
- 在线时间
- 5 小时
|
发表于 2016-10-31 15:26:48
|
显示全部楼层
以上这些传统数据仓库中的组件,在Hadoop生态圈中都有对应的开源项目或产品。
抽取
Hadoop生态圈中的主要数据摄取工具是Sqoop。Sqoop被设计成支持从关系数据库传输数据,而Flume被设计成基于流的数据捕获 —— 主要是从日志文件中获取数据。使用这两个工具可以建立数据仓库的抽取过程。
转换与装载
Hive可以用于装载和装换数据。Hive实际上是在MapReduce之上封装了一层SQL解释器,这样可以用类SQL语言书写复杂的MapReduce作业。
过程管理
Hadoop生态圈中的主要管理工具是Falcon。Falcon把自己看作是数据治理工具,能让用户建立定义好的ETL流水线。除Falcon外还有一个叫做Oozie的工具,它是是一个Hadoop的工作流调度系统,可以使用它将ETL过程封装进工作流自动执行。
数据目录
Hadoop生态圈中主要的数据目录工具是HCatalog —— 一个Hive的组件。HCatalog被设计成给Hadoop引入“表”的抽象,把文件看做数据集。通过HCatalog,用户不需要做很多工作就可以轻松知道系统中有哪些表,表中都包含什么。
查询引擎和SQL层
Hadoop生态圈中的主要SQL查询引擎有基于MapReduce的Apache Hive、SparkSQL和Cloudera公司的Impala。Hive可以在四种主流计算框架的三种(分别是Tez、MapReduce和 Spark,还有一种是Storm)上执行类SQL查询。SparkSQL是Hadoop中另一个著名的SQL引擎,它实际上是一个Scala程序语言的子集。正如SparkSQL这个名字所暗示的,它以Spark作为底层计算框架。Impala是Cloudera公司的查询系统,它提供SQL语义,最大特点是速度快,主要用于OLAP。
用户界面
Hadoop生态圈中比较知名的数据可视化工具是Hue和Zeppelin,其中Hue支持Hive和Impala,Zeppelin目前只支持SparkSQL。 |
|