查看: 2503|回复: 22

Apache Hive基础入门 HIVE技术文档

  [复制链接]

1040

主题

1186

帖子

1万

积分

分区版主

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

贡献
32
技术
24
活跃
5
在线时间
39 小时
擅长技术
思科华为
发表于 2015-2-4 17:41:47 | 显示全部楼层 |阅读模式
Hive 是Hadoop 项目中的一个子项目,由FaceBook 向Apache 基金会贡献,其中TaoBao 也是其中一位使用者+贡献者,Hive 被视为一个仓库工具,可以将结构化的数据文件映射为一张数据库表,并可以将sql 语句转换为MapReduce 任务进行运行。其优点是学习成本低,可以通过类SQL 语句快速实现简单的MapReduce 统计,不必开发专门的MapReduce 应用,十分适合数据仓库的统计分析。

Hive 主要分为以下几个部分:
1.用户接口
用户接口主要有三个:命令行(CLI),客户端(Client) 和Web 界面(WUI)。其中最常用的是CLI,启动的时候,会同时启动一个Hive 服务。Client
是Hive 的客户端,用户连接至Hive Server。在启动Client 模式的时候,需要指出Hive Server 所在节点,并且在该节点启动Hive Server。WUI 是通过
浏览器访问Hive 的Web 工具。

2.元数据存储
Hive 将元数据存储在数据库中,如MySQL 或者Derby 嵌入式数据库。若将元数据存储在MySQL 中,在TBLS 中可以看见你建立的所有表信息,Hive
中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。

3. 执行
解释器、编译器、优化器完成HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS 中,并在随后有
MapReduce 调用执行。

4. HDFS 存储
Hive 的数据存储在HDFS 中,大部分的查询由MapReduce 完成(包含*的查询,比如select * from tbl 不会生成MapRedcue 任务)。

购买主题 已有 1 人购买  本主题需向作者支付 3 金币 才能浏览

0

主题

837

帖子

5872

积分

论坛贵宾VIP-永久权限

Rank: 8Rank: 8

贡献
0
技术
0
活跃
1252
在线时间
87 小时
擅长技术
LINUX
发表于 2016-3-19 10:05:39 | 显示全部楼层
Thanks SantongIT

0

主题

187

帖子

1243

积分

论坛贵宾VIP-永久权限

Rank: 8Rank: 8

贡献
-100
技术
0
活跃
203
在线时间
19 小时
发表于 2017-2-17 19:02:48 | 显示全部楼层
哈哈哈哈哈哈哈。。。。。

0

主题

263

帖子

1947

积分

论坛贵宾VIP-永久权限

Rank: 8Rank: 8

贡献
0
技术
0
活跃
292
在线时间
68 小时
发表于 2017-4-17 18:26:12 | 显示全部楼层

Hive 的数据存储在HDFS 中,大部分的查询由MapReduce 完成(包含*的查询,比如select * from tbl 不会生成

1

主题

1269

帖子

9045

积分

论坛贵宾VIP-永久权限

Rank: 8Rank: 8

贡献
0
技术
0
活跃
1190
在线时间
256 小时

有钱银!

发表于 2017-4-24 10:59:51 | 显示全部楼层
下下来看看

2

主题

669

帖子

4589

积分

论坛贵宾VIP-永久权限

Rank: 8Rank: 8

贡献
-100
技术
0
活跃
684
在线时间
111 小时
发表于 2017-9-5 23:32:56 | 显示全部楼层
okf;ermf;lekfek

2

主题

373

帖子

2569

积分

论坛贵宾VIP-永久权限

Rank: 8Rank: 8

贡献
0
技术
0
活跃
534
在线时间
32 小时
发表于 2017-9-6 15:08:55 | 显示全部楼层
Thanks SantongIT Thanks SantongIT
使用 高级模式(可批量传图、插入视频等)
您需要登录后才可以回帖 登录 | 立即注册

快速回复 返回顶部 返回列表