新版Andy老师商业智能数据仓库BI-ETL培训视频全集

httmyl · 发表于 2016-8-31 11:23:32

新版Andy老师商业智能数据仓库BI-ETL培训视频全集

z670059110 · 发表于 2016-9-2 22:39:36

啊啊啊啊啊啊啊啊啊

ronkui · 发表于 2016-9-15 02:39:27

商业智能数据仓库BI-ETL培训视频全集

jimmy718 · 发表于 2016-9-28 15:22:28

感谢楼主的精彩分享！

kingask · 发表于 2016-9-29 09:28:58

谢谢楼主分享

农夫 · 发表于 2016-10-31 15:26:48

  以上这些传统数据仓库中的组件，在Hadoop生态圈中都有对应的开源项目或产品。
      抽取
      Hadoop生态圈中的主要数据摄取工具是Sqoop。Sqoop被设计成支持从关系数据库传输数据，而Flume被设计成基于流的数据捕获 —— 主要是从日志文件中获取数据。使用这两个工具可以建立数据仓库的抽取过程。
      转换与装载
      Hive可以用于装载和装换数据。Hive实际上是在MapReduce之上封装了一层SQL解释器，这样可以用类SQL语言书写复杂的MapReduce作业。
      过程管理
      Hadoop生态圈中的主要管理工具是Falcon。Falcon把自己看作是数据治理工具，能让用户建立定义好的ETL流水线。除Falcon外还有一个叫做Oozie的工具，它是是一个Hadoop的工作流调度系统，可以使用它将ETL过程封装进工作流自动执行。
      数据目录
      Hadoop生态圈中主要的数据目录工具是HCatalog —— 一个Hive的组件。HCatalog被设计成给Hadoop引入“表”的抽象，把文件看做数据集。通过HCatalog，用户不需要做很多工作就可以轻松知道系统中有哪些表，表中都包含什么。
      查询引擎和SQL层
      Hadoop生态圈中的主要SQL查询引擎有基于MapReduce的Apache Hive、SparkSQL和Cloudera公司的Impala。Hive可以在四种主流计算框架的三种（分别是Tez、MapReduce和 Spark，还有一种是Storm）上执行类SQL查询。SparkSQL是Hadoop中另一个著名的SQL引擎，它实际上是一个Scala程序语言的子集。正如SparkSQL这个名字所暗示的，它以Spark作为底层计算框架。Impala是Cloudera公司的查询系统，它提供SQL语义，最大特点是速度快，主要用于OLAP。
      用户界面
      Hadoop生态圈中比较知名的数据可视化工具是Hue和Zeppelin，其中Hue支持Hive和Impala，Zeppelin目前只支持SparkSQL。