【小牛学堂】Hadoop基础之环境搭建精华帖

小牛学堂 · 发表于 2016-12-22 13:51:34

Hadoop基础之环境搭建详情登陆http://edu360.cn/open?pid=1

这里面真有视频教程，还是高清的，还是全套的，无需注册~~~

1.Hadoop产生背景
l  HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。
l  2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。
                  分布式文件系统（GFS），可用于处理海量网页的存储
                  分布式计算框架MAPREDUCE，可用于处理海量网页的索引计算问题。
l  Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE，并从Nutch中剥离成为独立项目HADOOP，到2008年1月，HADOOP成为Apache顶级项目，迎来了它的快速发展期。

2.什么是Hadoop？
l  HADOOP是Apache旗下的一套开源软件平台
l  HADOOP提供的功能：利用服务器集群对数据进行存储，根据用户的自定义业务逻辑，对海量数据进行分布式计算
l  广义上来说，HADOOP通常是指一个更广泛的概念——HADOOP生态圈

3.Hadoop解决了什么问题？
l  海量数据的存储（HDFS）
l  海量数据的技术（MapReduce）
l  资源调度（YARN）

课程列表