大数据概念和Hadoop基本介绍

2018-12-07 16:24 

开始学习大数据,一步一个脚印,好好坚持下去!

大数据概述

1.大数据特征

 

第一个,volume(量),大数据第一个基础是它的数据量要大;

第二个,velocity(速度),大数据一个很重要的它必须是实时产生的,一个两年以前很大的数据,在今天的时代里面是不能够被称之为大数据的;

第三个,variety(多样性),很多企业其实只拥有一类数据,但需要明白大数据的根本是需要多样性;

第四个,veracit(不确定性),我们过去熟悉的数据都是确定的,一个消费者的名字、年龄、收入,地址等等,这些都属于关系型数据;但在大数据里面,所有的数据是无序的,不可确定。

 

2.大数据涉及到的技术

(1).数据采集

(2)数据存储

(3)数据处理

(4)可视化

3.大数据在技术架构上带来的挑战

(1)对现有数据库管理技术的挑战

(2)对经典数据库技术并没有考虑数据的多类别

(3)实时性的技术挑战

(4)网络架构,数据中心,运维的挑战

(5)其他包括。数据隐私,数据源发杂多样

4.如何对大数据进行存储和分析

 

Google中的设计到的东西只有论文没有开源,相反hadoop开源,并且实现了相对的技术!

5. 如何学好大数据

(1)官网、官网、官网

(2)项目实战对知识点进行巩固和融会贯通

(3)社区活动:Meetup、开源社区大会、线下沙龙等

(4)多动手、多联系、贵在坚持

初识Hadoop

官网:Hadoop.apache.org

1. Hadoop概述

(1)名字由来

Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名。

2Hadoop描述

The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

Apache Hadoop®项目开发开源软件可靠、可扩展、分布式计算。

Apache Hadoop软件库是一个框架,它允许使用简单的编程模型在计算机集群中对大数据集进行分布式处理。它被设计成从单个服务器扩展到数千台机器,每个服务器提供本地计算和存储。库本身并不是依赖于硬件来提供高可用性,而是设计用于在应用层检测和处理故障,因此在一组计算机上提供高可用性服务,每一种计算机都有可能出现故障。

(3)Hadoop介绍

①.开源的 ②.分布式存储+分布式计算平台

4Hadoop作用

能搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务(绝大部分都是从日志分析)

 

2. Hadoop核心组件

(1)HDFS分布式文件系统

①.源于GoogleGFS论文,论文发表于2..310

②.HDFSGFS的克隆版

③.HDFS特点:扩展性 容错性 海量数据存储

④.将文件切分成指定大小的数据块并以多副本的存储在多个机器上(128M

⑤.数据切分、多副本、容错等操作对用户是透明的。(操作的是文件)

(2)YARN资源调度系统

YARN:YET Another Resource Negotiator(另一种资源协调者)

①.负责整个集群资源的管理和调度

②.YARN特点:扩展性、容错性、多框架资源统一调度

 

(3)MapReduce分布式计算框架

①.源自于GoogleMapReduce论文,发表于200112

②.MapReduce特点:扩展性、容错性、海量数量离线处理

③.工作流程。给出一篇文章,统计出文章中每个单词出现的次数

 

3. Hadoop优势

(1)高可靠性

①.数据存储:数据块多副本

②.数据计算:重新调度作业计算

(2)高扩展性

①.存储/计算资源不够时,可以横向的线性扩展机器

②.一个集群中可以包含数以千计的节点

(3)其他

①.可以存储在廉价机器上,降低成本

②.成熟的生态圈

4. Hadoop发展史

· 2002年10月,Doug Cutting和Mike Cafarella创建了开源网页爬虫项目Nutch。

· 2003年10月,Google发表Google File System论文。

· 2004年7月,Doug Cutting和Mike Cafarella在Nutch中实现了类似GFS的功能,即后来HDFS的前身。

· 2004年10月,Google发表了MapReduce论文。

· 2005年2月,Mike Cafarella在Nutch中实现了MapReduce的最初版本。

· 2005年12月,开源搜索项目Nutch移植到新框架,使用MapReduce和NDFS(Nutch Distributed File System )来运行,在20个节点稳定运行。

· 2006年1月,Doug Cutting加入雅虎,Yahoo!提供一个专门的团队和资源将Hadoop发展成一个可在网络上运行的系统。

· 2006年2月,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。

· 2006年2月,Yahoo!的网格计算团队采用Hadoop。

· 2006年3月,Yahoo!建设了第一个Hadoop集群用于开发。

· 2006年4月,第一个Apache Hadoop发布。

· 2006年4月,在188个节点上(每个节点10GB)运行排序测试集需要47.9个小时。

· 2006年5月,Yahoo!建立了一个300个节点的Hadoop研究集群。

· 2006年5月,在500个节点上运行排序测试集需要42个小时(硬件配置比4月的更好)。

· 2006年11月,研究集群增加到600个节点。

· 2006年11月,Google发表了Bigtable论文,这最终激发了HBase的创建。

· 2006年12月,排序测试集在20个节点上运行1.8个小时,100个节点上运行3.3小时,500个节点上运行5.2小时,900个节点上运行7.8个小时。

· 2007年1月,研究集群增加到900个节点。

· 2007年4月,研究集群增加到两个1000个节点的集群。

· 2007年10月,第一个Hadoop用户组会议召开,社区贡献开始急剧上升。

· 2007年,百度开始使用Hadoop做离线处理。

· 2007年,中国移动开始在“大云”研究中使用Hadoop技术。

· 2008年,淘宝开始投入研究基于Hadoop的系统——云梯,并将其用于处理电子商务相关数据。

· 2008年1月,Hadoop成为Apache顶级项目。

· 2008年2月,Yahoo!运行了世界上最大的Hadoop应用,宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。

· 2008年4月,在900个节点上运行1TB排序测试集仅需209秒,成为世界最快。

· 2008年6月,Hadoop的第一个SQL框架——Hive成为了Hadoop的子项目。

· 2008年7月,Hadoop打破1TB数据排序基准测试记录。Yahoo!的一个Hadoop集群用209秒完成1TB数据的排序 ,比上一年的纪录保持者保持的297秒快了将近90秒。

· 2008年8月,第一个Hadoop商业化公司Cloudera成立。

· 2008年10月,研究集群每天装载10TB的数据。

· 2008年11月,Apache Pig的最初版本发布。

· 2009年3月,17个集群总共24000台机器。

· 2009 年3月,Cloudera推出世界上首个Hadoop发行版——CDH(Cloudera's Distribution including Apache Hadoop)平台,完全由开放源码软件组成。

· 2009年4月,赢得每分钟排序,59秒内排序500GB(在1400个节点上)和173分钟内排序100TB数据(在3400个节点上)。

· 2009年5月,Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。

· 2009年6月,Cloudera的工程师Tom White编写的《Hadoop权威指南》初版出版,后被誉为Hadoop圣经。

· 2009年7月 ,Hadoop Core项目更名为Hadoop Common;

· 2009年7月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。

· 2009年7月 ,Avro 和 Chukwa 成为Hadoop新的子项目。

· 2009年8月,Hadoop创始人Doug Cutting加入Cloudera担任首席架构师。

· 2009年10月,首届Hadoop World大会在纽约召开。

· 2010年5月 ,Avro脱离Hadoop项目,成为Apache顶级项目。

· 2010年5月 ,HBase脱离Hadoop项目,成为Apache顶级项目。

· 2010年5月,IBM提供了基于Hadoop 的大数据分析软件——InfoSphere BigInsights,包括基础版和企业版。

· 2010年9月,Hive( Facebook) 脱离Hadoop,成为Apache顶级项目。

· 2010年9月,Pig脱离Hadoop,成为Apache顶级项目。

· 2010年-2011年,扩大的Hadoop社区忙于建立大量的新组件(Crunch,Sqoop,Flume,Oozie等)来扩展Hadoop的使用场景和可用性。

· 2011年1月,ZooKeeper 脱离Hadoop,成为Apache顶级项目。

· 2011年3月,Apache Hadoop获得Media Guardian Innovation Awards 。

· 2011年3月, Platform Computing 宣布在它的Symphony软件中支持Hadoop MapReduce API。

· 2011年5月,Mapr Technologies公司推出分布式文件系统和MapReduce引擎——MapR Distribution for Apache Hadoop。

· 2011年5月,HCatalog 1.0发布。该项目由Hortonworks 在2010年3月份提出,HCatalog主要用于解决数据存储、元数据的问题,主要解决HDFS的瓶颈,它提供了一个地方来存储数据的状态信息,这使得 数据清理和归档工具可以很容易的进行处理。

· 2011年4月,SGI(Silicon Graphics International)基于SGI Rackable和CloudRack服务器产品线提供Hadoop优化的解决方案。

· 2011年5月,EMC为客户推出一种新的基于开源Hadoop解决方案的数据中心设备——GreenPlum HD,以助其满足客户日益增长的数据分析需求并加快利用开源数据分析软件。Greenplum是EMC在2010年7月收购的一家开源数据仓库公司。

· 2011年5月,在收购了Engenio之后, NetApp推出与Hadoop应用结合的产品E5400存储系统。

· 2011年6月,Calxeda公司发起了“开拓者行动”,一个由10家软件公司组成的团队将为基于Calxeda即将推出的ARM系统上芯片设计的服务器提供支持。并为Hadoop提供低功耗服务器技术。

· 2011年6月,数据集成供应商Informatica发布了其旗舰产品,产品设计初衷是处理当今事务和社会媒体所产生的海量数据,同时支持Hadoop。

· 2011年7月,Yahoo!和硅谷风险投资公司 Benchmark Capital创建了Hortonworks 公司,旨在让Hadoop更加可靠,并让企业用户更容易安装、管理和使用Hadoop。

· 2011年8月,Cloudera公布了一项有益于合作伙伴生态系统的计划——创建一个生态系统,以便硬件供应商、软件供应商以及系统集成商可以一起探索如何使用Hadoop更好的洞察数据。

· 2011年8月,Dell与Cloudera联合推出Hadoop解决方案——Cloudera Enterprise。Cloudera Enterprise基于Dell PowerEdge C2100机架服务器以及Dell PowerConnect 6248以太网交换机。

· 2012年3月,企业必须的重要功能HDFS NameNode HA被加入Hadoop主版本。

· 2012年8月,另外一个重要的企业适用功能YARN成为Hadoop子项目。

· 2012年10月,第一个Hadoop原生MPP查询引擎Impala加入到了Hadoop生态圈。

· 2014年2月,Spark逐渐代替MapReduce成为Hadoop的缺省执行引擎,并成为Apache基金会顶级项目。

· 2015年2月,Hortonworks和Pivotal抱团提出“Open Data Platform”的倡议,受到传统企业如Microsoft、IBM等企业支持,但其它两大Hadoop厂商Cloudera和MapR拒绝参与。

· 2015年10月,Cloudera公布继HBase以后的第一个Hadoop原生存储替代方案——Kudu。

· 2015年12月,Cloudera发起的Impala和Kudu项目加入Apache孵化器。

 

5. Hadoop生态系统(重点)

 

(1)狭义Hadoop和广义Hadoop

①.狭义Hadoop

是一个适合大数据分布式存储HDFS分布式计算MapReduce)和资源调度YARN)的平台;

②.广义的Hadoop

指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,hadoop是其中最重要最基础的一个部分;生态系统中的每一个子系统只能解决某一个特定的问题域(甚至可能很窄),不搞统一性的全能系统,而是小而精的多个小系统。

(2).生态系统特点

①.开源、社区活跃

②.囊括了大数据处理的方方面面

③.成熟的生态圈

6. Hadoop发行版的选择

(1)Apache  Hadoop

学习版本,很容易出现问题不能解决(10%或者更少)

(2)CDH: Cloudera Distributed Hadoop

商业版,直接通过浏览器安装,使用很方便。CM不开源(70%

(3)HDP: Hortonworks Data Platform

商业版,安装升级和添加节点比较麻烦(20%

7. Hadoop企业应用案例

(1)消费大数据

亚马逊,根据用户在没订单之前,会提前把包裹发送出去。通过历史数据和行为数据把你感兴趣的提出来

(2)尿不湿和啤酒

发表评论

您必须 登录 才能发表留言!