想要成为大数据工程师你需要掌握以下知识

林肯公园

国际数据公司IDC预测,到年,企业基于大数据计算分析平台的支出将突破亿美元,大数据解决方案在未来四年中,帮助全球企业分享大约.6万亿美元新增收入的数据红利。

数联寻英近日发布的首份《大数据人才报告》显示,目前全国大数据人才只有46万,未来3到5年人才缺口达50万之多。

根据麦肯锡报告,仅仅在美国市场,年大数据人才和高级分析专家的人才缺口将高达9万。此外美国企业还需要50万位能够提出正确问题、运用大数据分析结果的大数据相关管理人才。

对于高速发展的大数据行业来说,行业人才的稀缺目前已成为抑致行业发展的重要因素。人才的稀缺性外加上诱人的高额薪资,使得互联网行业很多技术人员纷纷想要转型进入大数据领域,成为数据科学家、大数据工程师等等。

今天,我们将为大家介绍大数据工程师所需掌握的技能,让小伙伴们有个参照。先来看一个常见的大数据基础平台架构图。

从这张大数据架构图上来看,我们发现,一个普通的大数据基础平台架构中,分为数据集成层、文件存储层、数据存储层、编程模型层和数据分析层,然后再到上层应用。

大数据基础平台架构中,往往还会有数据挖掘层和数据可视化层等。再看这场架构图。

从以上两张架构图我们可以看到,整个大数据基础平台架构中,其实是涉及非常多的技术、语言和技能的。下面为大家一一细表。

一、大数据通用处理平台

、Spark

Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架,Spark,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

其中,RDD是Spark的核心,RDD,全称为ResilientDistributedDatasets,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。

同时,RDD还提供了一组丰富的操作来操作这些数据。在这些操作中,诸如map、flatMap、filter等转换操作实现了monad模式,很好地契合了Scala的集合操作。

除此之外,RDD还提供了诸如join、groupBy、reduceByKey等更为方便的操作(注意,reduceByKey是action,而非transformation),以支持常见的数据运算。SparkSQL是Spark的一个组件,用于结构化数据的计算。

SparkSQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查询引擎。SparkStreaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。

SparkStreaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。SparkStreaming的优势在于:

能运行在00+的结点上,并达到秒级延迟。

使用基于内存的Spark作为执行引擎,具有高效和容错的特性。

能集成Spark的批处理和交互查询。

为实现复杂的算法提供和批处理类似的简单接口。

MLlib是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器。MLlib目前支持四种常见的机器学习问题:二元分类,回归,聚类以及协同过滤,同时也包括一个底层的梯度下降优化基础算法。下面是Spark学习脑图。

右键点击可看在线版

你可以通过Spark







































北京专治白癜风医院哪家好
什么原因导致白癜风



转载请注明:http://www.jiaju1314.com/zyyd/10639.html