文章作者邮箱:[email protected] 地址:广东惠州
▲ 本章节目的
⚪ 了解Spark的背景;
⚪ 了解Spark的特点;
⚪ 掌握Spark的生态系统模块、使用模式;
⚪ 掌握Spark的单机模式安装;
一、简介
1. 背景
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的,后贡献给Apache。是一种快速、通用、可扩展的大数据分析引擎。它是不断壮大的大数据分析解决方案家族中备受关注的明星成员,为分布式数据集的处理提供了一个有效框架,并以高效的方式处理分布式数据集。Spark集批处理、实时流处理、交互式查询、机器学习与图计算于一体,避免了多种运算场景下需要部署不同集群带来的资源浪费。目前,Spark社区也成为大数据领域和Apache软件基金会最活跃的项目之一,其活跃度甚至远超曾经只能望其项背的Hadoop。
2. 特点
Spark是一种分布式的、快速的、通用的、可靠的、免费的计算框架。
目前市面上比较常用和流行的计算框架:
1. Hadoop Map Reduce->离线批处理;
2. Spark->离线批处理->实时流处理;
3. Storm->实时流处理;
4. Flink-