大数据开发之spark应用场景

Spark是大数据技术中数据计算处理的王者，能够一次处理PB级的数据，分布在数千个协作的物理或虚拟服务器集群中，它有一套广泛的开发者库和API，并且支持Java，Python，R和Scala等语言，其灵活的特性，适合各种环境，以下是Spark最常见的两种应用场景：

离线场景：可以以时间为维度，几年的数据集，或者以业务为维度，某个领域的大数据集等，这种数据我们一般叫做离线数据，或者冷数据。

实时场景：网站埋点、实时从前端页面传输过来的数据、业务系统或物理硬件实时传输过来的数据、硬件信号或者图像数据等，需要实时去计算处理并且返回结果的数据。

Spark是为数据科学设计的，数据科学家将Spark纳入其应用程序，能够处理包括跨大型数据集的交互式查询，来自传感器或金融系统的流数据以及机器学习任务，且Spark将数据集缓存在内存中的能力大大加快了迭代数据处理速度，使得Spark成为实现迭代的MapReduce算法的理想处理引擎。

Spark是为大数据工程师设计的，在强大的计算能力和优秀的架构设计面前，可以让数据工程师在不管是离线情景下还是实时的业务需求下，都可以放心的选择使用Spark。

Spark因其自身优势，发展势头迅猛，目前几乎所有一站式大数据平台都已集成了Spark，很多行业也都正在用Spark来改善他们的业务，以下是Spark在一些行业的具体用途：

保险行业：通过使用Spark的机器学习功能来处理和分析所有索赔，优化索赔报销流程。

医疗保健：使用Spark Core，Streaming和SQL构建病人护理系统。

零售业：使用Spark分析销售点数据和优惠券使用情况。

互联网：使用Spark的ML功能来识别虚假的配置文件，并增强他们向客户展示的产品匹配。

银行业：使用机器学习模型来预测某些金融产品的零售银行客户的资料。

政府：分析地理，时间和财政支出。

科学研究：通过时间，深度，地理分析地震事件来预测未来的事件。

投资银行：分析日内股价以预测未来的价格走势。

地理空间分析：按时间和地理分析Uber旅行，以预测未来的需求和定价。

Twitter情绪分析：分析大量的推文，以确定特定组织和产品的积极，消极或中立的情绪。

航空公司：建立预测航空旅行延误的模型。

设备：预测建筑物超过临界温度的可能性。

Spark是大数据技术栈中重要框架技术，是专为大规模数据处理而设计的快速通用的计算引擎，能够支持分布式数据集上的迭代作用，且对Hadoop进行补充，是一个高速发展应用广泛的生态系统。