机器学习实例:Spark与Python结合设计

apache spark是处理和使用大数据最广泛的框架之一,python是数据分析、机器学习等领域最广泛使用的编程语言之一。如果想要获得更棒的机器学习能力,为什么不将spark和python一起使用呢?
在国外,apache spark开发人员的平均年薪为110,000美元。毫无疑问,spark在这个行业中被广泛使用。由于其丰富的库集,python也被大多数数据科学家和分析专家使用。二者集成也并没有那么困难,spark用scala语言开发,这种语言与java非常相似。它将程序代码编译为用于spark大数据处理的jvm字节码。为了集成spark和python,apache spark社区发布了pyspark。
apache spark是apache software foundation开发的用于实时处理的开源集群计算框架。spark提供了一个接口,用于编程具有隐式数据并行和容错功能的整个集群。
下面是apache spark的一些特性,它比其他框架更具优势:
速度:比传统的大型数据处理框架快100倍。
强大的缓存:简单的编程层提供强大的缓存和磁盘持久性功能。
部署:可以通过mesos、yarn或spark自己的集群管理器进行部署。
实时:内存计算,实时计算且低延迟。
polyglot:这是该框架最重要的特性之一,因为它可以在scala,java,python和r中编程。
虽然spark是在scala中设计的,但它的速度比python快10倍,但只有当使用的内核数量少时,scala才会体现出速度优势。由于现在大多数分析和处理都需要大量内核,因此scala的性能优势并不大。
对于程序员来说,由于其语法和标准库丰富,python相对来说更容易学习。而且,它是一种动态类型语言,这意味着rdd可以保存多种类型的对象。
尽管scala拥有sparkmllib,但它没有足够的库和工具来实现机器学习和nlp。此外,scala 缺乏数据可视化。
使用python设置spark(pyspark)
首先要下载spark并安装,一旦你解压缩了spark文件,安装并将其添加到 .bashrc文件路径中,你需要输入source .bashrc
要打开pyspark shell,需要输入命令./bin/pyspark
pyspark sparkcontext和数据流
用python来连接spark,可以使用rd4s并通过库py4j来实现。pyspark shell将python api链接到spark core并初始化spark context。sparkcontext是spark应用程序的核心。
spark context设置内部服务并建立到spark执行环境的连接。
驱动程序中的spark context对象协调所有分布式进程并允许进行资源分配。
集群管理器执行程序,它们是具有逻辑的jvm进程。
spark context对象将应用程序发送给执行者。
spark context在每个执行器中执行任务。
pyspark kdd用例
现在让我们来看一个用例:数据来源为kdd'99 cup(国际知识发现和数据挖掘工具竞赛,国内也有类似的竞赛开放数据集,比如知乎)。这里我们将取数据集的一部分,因为原始数据集太大。
创建rdd:
现在我们可以使用这个文件来创建我们的rdd。
过滤
假设我们要计算我们在数据集中有多少正常的相互作用。,可以按如下过滤我们的raw_data rdd。
计数:
现在我们可以计算出新rdd中有多少元素。
输出:
制图:
在这种情况下,我们想要将数据文件作为csv格式文件读取。我们可以通过对rdd中的每个元素应用lambda函数。如下所示,这里我们将使用map()和take()转换。
输出:
拆分:
现在,我们希望将rdd中的每个元素都用作键值对,其中键是标记(例如正常值),值是表示csv格式文件中行的整个元素列表。 我们可以按如下进行,这里我们使用line.split()和map()。
输出:
收集:
使用collect()动作,将rdd所有元素存入内存。因此,使用大型rdd时必须小心使用。
输出:
当然,这比我们之前的任何操作花费的时间都要长。每个具有rdd片段的spark工作节点都必须进行协调,以便检索其各部分内容,然后将所有内容集合到一起。
作为结合前面所有内容的最后一个例子,我们希望收集所有常规交互作为键值对。
输出:

《主流媒体看本源》科技日报关注中国公司量子计算专利数量首次超越英特尔
如何解决消费电子类产品散热问题
喜讯! 金航标Kinghelm电子顺利通过ISO9001管理体系认证
Qualcomm联手博世力士乐共同展示了5G赋能工业制造的下一步发展方向
超声波传感器有哪些应用
机器学习实例:Spark与Python结合设计
基于物联网的智慧家庭健康管理系统
苹果宣布再砍单 国内两大代工巨头遭殃
电力系统为何要进行六氟化硫在线监测?
电源中电磁元件的铁心结构
江丰电子3月份靶材产量首次突破万枚 月产量及月出货量双双创历史新高
第四大运营商,攻击前三大运营商
138译码器的工作原理_138译码器的作用
国家信息化发展战略纲要 要求大力开展5G移动通信技术的研发
晶圆代工先进制程争夺战愈演愈烈 1nm晶圆战开打
扫地机器人的三大侦测感应系统原理
扬尘在线监测系统:实时环境监测的利器
郭明錤:苹果iPhone Q1出货量下调,手机产品正面临3个潜在风险
Xilinx UltraScale 系列发布常见问题汇总
及时恢复,华为云灾备数据解决方案让你无忧办公