从零开始

在本文中，我们将详细介绍如何在Python / pyspark环境中使用graphx进行图计算。GraphX是Spark提供的图计算API，它提供了一套强大的工具，用于处理和分析大规模的图数据。通过结合Python / pyspark和graphx，您可以轻松地进行图分析和处理。

为了方便那些刚入门的新手，包括我自己在内，我们将从零开始逐步讲解。

安装Spark和pyspark

如果你只是想单独运行一下pyspark的演示示例，那么只需要拥有Python环境就可以了。你可以前往官方网站的快速开始页面查看详细的指南：https://spark.apache.org/docs/latest/api/python/getting_started/quickstart_df.html

安装pyspark包

pip install pyspark

由于官方省略的步骤还是相当多的，我简单写了一下我的成功演示示例。

from pyspark.sql import SparkSession,Row

from datetime import datetime, date

import pandas as pd

import os

os.environ['PYSPARK_PYTHON'] = "%你的Python包路径%//python.exe"

spark = SparkSession.builder.getOrCreate()

df = spark.createDataFrame([

    Row(a=1, b=2., c='string1', d=date(2000, 1, 1), e=datetime(2000, 1, 1, 12, 0)),

    Row(a=2, b=3., c='string2', d=date(2000, 2, 1), e=datetime(2000, 1, 2, 12, 0)),

    Row(a=4, b=5., c='string3', d=date(2000, 3, 1), e=datetime(2000, 1, 3, 12, 0))

])

df.show()

然而，考虑到我们今天需要使用GraphX进行分析，因此我们仍然需要安装Spark。

安装Spark

请访问Spark官方网站（https://spark.apache.org/downloads.html）以获取适用于您操作系统的最新版本，并进行下载。如果您觉得下载速度较慢，您还可以选择使用国内阿里镜像进行下载。为了方便起见，我已经帮您找到了相应的镜像地址。

国内阿里镜像：https://mirrors.aliyun.com/apache/spark/spark-3.5.0/?spm=a2c6h.25603864.0.0.52d72104qIXCsH

请下载带有hadoop的版本：spark-3.5.0-bin-hadoop3.tgz。解压缩Spark压缩包即可

配置环境变量

在安装Spark之前，请务必记住需要Java环境。请确保提前配置好JAVA_HOME环境变量，这样才能正常运行Spark。

在windows上安装Java和Apache Spark后，设置SPARK_HOME、HADOOP_HOME和PATH环境变量。如果你知道如何在windows上设置环境变量，请添加以下内容：

SPARK_HOME  = C:\apps\opt\spark-3.5.0-bin-hadoop3

HADOOP_HOME = C:\apps\opt\spark-3.5.0-bin-hadoop3

在Windows上使用winutils.exe的Spark

在Windows上运行Apache Spark时，确保你已经下载了适用于Spark版本的winutils.exe。winutils.exe是一个用于在Windows环境下模拟类似POSIX的文件访问操作的工具，它使得Spark能够在Windows上使用Windows特有的服务和运行shell命令。

你可以从以下链接下载适用于你所使用的Spark版本的winutils.exe：https://github.com/kontext-tech/winutils/tree/master/hadoop-3.3.0/bin

请确保将下载的winutils.exe文件放置在Spark安装目录的bin文件夹下，以便Spark能够正确地使用它来执行Windows特有的操作。

Apache Spark shell

spark-shell是Apache Spark发行版附带的命令行界面（CLI）工具，它可以通过直接双击或使用命令行窗口在Windows操作系统上运行。此外，Spark还提供了一个Web UI界面，用于在Windows上进行可视化监控和管理。

请尝试运行Apache Spark shell。当你成功运行后，你应该会看到一些内容输出（请忽略最后可能出现的警告信息）。

在启动Spark-shell时，它会自动创建一个Spark上下文的Web UI。您可以通过从浏览器中打开URL，访问Spark Web UI来监控您的工作。

GraphFrames

在前面的步骤中，我们已经完成了所有基础设施（环境变量）的配置。现在，我们需要进行一些配置来使Python脚本能够运行graphx。

要使用Python / pyspark运行graphx，你需要进行一些配置。接下来的示例将展示如何配置Python脚本来运行graphx。

GraphFrames的安装

如需获得更多关于GraphFrames的信息和快速入门指南，请访问官方网站：https://graphframes.github.io/graphframes/docs/_site/quick-start.html。

你也可以使用以下命令来安装GraphFrames。

pip install graphframes

在继续操作之前，请务必将graphframes对应的jar包安装到spark的jars目录中，以避免在使用graphframes时出现以下错误：

java.lang.ClassNotFoundException: org.graphframes.GraphFramePythonAPI

将下载好的jar包放入你的%SPARK_HOME%\jars即可。

接下来，我们可以开始正常地使用graphx图计算框架了。现在，让我们简单地浏览一下一个示例demo。

from pyspark.sql.types import *

from pyspark.sql import SparkSession

from pyspark import SparkContext, SparkConf

import pandas as pd

from graphframes import GraphFrame

spark_conf = SparkConf().setAppName('Python_Spark_WordCount').setMaster('local[2]')

sc = SparkContext(conf=spark_conf)

spark=SparkSession.builder.appName("graph").getOrCreate()

v = spark.createDataFrame([

  ("a", "Alice", 34),

  ("b", "Bob", 36),

  ("c", "Charlie", 30),

], ["id", "name", "age"])

# Create an Edge DataFrame with "src" and "dst" columns

e = spark.createDataFrame([

  ("a", "b", "friend"),

  ("b", "c", "follow"),

  ("c", "b", "follow"),

], ["src", "dst", "relationship"])

# Create a GraphFrame

g = GraphFrame(v, e)

# Query: Get in-degree of each vertex.

g.inDegrees.show()

# Query: Count the number of "follow" connections in the graph.

g.edges.filter("relationship = 'follow'").count()

# Run PageRank algorithm, and show results.

results = g.pageRank(resetProbability=0.01, maxIter=20)

results.vertices.select("id", "pagerank").show()

如果运行还是报错：org.apache.spark.SparkException: Python worker failed to connect back

import os

os.environ['PYSPARK_PYTHON'] = "%你自己的Python路径%//Python//python.exe"

最后大功告成：

网络流量分析

接下来，我们将探讨一下是否能够对网络流量进行分析。对于初学者来说，很难获得一些有组织的日志文件或数据集，所以我们可以自己制造一些虚拟数据，以便进行演示。

首先，让我来详细介绍一下GraphFrame(v, e)的参数：

参数v：Class，这是一个保存顶点信息的DataFrame。DataFrame必须包含名为"id"的列，该列存储唯一的顶点ID。

参数e：Class，这是一个保存边缘信息的DataFrame。DataFrame必须包含两列，"src"和"dst"，分别用于存储边的源顶点ID和目标顶点ID。

edges=sc.textFile(r'/Users/xiaoyu/edges')

edges=edges.map(lambda x:x.split('\t'))

edges_df=spark.createDataFrame(edges,['src','dst'])

nodes=sc.textFile(r'/Users/xiaoyu/nodes')

nodes=nodes.map(lambda x:[x])

nodes_df=spark.createDataFrame(nodes,['id'])

graph=GraphFrame(nodes_df, edges_df)

为了创建图数据结构并进行分析，可以简化流程，直接读取相关文件并进行处理。

# 计算每个节点的入度和出度

in_degrees = graph.inDegrees

out_degrees = graph.outDegrees

# 打印节点的入度和出度

in_degrees.show()

out_degrees.show()

查找具有最大入度和出度的节点：

# 找到具有最大入度的节点

max_in_degree = in_degrees.agg(F.max("inDegree")).head()[0]

node_with_max_in_degree = in_degrees.filter(in_degrees.inDegree == max_in_degree).select("id")

# 找到具有最大出度的节点

max_out_degree = out_degrees.agg(F.max("outDegree")).head()[0]

node_with_max_out_degree = out_degrees.filter(out_degrees.outDegree == max_out_degree).select("id")

# 打印结果

node_with_max_in_degree.show()

node_with_max_out_degree.show()

总结

本文介绍了如何在Python / pyspark环境中使用graphx进行图计算。通过结合Python / pyspark和graphx，可以轻松进行图分析和处理。首先需要安装Spark和pyspark包，然后配置环境变量。接着介绍了GraphFrames的安装和使用，包括创建图数据结构、计算节点的入度和出度，以及查找具有最大入度和出度的节点。最后，希望本文章对于新手来说有一些帮助~

【新手友好】用Pyspark和GraphX解析复杂网络数据的更多相关文章

C++ 的语言杂谈（一）－－C++不是新手友好的
C++的语言品味是独特的,喜欢的人特别喜欢,讨厌的人特别讨厌.虽然Bjane Stroustrup不断地宣称C++的发展方向是新手友好的,但实际上对新手来说,最重要的还是有强大方便的标准库可以使用(像 ...
spark- PySparkSQL之PySpark解析Json集合数据
PySparkSQL之PySpark解析Json集合数据数据样本 12341234123412342|asefr-3423|[{"}] 正菜: #-*- coding:utf-8 –*- ...
062 Python必备库-从Web解析到网络空间
目录一.概述二.Python库之网络爬虫 2.1 Requests 2.2 Scrapy 2.3 pyspider 三.Python库之Web信息提取 3.1 Beautiful Soup 3.2 ...
android基础（五）网络数据解析方法
在网络上传输数据时最常用的方法有两种:XML和JSON,下面就对这两种类型的数据解析进行讲解. 一.XML数据解析在Android中,常见的XML解析器分别为SAX解析器.DOM解析器和PULL解析 ...
ios的网络数据下载和json解析
ios的网络数据下载和json解析简介在本文中,笔者将要给大家介绍如何使用nsurlconnection 从网上下载数据,以及解析json数据格式,以及如何显示数据和图片的异步下载显示. 涉及的知 ...
解析json格式数据
实现目标读取文件中的json格式数据,一行为一条json格式数据.进行解析封装成实体类. 通过google的Gson对象解析json格式数据我现在解析的json格式数据为: {",&qu ...
js读取解析JSON类型数据（转）
谢谢博主,转自http://blog.csdn.net/beyond0851/article/details/9285771 一.什么是JSON? JSON(JavaScript Object Not ...
NSXMLParser解析本地.xml数据（由于like7xiaoben写的太好了，我从她那里粘贴过来的）
NSXMLParser解析简要说明 .是sax方法解析 .需要创建NSXMLParser实例 (alloc) 并创建解析器 (initWithData:) 为解析器定义委托 (setDelegate: ...
网络数据的XML解析
网络应用中的数据解析,因为最近的应用,无论是Android的和ios平台的,一直用也是建议用的都是Json解析, xml解析都有点被遗忘了. 然后最近自己在做着玩一个ios的小应用,涉及网络数据的抓取 ...
lwip：网络数据包读取和解析过程
1. 程序的某处(poll or interrupt)在有数据可读时调用ethernetif_input,该函数依次调用以下函数: 1.1 low_level_input(),将网络数据读入内存: 1 ...

随机推荐

HDU 1108
Big Number Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total ...
微软官方发布的C#开源、免费、实用的Windows工具箱
前言今天分享一款由微软官方发布的C#开源.免费.实用的Windows工具箱(帮助用户调整和简化Windows系统的体验,从而提高工作效率):Microsoft PowerToys. 项目介绍 Mic ...
年底了，网站被挂马了，关于IIS被陌生DLL劫持（新人发帖，写的不好的地方，请多多担待）
一上班被分到两个需要杀毒的站点,情况是SEO被劫持出现一些博彩信息,但是打开确实正常内容,使用站长工具的网站被黑检测功能,发现网站的HEAD前面加载一对加密的东西一开始我使用D盾扫描网站,删除了一 ...
Pikachu漏洞靶场 XXE（xml外部实体注入漏洞）
XXE(xml外部实体注入漏洞) 概述 XXE -"xml external entity injection" 既"xml外部实体注入漏洞". 概括一下就是& ...
ifconfig详解
linux下ifconfig命令详解 ifconfig 是一个用来查看.配置.启用或禁用网络接口的工具,这个工具极为常用的.可以用这个工具来临时性的配置网卡的IP地址.掩码.广播地址.网关等.也可以把 ...
40. 干货系列从零用Rust编写负载均衡及代理，websocket的实现
wmproxy wmproxy已用Rust实现http/https代理, socks5代理, 反向代理, 静态文件服务器,四层TCP/UDP转发,七层负载均衡,内网穿透,后续将实现websocket代 ...
2023-07-07：给出两个字符串 str1 和 str2。返回同时以 str1 和 str2 作为子序列的最短字符串。如果答案不止一个，则可以返回满足条件的任意一个答案。输入：str1 =
2023-07-07:给出两个字符串 str1 和 str2. 返回同时以 str1 和 str2 作为子序列的最短字符串. 如果答案不止一个,则可以返回满足条件的任意一个答案. 输入:str1 = ...
如何使用mock应对测试所需随机数据
摘要:在做接口测试的时候,有的接口需要进行大量的数据进行测试,还不能是重复的数据,这个时候就需要随机生产数据进行测试了.这里教导大家使用mock.js生成各种随机数据. 一.什么是mock.js mo ...
如何正确使用Python临时文件
摘要:临时文件通常用来保存无法保存在内存中的数据,或者传递给必须从文件读取的外部程序.一般我们会在/tmp目录下生成唯一的文件名,但是安全的创建临时文件并不是那么简单,需要遵守许多规则. 1.前言临 ...
基于Serverless的端边云一体化媒体网络
摘要:视频在边缘的创新方向在哪?下一代视频云平台什么样? 本文分享自华为云社区<探讨视频云与边缘云平台的竞争力--基于Serverless的端边云一体化媒体网络>,作者/卢志航,整理 / ...

【新手友好】用Pyspark和GraphX解析复杂网络数据