Spark 大数据入门——从零搭建分布式计算环境-编程阁

Spark 是当前最流行的大数据计算引擎，相比 Hadoop MapReduce 性能提升 10~100 倍。本文从零搭建 Spark 开发环境，用 Python 编写第一个 Spark 程序。

一、Spark 是什么

Spark 是一个分布式计算框架，可以在成百上千台服务器上并行处理数据。

对比	Hadoop MapReduce	Spark
计算速度	慢（磁盘读写）	快 10~100 倍（内存计算）
易用性	Java 编写，代码量大	Python/Java/Scala 均可
适用场景	离线批处理	批处理 + SQL + 流处理 + 机器学习

二、环境搭建

1. 安装 Spark（Windows/Linux）

# 1. 下载 Spark（需预装 Java 8+）wgethttps://dlcdn.apache.org/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz# 2. 解压tar-xzfspark-3.5.0-bin-hadoop3.tgzmvspark-3.5.0-bin-hadoop3 /opt/spark# 3. 配置环境变量exportSPARK_HOME=/opt/sparkexportPATH=$PATH:$SPARK_HOME/bin

2. 安装 PySpark

pipinstallpyspark

3. 验证安装

# 进入 Spark Shell（交互式环境）pyspark# 看到这个界面说明安装成功# Welcome to Spark version 3.5.0

三、核心概念

概念	说明
RDD	弹性分布式数据集，Spark 的核心抽象
DataFrame	带列名的分布式数据集（类似 Pandas）
SparkSession	Spark 应用的入口
Task	任务，被发送到 executor 执行
Partition	数据分区，每个分区对应一个 task

四、第一个 Spark 程序

1. 读取数据

frompyspark.sqlimportSparkSession# 创建 SparkSessionspark=SparkSession.builder \.appName("FirstSparkApp")\.getOrCreate()# 读取 CSV 文件df=spark.read.csv("students.csv",header=True,inferSchema=True)# 查看数据df.show(5)df.printSchema()

2. 数据转换

frompyspark.sql.functionsimportcol,avg,count# 筛选成绩大于 60 分的学生df.filter(col("score")>60).show()# 按班级分组统计平均分df.groupBy("class_name")\.agg(avg("score").alias("avg_score"),count("*").alias("student_count"))\.orderBy("avg_score",ascending=False)\.show()

五、实战：学生成绩统计分析

frompyspark.sqlimportSparkSessionfrompyspark.sql.functionsimportcol,avg,max,min,count,when# 创建会话spark=SparkSession.builder.appName("ScoreAnalysis").getOrCreate()# 读取数据df=spark.read.csv("scores.csv",header=True,inferSchema=True)# 1. 数据概览print(f"总记录数:{df.count()}")df.describe().show()# 2. 各班级平均分df.groupBy("class")\.agg(avg("score").alias("平均分"),max("score").alias("最高分"),min("score").alias("最低分"))\.orderBy("平均分",ascending=False)\.show()# 3. 成绩分布df.withColumn("等级",when(col("score")>=90,"优秀").when(col("score")>=80,"良好").when(col("score")>=70,"中等").when(col("score")>=60,"及格").otherwise("不及格")).groupBy("等级").agg(count("*").alias("人数"))\.orderBy("等级").show()spark.stop()

六、Spark SQL

Spark 支持用 SQL 语句查询数据，适合熟悉 SQL 的开发者：

# 将 DataFrame 注册为临时表df.createOrReplaceTempView("students")# 用 SQL 查询result=spark.sql(""" SELECT class_name, ROUND(AVG(score), 2) as avg_score, COUNT(*) as count FROM students WHERE score >= 60 GROUP BY class_name ORDER BY avg_score DESC """)result.show()

七、性能优化建议

1. 合理设置分区数

# 默认分区数偏小，大数据量时调整spark.conf.set("spark.sql.shuffle.partitions","200")

2. 使用缓存

# 频繁使用的数据缓存到内存df.cache()# 或df.persist()

3. 避免使用 UDF

# ❌ 慢：使用 Python UDFfrompyspark.sql.functionsimportudf# ✅ 快：使用内置函数frompyspark.sql.functionsimportwhen,col

总结

Spark 是大数据领域的核心技术，掌握它之后处理海量数据不再是难题。记住三步：

创建 SparkSession—— 入口
读取数据——spark.read.csv/json/parquet
数据转换——filter、groupBy、agg等操作

💡 觉得有用的话，点赞 + 关注【张老师技术栈】吧！每周更新 Java/Python/爬虫大数据实战干货，不让你白来。

Instagram GraphAPI集成指南

引言 Instagram作为全球领先的社交媒体平台，其强大的API功能为开发者提供了丰富的数据获取和管理功能。近期，我在尝试使用Instagram Graph API进行数据整合时，遇到了一个有趣的挑战。通过这次经验，我想分享如何解决Instagram API中常见的权限问题，从而帮助其他开发者避免…