news 2026/6/9 18:29:48

PySpark实战 - 2.2 利用Spark SQL计算总分与平均分

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
PySpark实战 - 2.2 利用Spark SQL计算总分与平均分

文章目录

  • 1. 实战概述
  • 2. 实战步骤
  • 3. 实战总结

1. 实战概述

  • 本次实战基于 Spark SQL 对 HDFS 上的学生成绩文本文件进行分析,通过split函数拆分姓名与各科成绩,利用嵌套查询和聚合计算,实现每位学生的总分与保留一位小数的平均分统计,展示了 Spark SQL 在结构化数据处理中的强大表达能力与简洁性。

2. 实战步骤

3. 实战总结

  • 本次实战通过交互式与程序式两种方式,成功完成了学生成绩的总分与平均分统计任务。利用spark.read.text()读取原始成绩数据后,创建临时视图并编写嵌套 SQL 查询:内层使用splitcast提取姓名及五门课程分数,外层计算总和并调用round(..., 1)精确控制平均分小数位数。整个过程充分发挥了 Spark SQL 兼容标准 SQL 语法的优势,代码清晰、逻辑直观。程序采用SparkSession.builder正确初始化上下文,并在finally块中确保资源释放。该案例不仅验证了 Spark SQL 处理半结构化文本的能力,也为后续复杂数据分析任务提供了可复用的模板,体现了大数据处理中“以 SQL 为中心”的高效开发范式。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 18:04:56

揭秘JavaScript闭包,继承,正则表达式

闭包闭包的基本概念闭包(closure)是JavaScript语言的一个难点,也是JavaScript的一个特色,很多高级的应用都要依靠闭包来实现。作用域在js中,函数会形成函数作用域,在函数内部可以直接访问全局变量var str …

作者头像 李华
网站建设 2026/6/10 13:12:22

git命令速查表

一、环境配置与初始化命令功能说明示例git config --global user.name "用户名"配置全局提交者姓名(仅首次使用需配置)git config --global user.name "lucideyes"git config --global user.email "邮箱"配置全局提交者邮…

作者头像 李华
网站建设 2026/6/10 13:13:03

DM数据库安装

一、 安装前准备 (Pre-Installation Preparation) 环境要求检查 (Environment Check): 操作系统 (Operating System): 确认操作系统版本是否在 DM 官方支持列表内(如 CentOS, RedHat, Kylin, UOS, Windows Server 等)。检查内核版本、位数(64…

作者头像 李华
网站建设 2026/6/10 11:52:23

当Nature封面讲述中国AI故事,我们已经在定义未来

当Nature封面讲述中国AI故事,我们已经在定义未来 原创 云鹏 智东西 2025年12月19日 18:01 北京 从杭州走向世界,中国AI正重塑全球竞争格局。 作者 | 云鹏 编辑 | 漠影 今天,中国科技正加速走向世界,从追赶走向引领&#xff…

作者头像 李华