news 2026/6/10 16:59:15

Mysql入湖Iceberg

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Mysql入湖Iceberg

Mysql入湖Iceberg

使用Scala实现Spark高可用集群读取Mysql数据写入Iceberg数据湖,数据存储于Hadoop高可用集群

  • Spark 3.3.3
  • Hadoop 3.3.6
  • Iceberg 1.3.0

代码

packagecom.czl.datalake.template.iceberg.mysqlimportorg.apache.spark.sql.SparkSessionobjectTest{defmain(args:Array[String]):Unit={//windows环境测试需要配置// System.setProperty("hadoop.home.dir", "D://hadoop3.3.0")// System.setProperty("HADOOP_USER_NAME", "czl")valspark=SparkSession.builder().appName("mysqlToIceberg").config("spark.sql.catalog.czlCatalog","org.apache.iceberg.spark.SparkCatalog").config("spark.sql.catalog.czlCatalog.type","hadoop")//hadoop文件系统路径.config("spark.sql.catalog.czlCatalog.warehouse","/data").getOrCreate()try{// 1. 读取MySQL数据valmysqlDF=spark.read.format("jdbc").option("url","jdbc:mysql://10.10.10.10:6033").option("driver","com.mysql.cj.jdbc.Driver").option("user","root").option("password","root")//库名.表名.option("dbtable","testDb.testTable").load()//写入Iceberg表mysqlDF.write.format("iceberg")//存储在hadoop上的,库名.表名.save("czlCatalog.testDb.testTable")}catch{casee:Exception=>e.printStackTrace()}finally{spark.stop()}}}

依赖参考

<?xml version="1.0" encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><parent><artifactId>dataLake-template-iceberg</artifactId><groupId>com.czl</groupId><version>1.0</version></parent><modelVersion>4.0.0</modelVersion><artifactId>dataLake-template-iceberg-spark-mysql</artifactId><properties><maven.compiler.source>8</maven.compiler.source><maven.compiler.target>8</maven.compiler.target></properties><dependencies><dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>8.0.24</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.12</artifactId><version>3.3.3</version></dependency><dependency><groupId>org.apache.iceberg</groupId><artifactId>iceberg-spark-runtime-3.3_2.12</artifactId><version>1.3.0</version></dependency></dependencies><build><plugins><plugin><groupId>org.scala-tools</groupId><artifactId>maven-scala-plugin</artifactId><version>2.15.2</version><executions><execution><goals><!--编译源码--><goal>compile</goal><!--编译测试源码--><goal>testCompile</goal></goals></execution></executions></plugin></plugins></build></project>

提示

  • core-site.xml,hdfs-site.xml文件放置在resources文件夹下,以便于识别到Hadoop集群
  • Spark高可用集群,每个节点上传mysql-connector-java-8.0.33.jariceberg-spark-runtime-3.3_2.12-1.3.0.jar这两个必须使用的依赖。

本地模式提交

./spark-submit --master local[*]--class com.czl.datalake.template.iceberg.mysql.Test /opt/dataLake-template-iceberg-spark-mysql-1.0.jar

集群模式提交,jar在本地

./spark-submit --master spark://node1:7077 --deploy-mode cluster --class com.czl.datalake.template.iceberg.mysql.Test /opt/dataLake-template-iceberg-spark-mysql-1.0.jar

集群模式提交,jar在Hadoop

./spark-submit --master spark://node1:7077 --deploy-mode cluster --class com.czl.datalake.template.iceberg.mysql.Test hdfs://ling//workspace/project/dataLake-template-iceberg-spark-mysql-1.0.jar

Yarn模式提交,jar在Hadoop

./spark-submit --masteryarn--deploy-mode cluster --class com.czl.datalake.template.iceberg.mysql.Test hdfs://ling//workspace/project/dataLake-template-iceberg-spark-mysql-1.0.jar
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 15:32:24

TensorFlow-GPU 2.5安装全流程指南

TensorFlow-GPU 2.5安装全流程指南 在深度学习项目中&#xff0c;训练速度往往是决定开发效率的关键。当你面对一个需要数小时才能跑完的模型时&#xff0c;有没有想过——仅仅通过正确配置 GPU 支持&#xff0c;就能将时间压缩到几十分钟&#xff1f;这正是 TensorFlow-GPU 的…

作者头像 李华
网站建设 2026/6/9 15:23:32

Wan2.2-T2V-A14B:16倍压缩与双专家架构突破

Wan2.2-T2V-A14B&#xff1a;16倍压缩与双专家架构突破 你是否曾因视频生成模型的“三高”门槛而望而却步&#xff1f;——高参数量&#xff08;百亿级起步&#xff09;、高显存消耗&#xff08;>20GB&#xff09;、高推理延迟&#xff08;分钟级输出&#xff09;。如今&…

作者头像 李华
网站建设 2026/6/10 6:50:22

Thread类中run()和start()的区别

在Java中, run() 和 start() 方法是Thread类的两个关键方法&#xff0c;它们有本质区别&#xff1a;1.run()方法&#xff1a;run()方法是线程要执行的任务代码所在的方法。直接调用run()方法&#xff0c;它会在当前线程中执行&#xff0c;而不会启动新的线程。也就是说&#xf…

作者头像 李华
网站建设 2026/6/10 1:14:47

InstantX/FLUX.1-dev-IP-Adapter 效果实测

InstantX/FLUX.1-dev-IP-Adapter 效果实测 在生成式 AI 领域&#xff0c;我们正经历一场从“文生图”到“以图塑意、以文点睛”的深刻转变。过去&#xff0c;文本提示是图像生成的唯一指挥棒&#xff1b;如今&#xff0c;像 InstantX/FLUX.1-dev-IP-Adapter 这样的技术组合&am…

作者头像 李华
网站建设 2026/6/10 15:34:40

LobeChat能否合作高校?产学研结合新模式

LobeChat能否合作高校&#xff1f;产学研结合新模式 在人工智能技术加速渗透教育领域的今天&#xff0c;越来越多的高校开始探索如何将大语言模型&#xff08;LLM&#xff09;融入教学与科研。然而&#xff0c;一个现实问题摆在面前&#xff1a;主流闭源AI服务虽然功能强大&…

作者头像 李华
网站建设 2026/6/9 17:51:09

Windows部署GPT-SoVITS语音克隆与远程访问

Windows部署GPT-SoVITS语音克隆与远程访问 在内容创作日益个性化的今天&#xff0c;越来越多的创作者开始尝试用AI生成专属声音——无论是为短视频配音、制作有声书&#xff0c;还是打造虚拟主播形象。而在这股“声音定制”热潮中&#xff0c;GPT-SoVITS 凭借其极低的数据门槛和…

作者头像 李华