cuda ：对比gpu与cpu运算矩阵-编程阁

1.cpu的运算

对于cpu的运算，我们需要遍历3次，如果A*B=C,A为M*K维，B维K*N维，C为M*N为，则我们首先要遍历P的M维和N维，在遍历K维进行计算：

2.gpu运算

对gpu运算，由于是并行运算，C矩阵的每个数值同时计算，我们的思路是每个线程（thread）处理一个矩阵上的数值，所以线程的坐标可以代表矩阵C的坐标，例如对于矩阵C8*8的矩阵：

我们可以让blockdim为4*4，也就是一个block中有16个线程，则2*2的grid就能算完所有C矩阵上的值，具体我们的核函数如下：

下面我们把cpu的数据传入gpu中进行并行运算：

进行试验：

实验参数：

实验我们进行了5组：有cpu，gpu预热，blocksize=16，blocksize=1，blocksize=32。

实验结果：

显然即便是预热的gpu运算也比cpu快，后面几组可以说明一些问题，gpu_blocksize=1运算的速度最慢，因为同一个block（线程块）中的所有thread（线程）共享一块该block专属的 shared memory；而同一个grid（线程格）中的不同block之间，各自的 shared memory 是相互独立、完全隔离的，所以blocksize=1代表着每个线程都不是共享的，算法只能依赖全局内存，访问速度很慢，而为什么blocksize=32变得就很快了呢？且硬件调度无冗余，GPU 以 32 个线程为 1 个 warp 调度，q所以blocksize=32最快。

优化：数据其实一直都是在gobalmemory中取，其实很慢，我们可以创建sharememory来加快速度。

Rembg API开发：构建云端抠图服务

Rembg API开发：构建云端抠图服务 1. 智能万能抠图 - Rembg 在图像处理领域，自动去背景（抠图）一直是高频且关键的需求。无论是电商商品展示、证件照制作，还是设计素材提取，传统手动抠图耗时耗力&#xff0…

李华

大模型落地全攻略：从技术实现到商业价值

大模型技术正经历从实验室走向产业界的关键转折期，企业落地过程中面临着技术选型、成本控制与业务适配的三重挑战。本文系统梳理大模型落地的四大核心路径——微调技术、提示词工程、多模态应用与企业级解决方案，通过15代码示例、8个可视化图表、6个Prom…

李华

5分钟搞定：GitBash快速下载与最小化配置

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 开发一个极简GitBash快速启动工具，功能包括：1) 最小化安装包下载；2) 自动应用基本配置；3) 必备插件一键安装；4) 开发环境…

李华

5分钟用快马平台构建自定义atoi函数原型

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 在快马平台上快速实现一个支持扩展功能的atoi函数原型，要求：1.基本字符串转整数 2.可配置的进制支持(2-36) 3.可选的严格模式(只允许数字) 4.实时输入测试界…

李华

KWRT：AI如何革新传统编程工作流

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 创建一个基于KWRT的AI辅助编程工具，能够根据用户输入的自然语言描述自动生成Python代码框架。要求支持以下功能：1) 根据功能描述生成完整函数代码&#xff…

李华

零基础Java学习：用Cursor轻松入门编程

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 创建一个Java新手学习教程项目，包含：1. 基础语法示例 2. 面向对象编程案例 3. 简单计算器实现 4. 学生管理系统。要求：每个示例都有详细注释和练…

李华