news 2026/4/16 13:52:06

如何写一个可以识别图像数字的基于VIT大模型的简单代码?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
如何写一个可以识别图像数字的基于VIT大模型的简单代码?

直接上代码,源代码来自于kaggle上的大神,经过简单修改得到

# 模型# 数据# 训练fromtorch.utils.dataimportDataset,DataLoaderimportnumpyfromPILimportImageclassconvertDataset(Dataset):def__init__(self,data,transform)->None:super().__init__()self.data=data self.transform=transform self.labels=self.data.iloc[:,0].values self.images=self.data.iloc[:,1:].values.astype(numpy.uint8)def__len__(self):returnlen(self.data)def__getitem__(self,index):label=self.labels[index]image=self.images[index].reshape(28,28)image=Image.fromarray(image,"L")image=self.transform(image)returnimage,labeldefmain():# 模型importtorch.nnasnnimporttimm dict_path="D:\\kaggle\\digit-recognizer\\dict.pth"importosclassVIT(nn.Module):def__init__(self,*args,**kwargs)->None:super().__init__(*args,**kwargs)self.model=timm.create_model("vit_base_patch16_224",pretrained=True)self.model.head=nn.Linear(self.model.head.in_features,10)# type:ignoreifos.path.exists(dict_path):print("load dict")self.model.load_state_dict(torch.load(dict_path))defforward(self,x):returnself.model(x)importtorch device=torch.device("cuda"iftorch.cuda.is_availableelse"cpu")model=VIT().to(device)# 数据importpandas train_data=pandas.read_csv("input/train.csv")fromtorchvisionimporttransforms transform=transforms.Compose([transforms.Resize((224,224)),transforms.Grayscale(num_output_channels=3),transforms.ToTensor(),transforms.Normalize((0.5,),(0.5,))])train_dataset=convertDataset(train_data,transform)train_dataloader=DataLoader(train_dataset,batch_size=20,shuffle=True,num_workers=1,pin_memory=True)# 训练epoches=5optimizer=torch.optim.Adam(model.parameters(),lr=1e-4)criterion=nn.CrossEntropyLoss()importtimeimporttorch.autograd.profilerasprofilerforepochinrange(epoches):model.train()batch=0forimages,labelsintrain_dataloader:start_time=time.time()images,labels=images.to(device),labels.to(device)optimizer.zero_grad()output=model(images)loss=criterion(output,labels)loss.backward()optimizer.step()batch+=1total=len(labels)start_time1=time.time()_,predicted=output.max(1)correct=(predicted==labels).sum().item()print(f"batch:{batch}/{len(train_dataloader)}",f"epoch:{epoch}/{epoches}",f"loss:{loss.item():.4f}",f"accuracy:{correct/total:.4f}",f"spend:{time.time()-start_time:.2f}")ifbatch%1000==0:torch.save(model.model.state_dict(),dict_path)if__name__=="__main__":main()
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 12:14:48

arXiv LaTeX Cleaner 终极指南:一键清理你的论文代码

arXiv LaTeX Cleaner 终极指南:一键清理你的论文代码 【免费下载链接】arxiv-latex-cleaner arXiv LaTeX Cleaner: Easily clean the LaTeX code of your paper to submit to arXiv 项目地址: https://gitcode.com/gh_mirrors/ar/arxiv-latex-cleaner 还在为…

作者头像 李华
网站建设 2026/4/13 3:57:11

18、使用Python创建井字棋游戏与Twilio两步认证系统

使用Python创建井字棋游戏与Twilio两步认证系统 井字棋游戏开发 在开发井字棋游戏时,首先要创建一个能接受用户输入的网格,交替添加 “O” 或 “X”。我们为 TicTacToeGrid 组件制定规则,规定每个实例化的 TicTacToeGrid 的 cols 属性应设为 3。 以下是创建网格按钮…

作者头像 李华
网站建设 2026/4/3 22:20:46

终极Android架构实践指南:从零构建模块化应用

终极Android架构实践指南:从零构建模块化应用 【免费下载链接】android-showcase igorwojda/android-showcase: 是一个用于展示 Android 开发技巧和最佳实践的项目集合,包括了多种 Android 开发工具和技巧,可以用于学习 Android 开发知识。 …

作者头像 李华
网站建设 2026/4/15 9:12:51

PACKAGER.EXE:解决Word文档内嵌对象难题的利器

PACKAGER.EXE:解决Word文档内嵌对象难题的利器 【免费下载链接】packager.exe资源下载介绍 PACKAGER.EXE是一款专为微软Windows操作系统设计的实用工具,特别适用于解决Windows XP系统中Word文档内嵌对象无法打开的问题。通过该工具,用户可以轻…

作者头像 李华
网站建设 2026/4/15 15:43:29

32、虚拟化技术:KVM 与 VMware Server 全面解析

虚拟化技术:KVM 与 VMware Server 全面解析 1. KVM 相关操作 在使用 KVM 进行虚拟机管理时,有两个特殊的脚本选项值得关注: - --firstboot script :此选项与 --execscript 类似,不同之处在于它会将指定的脚本复制到虚拟机中,并在虚拟机首次启动时执行。 - --fir…

作者头像 李华
网站建设 2026/4/14 6:52:13

34、提升Ubuntu服务器容错性的方法与RAID配置指南

提升Ubuntu服务器容错性的方法与RAID配置指南 在服务器运行过程中,硬件故障是不可避免的。多年来,服务器上的各种主要硬件组件,如CPU、RAM、SCSI控制器,尤其是硬盘,都有可能出现故障。除了硬件故障,系统停机还可能由其他问题导致,比如交换机配置错误、停电,甚至是系统…

作者头像 李华