量化私募急招分布式机器学习平台专家 全职
岗位职责:
1.负责规划设计高性能分布式机器学习训练平台的整体架构,支撑大规模数据处 理和模型训练;
2.主导分布式训练相关的技术选型,比如适配业务的并行策略、存储方案等;
3.持续分析大规模集群的训练性能,解决数据读取、显存、通信等核心瓶颈,同 时跟踪前沿分布式训练技术,推动平台架构持续演进;
4.对接算法团队,配合算法团队适配不同的机器学习任务,并做针对性的优化。
5.监控系统运行状态,识别潜在风险,建立预防机制以减少故障发生。
职位要求
1.计算机科学、电子工程、软件工程或相关理工科本科及以上学历,5 年以上工 作经验
2.熟悉Python/Golang/C++中至少一种语言,掌握主流深度学习框架(如 PyTorch)
3.熟悉在分布式环境中快速定位故障根源,如网络延迟、节点失效或数据同步问 题,具备日志分析、性能剖析和调试工具使用经验(如 Prometheus、Grafana)
4.熟悉机器学习训练全链路工具(如 Kubernetes+Slurm 混合调度、机器学习平 台)、熟悉分布式训练框架(如 DeepSpeed、Megatron)、掌握 CUDA 性能调优或者 GPU 架构等。
5.有大规模 AI 训练集群(1000+节点)项目的设计、实施管理经验
6.具备金融行业或大型互联网公司 HPC 运维经验
7.具备较强的责任心和团队合作意识、具有良好的学习能力和分析解决问题能力
8.精通分布式队列系统实现原理,有 Slurm/YARN、RAY 等资源管理系统经验者优先
量化私募急招分布式机器学习平台专家 全职岗位职责: 1.负责规划设计高性能分布式机器学习训练平台的整体架构,支撑大规模数据处 理和模型训练; 2.主导分布式训练相关的技术选型,比如适配业务的并行
张小明
前端开发工程师
EmotiVoice能否识别文本情感并自动匹配语音情绪?
EmotiVoice 能否识别文本情感并自动匹配语音情绪? 在虚拟主播的直播中,一句平淡的“我很难过”听起来却像在念菜谱;在智能助手中,“恭喜你!”被读得毫无波澜——这些场景暴露了传统语音合成系统最致命的短板࿱…
Danmaku2ASS完整攻略:5分钟搞定弹幕本地化
Danmaku2ASS完整攻略:5分钟搞定弹幕本地化 【免费下载链接】danmaku2ass Convert comments from Niconico/AcFun/bilibili to ASS format 项目地址: https://gitcode.com/gh_mirrors/da/danmaku2ass 还在为无法离线观看带弹幕的视频而烦恼吗?Danm…
CANopenNode终极指南:免费开源嵌入式CAN总线协议栈快速上手
CANopenNode终极指南:免费开源嵌入式CAN总线协议栈快速上手 【免费下载链接】CANopenNode CANopen protocol stack 项目地址: https://gitcode.com/gh_mirrors/ca/CANopenNode CANopenNode作为一款功能完整的开源CANopen协议栈实现,为嵌入式开发者…
Arduino CAN实战精通:从零开始掌握CAN总线通信技术
Arduino CAN实战精通:从零开始掌握CAN总线通信技术 【免费下载链接】arduino-CAN An Arduino library for sending and receiving data using CAN bus. 项目地址: https://gitcode.com/gh_mirrors/ar/arduino-CAN Arduino CAN库是一个功能强大的开源工具&…
YOLOSHOW:终极免费YOLO图形化界面工具完整指南
YOLOSHOW:终极免费YOLO图形化界面工具完整指南 【免费下载链接】YOLOSHOW YOLO SHOW - YOLOv10 / YOLOv9 / YOLOv8 / YOLOv7 / YOLOv5 / RTDETR GUI based on Pyside6 项目地址: https://gitcode.com/gh_mirrors/yo/YOLOSHOW 还在为复杂的YOLO命令行参数而烦…
基于SpringBoot寿险公司人力资源管理系统(包部署+代码指导+万字论文)
阅读提示 博主是一位拥有多年毕设经验的技术人员,如果本选题不适用于您的专业或者已选题目,我们同样支持按需求定做项目,论文全套!!! 博主介绍 CSDN毕设辅导第一人、靠谱第一人、全网粉丝50W,csdn特邀作者…