news 2026/4/15 19:49:47

如何在没有经费的情况下做科研

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
如何在没有经费的情况下做科研

实验的家伙事

在做这个工作之前,笔者的主业是合成生物学与分子生物学,见我之前的博文《质粒拷贝数以及启动子活性的定量测量》。在研究过程中有一些发现,也积累了几个点子和想法。然而这些想法无一实现,主要问题是没有钱和资源来继续进行研究。分子生物学实验的开销还是比较大的,像美国的R01基金(很难申请)现在基本也只够养一个实验方向的博后。

在没有经费的情况下做研究,理论/计算方向是最好的选择,有一台电脑就可以了。我这篇工作最开始用的家伙事是我的老电脑,大概是在2019年左右配置的,有一张Geforce 1060的显卡,6G显存。这台电脑本来是个人娱乐用的,不过做一些小的神经网络是足够的。在课题开始的时候做神经网络的设计和调试,训练一次要一两个小时左右。后期由于计算量太大我转到了云平台(谷歌),云平台的A100显卡价格是3每小时,但如果租spotinstance的话最便宜到1每小时,这个价格还是个人可以承受的,至少比我的每小时工资低得多。Spot instance的唯一问题是随时可能被云平台关掉(这也是它为什么这么便宜),不过由于我一般开着服务器干活所以掉线了可以第一时间发现并重启。

这篇文章在revision的时候,我的装备又升级了,自费购入了一台新的组装台式机,装备Gefore 3090Ti显卡,24G显存。这条电脑的价格是2000左右,可以说在除显卡和cpu之外的配件都做到极致的节约。有十余年装机经验的我,第一时间竟然没有认出它主板的品牌。在网上搜索也才发现是来自alibaba的一个大约50-60的杂牌,真是难为它小马拉大车了。这个主板配置上写着最多支持32G内存,实际上我的电脑装了64G的杂牌内存,竟然也能正常工作。便宜的另外一个问题是电源太差了,我看也是$50左右的杂牌。在持续24h工作一个月左右的时候电源直接报销,又花钱换了一个海盗旗的电源。这台电脑也是我目前干活的主力。3090显卡在神经网络训练速度上其实没有比A100差太多,或者说比起价格的差距,性能的差距要小的多。

课题设计

由于装备的限制,肯定不能做大模型了,只能做中等尺度或者小尺度的神经网络模型。这种情况下课题需要斟酌一番。我做的题目是测序数据的标准化问题,也承接了我上一个课题,即合成生物学的标准化问题。具体的测序数据来自于核糖体印记技术(ribosome profiling),说的细节一点,该技术是对核糖体保护的mRNA片段进行深度测序,从理论上可以计算出核糖体在每个三联密码子处的停留时间,实现对所有基因翻译延伸速率的单密码子精度的测量。

之所以选择做ribosome profiling的数据,有三个理由:一是身边有人做过这个技术,合作者中的张静博士是这方面的专家,我从她处了解到很多实验上的流程和数据处理的基本知识。二是该技术理论上精度很高,是一种单密码子精度和全基因组测序的技术。这点跟传统的RNA-seq不一样,因为传统RNA-seq的测序片段太大了,ribosome profiling测的是保护片段,只有20-30nt长。三是该技术受实验流程影响很严重,实验细节微小的差别可以导致测量核糖体分布的很大不同。在真核领域有大量的文献探讨这一现象,比如翻译抑制剂的影响。原核领域我的合作者Allen有一篇很经典的文章,探讨原核领域实验流程的优化问题,并提出一种优化的实验手段。Allen的文章也是我工作的一个重要起点,因为他发现大家大量使用的来自Weissman实验室的针对原核生物的实验流程会导致特定的实验偏差。而我们提出的神经网络就是为了矫正这一偏差。

从神经网络设计上,我们设计的输入是mRNA序列和带有偏差的核糖体分布,输出的是矫正后的核糖体分布。这样的设计也可以帮助我们去做一些预测性质的工作,另外一个应用是探讨哪些序列影响了实验组和对照组之间核糖体分布的差别,这点在疾病过程中很重要。我们的出发点是生物过程是一个动态过程,DNA序列是静态的而单一的DNA序列应该对应很多种不同的核糖体分布。

总账

如果不算新老电脑的话,这篇文章的所有计算开销在$1000-2000左右,比起实验工作应该是小的多了,也是个人能负担的限度。最近我有一篇利用大语言模型进行基因组建模和设计的工作《A long-context language model for deciphering and generating bacteriophage genomes》,这篇工作的开销算上新电脑,就要达到$3000左右了。我认为仍然是比较划算的。因为最近有一篇跟我们很类似的工作,他们开发的模型叫做Evo,文章全名是《Sequence modeling and design from molecular to genome scale with Evo》,计算中调用了64台H100和128台A100,我保守估算他们的计算开销至少在20万美元以上。

最后还是要感谢我的合作者们,包括美国斯坦福大学闫嘉伟博士,波士顿大学张静博士,深圳先进技术研究院刘莉莉博士与陈业研究员,美国约翰霍普金斯大学Allen R. Buskirk 研究员。尤其要感谢陈业研究员与Allen R. Buskirk 研究员,没有他们的大力支持这篇文章不可能问世。



转载本文请联系原作者获取授权,同时请注明本文来自邵斌科学网博客。
链接地址:https://blog.sciencenet.cn/blog-927304-1425899.html

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 7:44:32

独立搭建UI自动化测试框架分享

今天给大家分享一个seleniumtestngmavenant的UI自动化,可以用于功能测试,也可按复杂的业务流程编写测试用例,今天此篇文章不过多讲解如何实现CI/CD,只讲解自己能独立搭建UI框架,如果有其他好的框架也可以联系我&#x…

作者头像 李华
网站建设 2026/4/16 7:44:09

java之异常

文章目录一、异常的概念二、异常的分类1.常见的几个运行时异常2.常见的几个编译时异常三、处理异常1.防御式编程2.异常的抛出3.异常的捕获(1)异常声明throws(2)try-catch捕获并处理4.异常的处理流程5.自定义异常一、异常的概念 异…

作者头像 李华
网站建设 2026/4/16 7:44:31

收藏!有哪些医药行业RPA案例?全场景实战解析,看完就懂

“一款新药从实验室到药房,平均要花10年时间、烧20亿美元,成功率却不足10%”——这组流传在医药圈的数字,道出了行业的痛点。更让人焦虑的是,研发之外,生产车间里3人5天才能审核完的批记录、供应链上上千家经销商的混乱…

作者头像 李华
网站建设 2026/4/16 9:04:35

适合初学者的Agent工具有哪些?从入门到上手的完整避坑指南

打开招聘软件,“熟悉AI Agent工具优先”的标注越来越常见;刷技术社区,“多智能体协作”“自主任务规划”的讨论热度居高不下。作为一个去年还对“Agent”一词一头雾水的职场人,我太懂初学者的迷茫——明明知道这是未来的职场必备技…

作者头像 李华
网站建设 2026/4/16 9:19:39

国内知名AI Agent智能体全解析:从技术原理到顶尖产品,一篇读懂

凌晨三点的财务办公室,实习生小李还在对着五六个系统反复复制粘贴数据;另一边,市场部张经理盯着满屏的用户反馈,愁于无法快速提炼出有效需求——这样的场景,是不是在你的职场中频繁上演?但如果告诉你&#…

作者头像 李华