复印机蛋白质打印机:与自然进化较较劲设计一种比特分kaiyun子机器。
添加时间:2023-08-09 01:23:32
kaiyunkaiyunkaiyunkaiyun”,人类还在努力学习进化留给我们的技术,还想给进化这台机器加上 “遥控器” ,并且开始去设计一些进化历程里没出现过的东西。
为什么要这样做呢?因为进化也并不 “完美”,它大多时候是有关于适应性 “ fitness ,而不是优化 “optimization”,当你处在一个很 “蠢” 的环境的时候,你也会得到有些蠢的 “设计遗产” 。
如今,计算科学家与生物工程师还有跨学科的系统工程师们kaiyun,正在尝试把自然进化和人工设计结合在一起,通过 “更聪明的设计” 再进行 “更高效的进化”。
在北京太古里商业区这个春天主题幕墙换成了 Evolution By Design, 想知道是谁帮太古里的朋友做了这个文案。
为了达到这个目标,人类还需要依靠机器的智能,超越目前人类智能和人工工作能达到的上线。这也是 AI + Bio 领域正在蓬勃发展的原因。
今天分享的一篇英文科技博客文章,是一篇 “思想实验性的” 推测写作,目的是引起技术性的讨论和思考,这是否是一个值得进一步开发和投资的方向。
这篇博客文章的两位联合作者是 Niko McCarty 和 Julian Englert,Niko McCarty 是一位独立科学创作者,他在加州理工学院取得了生物工程硕士学位又在纽约大学取得了新闻传播硕士,三年前开始运营自己的科技媒体 Codon Magazine,现在兼职在合成生物学技术公司 Asimov 担任科学写作与媒体沟通主管,还在 MIT 设计一门新的基因工程学的教学课程。
Julian Englert 是 2020 年在瑞士成立的蛋白质/合成生物技术初创公司 Adaptyv Bio 的联合创始人和 CEO,这家公司正在创造一个先进的蛋白质/合成生物技术工坊,我在之后的文章里会介绍这家公司的一些技术情况。
读完这篇文章,我想你也可能会感觉到,人工智能 + 生物工程正在创造下一个半导体到集成电路到多种下游智能化应用的行业链条。如果你也在从事人工智能 + 生命科学交叉领域的研究和相关工作,欢迎你找到我还有我的朋友们交流,我的微信是:2871981198,请添加一句话介绍。
生成式蛋白质设计,核糖体工程,DNA 合成,信使 RNA, 转运RNA, 中心法则。
这篇文章是关于蛋白质打印机( protein printer )的一种思想实验,它是一种将数字比特( digital bits )转化为物质分子( physical molecules )的新技术。这是一种思辨性推测写作( speculative writing ),因为这种打印机技术目前还不存在。但从物理属性上来说,没有什么原因它不能够存在,我们认为蛋白质打印机这种技术,可能会像打印机改变了新闻一样,改变生物学。
我们正处在生物学历史上的一个拐点,在简单的一个笔记本电脑上,就可以设计出具有奇妙新功能的蛋白质。在华盛顿大学的蛋白质设计研究所( Institute for Protein Design ),科学家们已经创造出可以自组装成纳米材料,或用作流感和艾滋病疫苗的蛋白质。不久的未来,“设计师” 高定蛋白质( “designer” proteins )可以用于制造新的药物或清除环境中的有毒泄漏污染。
但是,诺贝尔奖得主悉尼·布伦纳( Sydney Brenner )曾说过:“ 科学的进步依赖于新技术、新发现和新思想,可能就是按照这个顺序。” 可惜的是,设计蛋白质要比制造蛋白质简单得多。计算机很多,电力也便宜。在数字世界中可以塑造数百万种蛋白质,但在现实世界中,每种蛋白质的制造成本至少为 50 美元。这是因为在实验室中制造蛋白质需要使用合成的 DNA和细胞( synthetic DNA and cells ),而 DNA 是昂贵的。在我们最终找到一个有效的蛋白质之前,必须测试数百种蛋白质设计方案。
我们的机器将不使用任何 DNA 或细胞来制造蛋白质。它可以作为一个套件销售( sold as a kit ),并且理论上可以用 1 美元制造 10 亿种独特的蛋白质。
以下文字大部分是推测思辨性的( speculative )。我们尽量指出其中的思维漏洞,但我们希望您能与我们联系并留下评论。这不是一个科研拨款申请,只是我们在推测如何解决蛋白质领域重要的问题,就像我们坐在星期五晚上的酒吧里聊的天一样。毕竟,许多科学思想( scientific ideas )最初就是在酒吧里聊天开始形成的,并开始了缓慢地走向现实的旅程。
蛋白质就像是一条长长的绳子,上面点缀着珠子,每个珠子是一个具有独特形状和电荷的氨基酸。这些氨基酸的排列顺序决定了蛋白质的最终形态;序列决定功能( sequence begets function )。
蛋白质在拥挤的细胞内部,充当机器和信使( machines and messengers )的角色。有些蛋白质可以每秒催化 3000 万次反应kaiyun。其他蛋白质则分解食物并构建细胞壁,或者捕获碳原子并将其储存在糖分子中。
所有细胞制造蛋白质都需要经过两个步骤:DNA 被转录成信使RNA,然后再转化为蛋白质。这是中心法则( Central Dogma ),一个生物教科书里讲过的概念,并被生物学家们以敬畏的语气低声讨论。这是分子生物学的不可动摇的大厦基础。但是我们将尝试说服你,或许我们可以有更好的做法。
核糖体( ribosome )是一种细胞内的分子打印机,将一串 “珠子” 打到蛋白质链条上。它沿着 RNA 移动,每次读取三个字母,称为密码子( codons ),来构建蛋白质的氨基酸序列。例如,密码子 “GCA” 编码丙氨酸,“CUC” 编码亮氨酸,以此类推。
范阳注:做一个类比, DNA 就像是一幅图片的数字文件,我们存在硬盘里的一样。
你需要这些数字文件导入进 PhotoShop 图片处理,我们用一个 U盘转移这个文件,这个 U盘就是 mRNA;
上图:核糖体的解剖结构,显示这个分子机器如何通过读取 mRNA 向正在增长的蛋白质链中添加氨基酸。
现在,在实验室中制造蛋白质只有两个选择:利用化学合成,或利用核糖体组装蛋白质。第一种选择是将单个氨基酸融合在一起形成氨基酸链。化学家可以在几个小时内制造出长达 164 个氨基酸单元的蛋白质,但这需要专门的设备和化学品。
第二种选择更常见,它是先在计算机上设计一个蛋白质,然后逆向将其氨基酸转化为 DNA 序列,然后将其发送给化学合成公司。科学家合成这些DNA 并通过邮件返回给客户。然后科学家将基因插入细胞,核糖体 “收到指令” 开始工作,并制造这种蛋白质。
范阳注:Twist Bioscience 是一家合成生物学公司,专注于合成 DNA。你可以把需要的基因序列信息发送给他们,然后他们按照需求在实验室合成出来 DNA,直接邮寄给你。
但这种方法的缺点是需要太多步骤。就像在打印机发明之前的写作一样。你需要把一段文本发给印刷厂,然后几周或几个月后才能看到你的作品一样。实际上,我们需要的是这样一台打印机:它可以从屏幕上读取文字,并迅速将其转换成实体书。换句话说,我们需要“黑客”了核糖体( hijack the ribosome ),无需使用 DNA 就能将比特信息转化为分子(turn bits into molecules, without DNA)。
一个典型的蛋白质由 400 个氨基酸组成,每个氨基酸由三个字母编码。这意味着需要订购 1,200 个碱基的 DNA 来构建一个普通的蛋白质。大多数DNA 合成公司,如 Twist Biosciences,每个碱基的价格只有 7 美分左右,因此一个基因通常需要 50 美元至 300 美元。许多公司正在开发新技术来合成更长的 DNA 片段,但我们不知道是否有公司打算降低成本。
上图:合成基因(蓝色曲线)或小 DNA 片段,称为寡核苷酸(红色曲线)的成本随时间的变化趋势逐年下降。数据来自 Bioeconomy Capital 的Rob Carlson。
当我们设想蛋白质打印机的样子时,我们会想象一个类似转盘电话的设备,其中所有不同的密码子 —— 如AUA、AUG、AUC 等 —— 都放在一条连续的 RNA 环上。然后,通过工程改造核糖体,使其能够从一个密码子 “跳” 到下一个密码子,从而构建定制的蛋白质。
范阳注:上面用需要拨号的转盘电话类比蛋白质打印机,大部分人已经不知道什么是一个 “ 转盘电话 ” 了,我找了一张图,是一位极客把一个智能手机改装成了转盘电话的样子,去掉了屏幕和不必要的功能,保留了核心组件和经典的审美,紧凑高效。
这将需要我们重新构想 “ 中心法则 ”( Central Dogma ) 的核心部分,这并不容易。但我们已经与核糖体工程师( ribosome engineers )商讨了这个想法,没有一个人说 “这是不可能的” 或 “这违反了物理定律”。有两个人发送了邮件,附上了有关蛋白质打印机可能工作的草图,其中一人表示他的研究小组曾考虑过探索类似的想法。
第一步是构建一个编码了所有不同密码子的RNA 环( a loop of RNA )。这是很简单的。我们将从制造一个线性 RNA 链开始,使用化学法或生物法,然后用连接酶( ligase enzyme )将两端融合在一起打印机。环状 RNA 可以像正常的 RNA 一样被核糖体翻译,但它们的降解速度要慢得多,因为它们不容易被“降解”酶( “degrader” enzymes )识别。环状 RNA ( circular RNA) 的半衰期为 24 小时或更长,而线性 RNA ( linear RNA ) 可能只有几分钟。
这个环状的 RNA 不必包含所有 64 种可能的密码子,因为遗传密码( genetic code )是冗余的,只有 20 种氨基酸。但这个环应该有足够宽的直径,让核糖体自由移动。
上图:这是一个原始概念草图,展示了一个 “蛋白质打印机” 的科学设想,下文将详细说明这个原理是如何工作的。
现在,下一步更加困难一些,因为它们需要核糖体工程(ribosome engineering)。
核糖体由数十个较小的蛋白质和 RNA 链组成,它们以分子级的精确度相互结合,形成了一个精妙绝伦的分子交响乐团。这个机器在数十亿年的自然进化过程中变得极其精确,并且按照每次只移动一个密码子的长度在 RNA 链上进行移动。而我们希望人为地改变这一点。
为了简化这一工程问题,我们将重点放在细菌核糖体上,它由两个核糖体亚基( subunits )组成,称为 50S(大)和 30S(小),通过非共价键结合在一起。氨基酸通过 tRNA 运入核糖体,tRNA 从一侧进入核糖体,然后从另一侧退出。这个过程大约每秒发生十次。新的蛋白质从核糖体中生产出来,就像自动串在线上的珠子一样。
范阳注:什么是 tRNA( 转运RNA )呢?它可以比喻为蛋白质生产环节里的 “货拉拉”。
我找了一张首饰的照片说明 tRNA 的形状,在上面的动图里这个形状的tRNA 主要作用就是把货运过来到工厂。
tRNA( 转运RNA )可以比喻为一个高效的快递小车,它在细胞内运送特定的货物( 氨基酸 )到核糖体( 蛋白质工厂 )。这个快递小车的车厢是由一串 RNA 链构成的,每个链上携带着特定的货物( 氨基酸 ),就像一个货架上摆满了不同种类的商品。
当细胞需要制造蛋白质时,tRNA 被指导到特定的核糖置,这就像快递小车准确地驶入目的地一样。核糖体根据 tRNA 上携带的货物(氨基酸)来组装蛋白质,就像工厂根据进货回来的车,来生产产品一样。
为了使我们的 蛋白质打印机 能够工作,我们必须仔细追踪核糖体在 “环状RNA” 上的位置。核糖体应该移动到特定的密码子位置,然后通过某种信号,可能是分子或光,会发出信号:“嘿,在这个位置上添加一个氨基酸!”如果核糖体从我们设计的“环状RNA掉落并且我们失去了它的位置,所有这些都将无法实现。
在细胞内的正常情况下,核糖体会抓住短的 RNA 序列,称为核糖体结合位点( ribosome binding sites ),以开始翻译。我们将在“ 环状RNA ” 中放置一个这样的结合位点,紧挨着一个 AUG 启动密码子。核糖体会抓住这个序列,移动到启动密码子的位置,然后会停在那里,直到我们在它的周围添加 tRNA。
现在,我们有了一个在 RNA 环( RNA loop )上停留在起始密码子位置的核糖体。
那么,在它沿着环移动的过程中,如何确保它只在我们指定的密码子( codons we specify )位置添加氨基酸呢?
这可能通过一个 “蛋白质防盗门” ( protein gate ) 来实现,该门会物理上阻止 tRNA 进入核糖体大亚基。这个 “蛋白质防盗门” 可以通过使用光点击 “打开” 或 “关闭” 按钮( clicked ‘on’ or ‘off’ using light )。这听起来有点像科幻小说里的场景,但过去已经制造出了类似的“对光敏感的蛋白质” 开关( light-sensitive protein switches )。
现在,对于我们蛋白质合成机器( protein-making machine )的最后部分,我们需要找到一种方法让核糖体从一个密码子 “跳跃” (hop)或 “滑动” (slide)到下一个密码子。这可不是易如反掌的小事儿。
核糖体经过如此精心设计和自然进化以后,只能在三个密码子单位内移动,不会出错。斯坦福大学的迈克尔·朱埃特实验室( Michael Jewett’s laboratory )的生物工程师杰西卡·威利( Jessica Willi )说道,你可能需要重新构建整个核糖体小亚基才能实现这一点。
(咽了口口水)好吧,尽管如此,我们认为还有几种方法可以实现这个工程目标。
我们的第一个想法是将核糖体与一种燃烧化学物质当作燃料,进行物理工作的蛋白质马达( a protein motor that burns chemicals to do physical work )融合在一起。有几种 DEAD-box 蛋白质与 RNA 结合,也许它们可以与核糖体融合在一起,从而将核糖体沿 RNA 环推动。
另一个方案,是利用核糖体的 “滑动” 机制( hijack ribosome “sliding” )。在自然界中,核糖体有时会卡在 RNA 上,它们必须跳过某些密码子。德国马克斯·普朗克学会( Max Planck Institute )的一项优秀研究显示,这些核糖体会在 RNA 链上 “ 跌跌撞撞 ” —— 在这个过程中而不是向蛋白质中添加氨基酸 —— 直到落在特定的 RNA 序列上,才恢复翻译机制。
滑动(sliding) 是从 RNA 中的 “环” 开始的,它将核糖体推入超旋转状态( hyper-rotated state )。然后称为 EF-G 的蛋白质 “发射” 并消耗能量( “fires” and burns energy )将核糖体推动前进。也许我们可以通过使用光( 与蛋白质门不同的波长 )或其他信号来人为地超旋转核糖体,“诱使” 核糖体进入这种“滑行”状态( coax the ribosome into this “gliding” state )。
在 RNA 环中的每个密码子旁边会放置一个终止核糖体滑行的序列,或者被一个发夹结构( a hairpin structure )包围,从物理上阻止核糖体继续移动。
当核糖体停在每个密码子处时,蓝色光信号会触发它添加一个氨基酸,而红色光信号会将核糖体推动到下一个密码子处,而不添加氨基酸。
上图:一个蛋白质打印机可能如何工作的示意图。使用两种不同波长的光作为信号来移动核糖体,并移除阻止新的氨基酸进入的 “蛋白质门”。
范阳注:这里是不是让你联想到生物领域的芯片设计和 “ 光刻机原理 ” ?
当然,这些方案选项都不是完美的。我们面对的是亿万年的进化去做抗争。“ 核糖体小亚基非常敏感;它就像刹车踏板,用于阻止核糖体滑动( stop the ribosome from slipping )”,Broad Institute 的核糖体工程师 Alan Costello 说,“ 因此我们必须减弱小亚基对 RNA 的紧密控制 ”。
这个蛋白质打印机对错误的容忍度也很低。一个典型的核糖体在每一万个氨基酸中才可能会出现一次错误复印机。
近年来,在核糖体工程方面取得了很多进展,但我们可能还需要一些年的时间来设计这样一个复杂的分子机器( molecular machine ),使其达到与自然水平相匹配的精度。
但是,幸运的是,它不必一开始就完美运行。随着时间的推移,方法会逐渐改进( 只需看看聚合酶链反应 PCR 的发展历程,一开始也并不完美 )。这个蛋白质打印机( protein printer )可以通过诱导其制造仅含有几个氨基酸的小蛋白来进行初步测试。有一种只有 12 个氨基酸的微小蛋白可以发出荧光信号( 文章正在准备发表中 )。这意味着我们可以制造许多蛋白质机器的变种,将每一个放入不同的试管中,编程让它们制造这种微小蛋白,然后观察哪些试管发出最强的荧光信号。
上图:经过工程改造的核糖体沿着 RNA 环移动,并在接收到脉冲光信号时结合氨基酸。这个示意图展示了蓝光信号让核糖体添加氨基酸,而红光信号则让它移动到环中的下一个密码子位置。
这篇文章是思辨推测性的。然而,首先通过思考问题的理论性解决方案,我们常常更深入地思考问题的本质( the nature of the problem )。
第一个问题很可能在不久的将来得到完善,通过一些高级的人工智能模型来生成全新的蛋白质。这篇文章涉及了第二个问题,但没有涉及第三个。只有当第二个和第三个问题得到解决时,蛋白质设计才能充分发挥其潜力。
Julian Englert( 本文的共同作者 )共同创办的蛋白质生物科技公司 Adaptyv Bio 正在努力解决第三部分的问题。他们正在建立一个生物工坊( a foundry ),在这里,科学家们可以通过 API 提交蛋白质设计,并将其在自动化的 “工作细胞” 集成硬件( automated workcells )上进行测试。通过将蛋白质合成和表征迷你化( miniaturizing protein synthesis and characterization ),并从过程中去除(科学家的)手动实验步骤,他们的目标是降低蛋白质工程化的成本,并帮助更多人进行蛋白质设计。
然而,测试更多蛋白质的主要障碍是 DNA 的成本。所以让我们来看看我们的方法与其他方法相比怎么样。
每添加一个氨基酸到蛋白质中,活的细胞需要消耗2个 ATP( 腺嘌呤核苷三磷酸 ) 和2个 GTP ( 三磷酸鸟苷 )。每毫克 GTP 的成本约为 1 美元,每克 ATP 的成本也约为 1 美元( 可忽略不计 )。而氨基酸的成本约为 1 美分。
假设我们的设备需要 1000 个分子的 GTP 和 ATP 来制造一个普通的蛋白质。那么理论上,我们可以用 1000 美元制造 1 × 10^18 个蛋白质。即使你制造每种蛋白质的 100 万份拷贝,也可以用相同的金额制造两万亿种不同的蛋白质。
如果蛋白质打印机可以通过光信号控制,那么它的用途将变得更加深远。在未来,我们也许能够在计算机上设计一种蛋白质,使用 Python 脚本将其氨基酸序列转换为一系列闪烁的光,并使用这些光来实时移动核糖体制造蛋白质。
范阳注:我想向专业的研究者提一个问题,这种光信号源理论上是否也可以通过磁场控制荧光蛋白来实现?
我最近读到的一篇谷歌 Calico 团队的新文章通过磁场可以控制生物荧光蛋白 GFP:
学生甚至可以使用连接到 Arduino 板的 LED 来控制小管中的蛋白质合成。或者,一个 64 x 64 的 LED 矩阵,成本约为 50 美元,可以同时在 4096 个小孔中编程蛋白质合成。光基制造( light-based manufacturing )是一个已经建立起来的领域,更复杂的技术已经用于制造计算机芯片和 3D 打印零件。
上图:微型蛋白质合成器( miniaturized protein synthesizer )的示意图。LED 用于控制微孔内的核糖体机器,一次性制造成千上万种蛋白质。某些类型的 DNA 测序仪已经在网格上使用固定的蛋白质。
但是谁会为这样的技术提供资金做研发?也许 Speculative Technologies 或 Schmidt Futures 这样的新型科研机构拥有足够的资金和愿景。或者,也许你正在阅读这篇文章,知道如何让这一切成为现实 —— 一个解决方案在你的脑海中浮现出来 —— 你对着手解决这个问题感到兴奋。我们希望这是真的,因为这将证实思辨推测性写作( speculative writing )仍然能推动进步发生。
我的问题关于如何重新设置设备,使所有核糖体回到 AUG 处开始一个新的周期,也许可以使用第三个波长来触发从起始密码子处的运动( 也许第四个波长用于终止密码子... )。这样,当合成蛋白质的过程完成后,你可以使用标准波长多次将所有核糖体向前滑动,例如滑动 100 次;这样,所有核糖体都应该滑动直到到达起始密码子处,而没有特殊波长的作用它们将无法离开起始密码子。现在你的设备应该已经准备好开始合成一个新的蛋白质了 :) ”
“ 嗨,洛伦佐。真是个很好的观点。谢谢你评论。每个蛋白质的制造最后一步基本上是将核糖体移动到终止密码子来触发翻译的结束。也许可以将终止密码子放在起始密码子之前,这样核糖体就可以重新启动。但必须得提醒,让核糖体在第二个周期上停在起始密码子可能并不像听起来那么简单。”
“ 非常有创意!第五次工业革命正在迅速加速中。祝愿你们这些充满想象力的天才们一切顺利。”
“想象一下,设置一个高分辨率的显示屏,平放在实验室中。边缘涂上防水密封剂。表面覆盖着一层薄薄的经过基因工程改造的细菌,用于生产这些蛋白质打印机。每个像素以每秒 6 个氨基酸的速度 “闪烁出” 自己的蛋白质( 60赫兹,20个氨基酸等等,平均每次写入前进行10次移动 )。”