药企花十几年围绕着一个靶点研发出一款药,尽管面世后救人无数,但面对下一个靶点依然要从头做起。为什么几十年过去了,新药研发仍然如此低效?这曾经是传统新药研发行业大家普遍的观感。
另一方面,人们注意到AI不仅能识别内容,还能够创造内容,AIGC(AI Generate Content,利用人工智能技术来生成内容)行业近几年的蓬勃发展已经带来太多惊喜,那么,AI能否运用到承担着人类健康使命的新药研发行业中去?
图:药物研发的Eroom’s Law,即制药公司正花费越来越多的钱开发更少的药物。(来源:research gate)
这两个问题汇集到一起,就能够清晰地看到“生物计算”(Bio-Computing)的价值:通过生物计算引擎,药物研发者能够利用大量的生物数据,将人类细胞常见的7000个目标蛋白所对应的蛋白质药物弹头都挖掘出来,并且针对每一个弹头做出上千种药物干预的方案,而这意味着药物研发这件曾经如大海捞针的事情有望变成“按图索骥”——毫无疑问,这将为行业带来极大的冲击。
药物研发的新探索
几十年来,药物研发行业的发展趋势可以以“精准化”几个字概括。最早的化疗药物进入人体,由于识别能力有限,形成“杀敌一千、自损八百”的效应,于是专家们研发出更加精细化的小分子药物,针对某一类的蛋白具有结合能力,形成更精准的治疗效果。再之后,靶向药物的面世,使得一款药物能够精准地去靶向具体的某一个蛋白。
而新一代的精准药物,不仅能够在遇到一个靶点蛋白的时候才会引起触发,还能够识别出在这个靶点蛋白所处的微环境里是否有对应的、合适的酶。这类药物甚至能够精准到,在含有A、B、C 三个目标蛋白的时候才需要发挥作用,而只有某一个目标蛋白的情况下则不会发生触发。
不过,如今的药物研发行业出现了更新的进展。
以往的药物发现大多以真实物理世界筛选为主,以动物实验作为验证主体。例如中国古人“神农尝百草”,古代苏美尔人通过吃柳树的树皮来获取其中的阿司匹林,再例如科学家从治愈的病人血液中去试图发现疾病治愈的相关元素,通过给小白鼠去打上具有目标靶点的蛋白,去筛选能够治疗疾病的药物构成。
而新药研发行业的专家们正在探索的生物计算,则更像是将蛋白质构成视作一个巨大的模型,去探索人类进化过程中,蛋白质组合的各种可能性。这种通过理性设计,而非仅仅依赖于对自然界观测的研发手段,再经由高通量的验证实验去判断它针对目标的效果之后,便带来了更精细的新药发现范式。
不过,生物计算至今仍然是一个刚刚兴起的领域。在这条赛道上探索的科学家试图将原有手段发现的靶点,依靠生物计算重新做一轮预测。而他们衡量成功与否的指标是“亲和力”,即通过生物计算所设计的药物蛋白与目标蛋白之间的亲和程度是否足够高,或者至少高于原有手段。目前他们的结论是,生物计算可以在人类已经充分研究过的靶点上将亲和力提高了1- 2个数量级。
而经过数据计算,生物计算所设计的蛋白质亲和力还有极大的提升空间。对科学家来说,即使能够做到更高的亲和力,药物本身也会避免与目标蛋白过于紧密,因为过于紧密容易引发更多的副作用。通过生物技术,药物的亲和力可以被调整为中等量级,而这种调节能力,将直接让这些药物更安全、更有效。
归根结底,生物计算能够提高药物研发的特异性。一家药企在设计出一款药物之后,就需要走完从筛选到临床再到药物上世的全过程,但当他们发现了下一个未被人类征服的靶点时,此前的研发经验却用处不大。没有任何一家药企能够去“穷举”人体内的蛋白结合,这使得整个行业的关键进展缓慢,每款药物都需要十几年甚至二十年的研发周期。
但是,生物计算的神奇之处恰恰在于,任何一个蛋白都可以被计算出来,也都可以控制其与靶点的结合。
或许我们可以将生物计算与近期火爆的Chat GPT相类比。它们的发展同样依赖于AI,后者经历了从GPT-1到GPT-4的一轮轮研发,才达到今日令人惊艳的水准。而生物计算也将经历对不同靶点结合效果的一轮轮试验。前路漫长,但这项探索意义重大,一旦解决了目前所有的研发问题,新药研发者便堪称进入了研发的“自由王国”,他们将在更短的时间内,借用更灵活的手段去研发更有效的药物。
(图片来源:百图生科实验室真实拍摄)
生物计算能带来什么临床效果?
进入药物研发的“自由王国”,对药企来说,曾经是一个可望而不可及的梦。这些企业往往花十几年时间围绕着一个靶点来研发一款药物,药品上市后皆大欢喜,但同时也可能发现,其他药企使用类似的技术路径,研发了同一个靶点上的药物。这种行业格局使得大家同样都需要在研发的苦行僧之路上长期前行,再以零积累的状态,将目标迁移到另一个靶点上。药物研发只能够针对单个靶点,这是整个行业低效的源头问题。
而生物计算所带来的最大价值是,科学界可以将人类的细胞常见的7000个目标蛋白模拟出来,并做好相关的弹头,并针对每一个弹头做出 100 种甚至1000 种选择。由于研发者全程相当于在虚拟空间内进行设计,因此100 种或1000 种药物构成的研究与抉择,并不会耗费更多资源。
致力于生物计算的百图生科(BioMap)CEO刘维提到,生物计算将创造出创新药物研发的平台型机会,就像随着汽车的复杂度提高,必然会进化出几家变速箱厂商,随着飞机的普及,也会有专业的发动机厂商诞生一样,药物研发行业完全有理由出现几家关键部件的平台级公司。
那么,对于整个行业来说,生物计算将带来怎样的临床收益,它又将如何落地?
首先,它将使药物本身的功能更加精准。药物研发的“老办法”是基于生物筛选,大多数针对单一靶点或者简单地将几个靶点拼到一起,在病人体内碰到 A 靶点可以发挥作用,碰到B 靶点也可以发挥作用,但也因此无法提高安全性,更难以降低副作用。由于安全性有限,药物的浓度也不会太高,药效因此无法保证。
而更加精准与更高的亲和力恰恰是生物计算所追求的目标。此外,在针对靶点的精细化研究之后,便是每一个“弹头”触发机制的改变,人体的细胞拥有自己的运作规律,新一代药物可以做到在针对A靶点激活后间隔5毫秒,再在B靶点释放。
这带来的直接临床收益是,药物的安全性大大提高,而安全性也恰恰是当今药物研发的最大桎梏之一;此外,药物的有效性与长期效果提高,降低患者耐药性。
第三便是药物的适用范围,人们可以去预期能解决的疾病领域,例如此前很多实体瘤难以治疗,就是因为药物没有足够浓度,穿透力不足以形成治愈,而生物计算能够大幅度提高药物的实用性。
实际上,人类对疾病的机理已经形成了很多有效的初步判断。例如大量疾病,包括肿瘤、衰老、感染都与免疫系统有关,根本在于免疫细胞被过度激活或者没有被激活。
因此,怎样激活免疫细胞的蛋白,怎样在细胞表面或者细胞里找到合适的蛋白,像“推开关”一样激活一些蛋白,抑制另一些蛋白,便是治疗的根本。而以往的研发方式无法设计出精准控制这些蛋白的药物。换句话说,药物研发这门科学,受制于传统的动物发现原理,但今天这一切似乎有望改善。
生物计算的临界点,会在哪?
百图生科将其为生命科学问题提供解决方案的AI平台命名为AIGP(AI Generatived Protein),而这与AIGC(AI Generate Content,利用人工智能技术来生成内容)确实有些异曲同工之妙。刘维概括,如果说AIGC所使用的语言是人类的自然语言,那么Protein 更像是造物主的生命语言。自然语言是由字词章句组成的,AIGP所研究的则是蛋白质里的氨基酸序列,包括蛋白质之间的互相作用。只不过AIGP与AIGC的研发进展不太一样,前者目前还停留在类似于GPT-1的阶段。
那么,生物计算的临界点,或者关键条件会在哪里?
图: AIGP3大功能模块+12项核心能力示意图。来源:百图生科
与AIGC相似,AIGP所发展的首要基础是数据。如果数据足够多,科学家甚至不需要建立大模型就能获取到想要的答案,但如果数据太少,大模型则没有用武之地,无法蒸馏出能对新药研发有所指导意义的东西。
单细胞组学的进展是生物计算领域科学家的研发动机之一,单细胞CRISPR的细胞扰动以及对扰动的观测等一系列技术在过去的5年内快速走向成熟,使得每一个细胞的基因组和转录组都可以被翻译为这个细胞内的蛋白表达。
因此,每一个细胞能够被解读的数据是原来的几千万倍,而且这些数据都可以被映射到蛋白之中。在此之前,诸如蛋白是如何在一个细胞内被组合的,细胞之间蛋白质是如何互相作用的,这些大量的信息都像是在黑盒子里,无法被任务模型分析出来。
除了数据的快速增长之外,另一个推动行业进入临界点的关键点是大模型的框架,即通过大模型来表征蛋白质相关的信息。对AIGC来说,自然语言的大模型也是靠人类的字词章句组成,同时完成文字、图片、视频等跨模态描述。而到了AIGP这里,把氨基酸、蛋白、细胞、免疫系统等打通成一套表征的体系之后,人类便可以通过蛋白质的“开关”来调控细胞的功能。
第三个关键条件便是算力的快速发展,生物计算这个领域的大模型对算力有一些独特的要求,这些大模型往往会和物理模型有更多的融合,如今算力的需求也正在与大模型进行融合。
第四个条件,是在生物领域非常重要的高通量验证体系的成熟。GPT-1模型就已经解决了自然语言识别的关键问题,即依靠互联网形成的信息快速闭环就能够形成一套验证与反馈体系。然而,生物计算需要有一套自己的验证体系,而这个体系的建立并不容易。以百图生科为例,经过计算而发现的蛋白应当如何被“读”“写”出来?人们无法利用公开数据做验证,因为预测或设计出的往往都是全新蛋白。能否找CRO来辅助模拟呢?由于CRO的主要业务是面向当前主流的蛋白去做优化,因此这些厂商对新发现的蛋白普遍并不感冒。
从AI大模型的角度来讲,无论是Positive结果的数据还是Negative结果的数据,甚至多维数据,一切数据皆有意义。因此,百图生科的实验室整合了目前CRISPR的技术与高速蛋白表达的技术,形成一个能高速闭环验证的系统来验证对蛋白的预测。一旦百图生科获得高价值的药物研发项目,这套闭环就将支持它探索新的蛋白结构。
图:百图生科的大模型xTrimo如何实现闭环迭代。来源:百图生科
平台研发者该如何构建模式?
在生物计算这条崭新的路上探索,仅有技术积淀似乎不够。对于以百图生科为代表的平台研发者,如何构建自己的模式,才能最快地让这件事落地并持续发展?
百图生科将自己定位为AIGP平台驱动的co-development合作模式,一方面研发平台,另一方面也会做一些较为前沿的药物管线,进行直接的药物开发。
涉及到具体的药物研发,往往需要厂商拥有全链条的能力,因此百图生科目前近300名员工中,很大一部分比例的人才储备都涉及到具体的药物研发,而且一些自研药物已经进入临床前的后期。不过,百图生科更多地会将新药推进到IND(Investigational New Drug )状态,即获得临床批件或更早的阶段,暂时不会在后面的临床阶段去做更大的投入。
实际上,百图生科的优势是发现创新的分子。因此更希望能够获得大型药企的青睐,将创新成果及时地转让出去。例如一些大型药企在免疫细胞的调控能力方面很强,在过往的靶点上也拥有成功上市的药物,如果与百图生科进行合作,就免去了重复研发,可以获得双赢效果。传统CRO服务企业的项目收益较低,而通过百图生科的co-development模式,更倾向于让合作伙伴通过创新与深度介入项目,获得每个项目少则 1 亿美金,多则 10 亿美金甚至更多的收益。
基于生物计算平台,自研药物+共同开发,这两方面业务构成了百图生科的主要模式。为了支撑这样的创新模式,百图生科也在开拓各类技术合作,例如近期与穆罕默德·本·扎耶德人工智能大学MBZUAI宣布建立联合实验室,其中的重要课题便是在中东联合去做与石油产量、环保有关的酶的联合设计和优化。酶是一类关键的蛋白质,因此这类研究将充分受益于百图生科的生物计算大模型上。
在生物计算领域,合作甚至是全球性合作是大势所趋。由于全球科学家与医学工作者的目标都是击退疾病与病毒,每个人肩上的使命与责任相同,因此生物医药是一个最不能形成“零和游戏”的领域。纵观全球,美国市场由于拥有较多大药厂,底层开发技术进展较快,临床资源也比较丰富;欧洲拥有很多优秀的药企,在疾病科学领域有非常深度的研究和长时间的积累,唯一的不足在于欧洲本土转化的市场不够大。
图:百图生科与MBZUAI共建的中东地区首个生物计算创新研究实验室。来源:MBZUAI 校网
在亚洲,中国与日本均有较高的研发水平,百图生科在中国苏州拥有的大型高通量实验室是世界上现在最大的生物计算行业的蛋白质生产实施。背靠各家高校,中国的生物计算前沿能力不容小视;同时,中东的医药行业也在快速崛起中,百图生科与MBZUAI共建的中东地区首个生物计算创新研究实验室,也致力于吸引全球的AI 人才加入,而这些人才的主要方向便与AIGP紧密相关。
扎根于中国的百图生科也在国内进行更多合作。例如,百图生科正在与2022未来科学大奖生命科学奖得主李文辉共同探索一个由华人科学家里找到的、目前公认最有前景的靶点。这个靶点本身极为复杂,而且在人体内有很重要的功能,因此无法被简单地阻断。李文辉所带来了对于靶点生物学机理的深度理解,百图生科也正在用独特的研发平台去探索针对这个靶点的解决方案。此外,百图生科也在积极帮助以渐冻症抗争者、前京东副总裁蔡磊为代表的渐冻症患者在相关的靶点上寻找解决方案。
本文为创业邦原创,未经授权不得转载,否则创业邦将保留向其追究法律责任的权利。如需转载或有任何疑问,请联系editor@cyzone.cn。