从百度的文心一言开始,到科大讯飞发布的星火大模型,最近两个月,中国企业陆续发布的大模型已经超过了10个。
互联网有记忆,这种阵仗,人们在之前的元宇宙看过,在更之前的“社区团购”见过,在更古早的“百团大战”(互联网企业入局团购)也见过。
它们都有一个共通点,企业们一拥而上,然后疯狂烧钱。
但这次与过去相比也有很大不同——仔细看那些入局企业的手上脚上,都带着一副名为“算力”的镣铐。
“带着镣铐跳舞”
算力、算法和数据是人工智能时代重要的基础设施和战略资源。
在大模型的混战中,各厂的大语言模型最终能不能跑起来,算力是关键。
进一步解析,对算力需求又主要分为两部分:训练算力和推理算力。而目前来说,对训练算力需求非常高。
由于主流市场上,多采用英伟达的A100和H100作为训练算力的相关设备,因此当下有一个朴素的指标来衡量算力的大小——英伟达A100芯片的张数。
比如,周鸿祎曾在接受媒体采访时认真指出,国内企业想训练出一个接近GPT3水平的大模型,要最少准备几千片英伟达的A100芯片。
而根据OpenAI关于ChatGPT的公开数据显示,它的整个训练算力消耗,理想情况下总共需要大概6000张英伟达的A100芯片,在考虑互联损失的情况下,需要一万张A100作为算力基础。
2022年3月,英伟达推出最顶级的GPU芯片H100,在官网的参数介绍中,它特别提到,该芯片可以提升训练大模型的速度超过30倍。
面对“后辈”,A100仅在频率和带宽上稍微弱于H100,依然是大模型训练的主力芯片。
有心的网友在eBay上搜索,发现目前共有5家店铺挂牌销售英伟达最新发布的H100芯片,售价普遍达到4.5万美元左右,其中标价最高的一枚超过5万美元,对比一周前发布时它的官方价格,已上涨超过12000美元。
涨价原因不言而喻,全球范围内众多巨头和创业者,纷纷加入到大语言模型的研发和训练中,导致市场对它们的需求量不断攀升,价格也因此水涨船高。
但当这股热潮刮到中国,中国的企业面临着一个更严峻的问题。
早在去年8月,美国发布政策,禁止英伟达将A100、H100两款AI芯片售往中国。
为了绕过封锁,英伟达对这两块芯片进行了降频和封锁部分传输通路的处理,最终两款阉割版的H800和A800芯片被单独出口到中国。
与常规H100 PCIe 型号的600GB/s带宽相比,H800的双向芯片到芯片互连带宽速度仅为300GB/s;A800的芯片间互连带宽从A100型号的600GB/s 降至400GB/s。
这意味着,这两款芯片的功力只有原版的六成左右,相当于是原版的平替。
大语言模型训练好比训练孩子读书,带宽的降速相当于教学进度落后于人,累积下来,最后差的就不止一星半点。
一位硅谷创业者告诉小巴,“国内企业使用综合性能只有6—7成的简配版芯片来部署大模型,意味着需要为相应的模型,配备超过20%—30%的芯片和服务器,才能达到美国企业水平。”
要命的是,受限于产能,如今阉割版的芯片也很快进入到了有价无市的状态,国内经销商已经敢喊出9万元的天价,接近A100刚上市时在国内销售的价格。
巧妇难为无米之炊,中国大模型们在基建上的先天不足,使得他们在这场全球的大模型乱斗中,只能“带着镣铐跳舞”。
从这个角度上说,如今国内企业在发布大模型之后,就敢公开提供公众测试的平台,说明他们的投入还算到位,而那些用PPT发布模型后无法测试,哪怕开放测试申请却迟迟得不到通过的大模型,可能在保证自家大模型运转的核心资源投入上存在重大问题。
抓住老鼠就是好猫
但企业们也并非没有应对之策。
一方面,资金雄厚的企业开始疯抢市场上能买到的A100、H100原版芯片,买不到就开始抢A800和H800的低配版芯片。
另一方面,就是抓紧用国产替代来弥补。
2022年,国产芯片公司壁仞科技发布的BR100芯片,已经被普遍认为能够在算力和能效比上达到全球领先水准,而百度、阿里,华为,都已经在自己的大模型基础层,部署了自己研发的GPU或者AI芯片。
百度的昆仑芯片,已经有英伟达A100超过8成的能力;阿里的含光800专用AI芯片,2019年就已经出世,而且在阿里自身架构基础上,这颗芯片能超过英伟达同期GPU芯片4颗并行的水平;而华为AI芯片昇腾910已经做到接近A100水平,下半年要发布的920业内普遍预计会超过A100。
关键,这些大平台的芯片都是跟自己的系统和技术深度捆绑,可以发挥出100%的性能,是最适合他们建设大模型的基础。
还有一个求生通道,就是把精力都投入到对大模型技术优化和参数优化的过程中。
说得专业点,就是加速大模型对于知识的收集和数据的处理,说得通俗点,就是想办法让自己的“大模型”学得更快。
李彦宏曾在“文心一言”发布会上表示:百度是用国外企业1/4—1/5的训练量,完成了跟国外企业水平差不多的大模型培养。
例如,为了支持千亿参数模型的高效分布式训练,百度专门研发了4D混合并行技术,利用软硬件的协调大大提升了大模型学习的效率,而为了加快大模型的学习,降低使用和培训的成本,百度专门针对大模型数据开发了知识增强、检索增强和对话增强的技术。
与此同时,阿里、华为、科大讯飞等开发方,都在想办法对训练工具和数据进行优化,力图用远少于国外大模型的训练量,推动自身大模型快速接近乃至超过国外顶尖水平。
TO B为王
5月10日,在一年一度的谷歌年度开发者大会Google I/O 2023上,谷歌首席执行官桑达尔・皮查伊信心满满地为所有到场观众端出了一个丰盛大餐,那就是自己对标GPT-4的大模型PaLM 2。
在OpenAI的ChatGPT一炮而红前,业内都认为谷歌是最有希望在大模型上做出突破的科技企业,毕竟2017年由谷歌提出的transformer架构,是绝大多数现代大语言模型的基石。
但谷歌这次推出大模型也给人一种着急上马的感觉,许多功能还在实验室阶段就已经开了发布会。
分析原因,除了要一雪在大模型领域“起了个大早,赶了个晚集”的“前耻”,更深层次的原因或许在于,由于近期ChatGPT已经开始第二批应用接入,对谷歌引以为傲的互联网广告收入带来直接威胁,这是一个每年2000多亿美元的大蛋糕,谷歌要“护食”,也在情理之中。
这同样也暴露了当下大模型普遍面临的另一个困境——单靠技术使用服务费或会员费,无法弥补每年需要投入的庞大成本,因而只能在流量变现上下功夫。
除此之外,全球大模型的开发方还有一个共识,大模型真正有效的商业模式,应该从B端市场切入,通过建立专业大模型帮助企业完成发展,从而稳定获得收入。
这里,就有中国企业的大机会。
众所周知,大模型的成长和训练需要大量数据的支持。目前不论是ChatGPT还是谷歌的Bard,他们都是在通用大模型领域取得了领先优势,其背后都是通过搜索引擎带来的庞大数据进行训练的,细分到具体行业,相应的数据量和数据活跃度,并没有达到用户真正的需求。
这意味着在很多行业,通用大模型其实专业度不够,无法立马在行业实现应用。
中国由于特殊国情,在各个行业都拥有着广超美国乃至世界其他国家的数据积累,而且这些数据天然具备跟海外大模型隔离的环境。
这就是为什么华为干脆没有推出通用大模型,而是直接发布七个行业大模型的原因。
同样看到这样机会的不仅仅是华为,从百度到阿里抑或是刚刚推出星火大模型的科大讯飞,这些中国厂商都无一例外紧锣密鼓地展开了对行业数据的争夺和行业客户的开发。
相关消息显示,百度已经在跟长安汽车合作,推动文心大模型在汽车生产领域、自动驾驶领域的落地。虽然详细内容由于各家大模型公司都在等待合规办法的落地而不能透露,但依照知情人士透露,我们对这件事可以抱有一个正向预期。
再比如百度智能云与百图生科联合构建了异构生物超算平台,训练了一个千亿规模的生物医药大模型,不仅承载了百图生科创新免疫调控药物ImmuBot的研发,也驱动了生物医药公司利用这个大模型直接实现蛋白设计。
还有阿里云与中石油旗下的昆仑数智共同推动大模型在石油领域的应用,相关行业模型的训练接近完成,后续的服务准备在一个月内陆续推出。
目前相应的B端探索中国企业远远走在了前面,而由于这些行业的数据封闭性和规模的体现,让这些企业搭建的大模型能在投入较少的资金和成本的基础上,实现一个最大化的成果。
讲了多年的“数实融合才是经济发展的真正基石”,这句话,放到当下大模型异常火爆的现实中,依然具备指导意义。
OpenAI创始人曾这样形容ChatGPT的出现:他并不清楚ChatGPT3.5是如何实现跨越的……那像是一个美丽的误会,而他们能做的就是不断为这样的大模型培养提供资源,软件硬件都算。
这个“不断”背后的数字,是不到三年内,OpenAI烧光了180亿美元,ChatGPT3.5每次训练的成本高达1200万美元,而ChatGPT4的训练成本更是高达5000万美元以上。
其实就是一个科技版“大力出奇迹”的故事,而历史经验和企业们各自的举措似乎在暗示我们,中国企业总是能在“巧力”上创造意想不到的奇迹,至于这股巧力能否在这一次走得通,是未来留给我们的新悬念。
本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。