办公室编辑Fia,在收到文心一言内测邀请的第一时间,就开始了试用,Fia选择了一个国人特有的含蓄表达对话发出了询问,【李雷对韩梅梅说:“我对你有意思”韩梅梅回复道:“你这样就没意思了”请问李雷和韩梅梅各是什么意思?】
文心一言不仅正确解释了这组对话中双方话语表达的意思,还从不同的角度对“有意思”“没意思”做出了解释。
过去一段时间,美国创业公司OpenAI发布的生成式AI产品ChatGPT席卷全球,引发一场“AI狂欢”,并迅速掀起一轮AI“军备”竞赛。
一时之间,资本圈、产业界、创业者趋之若鹜,试图抓住技术红利,引领下一个时代。
在赶超ChatGPT的巨大产业机遇下,国内大小企业打响了追平基础大模型差距的“攻坚战”。
早在2月初,百度对外证实正在打造生成式AI产品文心一言(英文名ERNIE Bot),位于模型层,在做上线前的冲刺准备工作。
而除百度外,还有快手、京东、360、商汤、美图等均趁势宣布正积极发展AI聊天机器人,或在AIGC有所布局。
不过,最终百度快人一步。
3月16日下午,百度于北京总部召开新闻发布会,主题围绕新一代大语言模型、生成式AI产品文心一言。百度创始人、董事长兼首席执行官李彦宏、百度首席技术官王海峰出席,围绕文心一言进行介绍。从现场演示来看,文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成等方面有突出能力。
消息一出就引起了业界人士的广泛关注,这也意味着百度成为全球第一个做出大语言模型和生成式AI的科技大厂。
有媒体评价称,中国的百度已将自己投入到全球商业化竞赛中,这场关于生成式AI这样的下一代人工智能技术将会给互联网带来重大变革。
值得注意的是,百度本次“快人一步”的动作耐人寻味,而看似简单的一步其实是快人很多步,背后是他们不断的努力和准备,始终保持谦卑的心态以及从容不迫应对冷眼的勇气。
“人有我有”的底气
文心一言由最新大语言模型(LLM)提供支持,是百度的生成式AI产品。虽然今年百度才对外宣布开发文心一言,但这对于百度来说并不是从零开始,更不是突击了一两个月做出来的。
百度投入AI已经10余年,在人工智能刚开始被大家讨论的时候,百度就已经在该领域开始默默耕耘。
2014年百度涉足智能驾驶领域,2015年上线世界首个大规模神经网络机器翻译系统,比Google早了一年多。2016年百度正式发布“百度大脑”并开源中国第一个深度学习框架飞桨。飞桨的出现打破了Google和Facebook的垄断,现已跻身全球前二。
做AI讲究“软硬兼具”,百度“软”有飞桨,“硬”有昆仑。2018年百度自主设计、2019年流片成功、2020年实现量产、2021年升级的百度昆仑AI芯片已经得到大规模应用。此外,百度还研发出鸿鹄语音芯片,打破了卡脖子问题,使中国公司不再完全依靠外来输入。
从算力、算法到数据,从高端芯片昆仑芯,到飞桨深度学习框架,再到文心大模型,百度在各个层面都早有关键自研技术,给文心一言提供了强大的技术支持。
而百度的文心大模型和OpenAI的GPT模型类似,早在2019年就已推出,且经过了多次的迭代,从刚开始单一的自然语言理解延伸到目前的多模态,包括视觉、文档、文图、语音等多模态多功能,因此“文心一言”所基于的ERNIE系列模型也已经具备较强泛化能力和性能。
诚如人生没有捷径,该走的路,一步都不能少。在这方面,百度从来没有松懈,其“人有我有”的底气来自于日常大量的业务累积。文心一言的官宣,恰恰是百度长期在AI技术与大模型领域投入的体现。
IDC发布《中国深度学习框架和平台市场份额,2022H2》报告显示,百度居中国深度学习平台市场综合份额第一。
数据显示,过去10年,百度研发投入超1000亿元。2022 年百度核心研发费用 214.16 亿元,占百度核心收入比例达到 22.4%。如此高的研发投入,在大厂中凤毛麟角。
压强式、马拉松式的研发投入让百度储备了先发优势,面对大模型惊人的算力需求也能做到游刃有余。
这些储备也让正式亮相的文心一言惊艳满满。
例如,在文学创作能力上,基于搜索业务积累,百度有世界上最大的知识图谱,一直致力于给用户提供唯一答案。这一切让文心一言回答准确性及生成结果的可信度得到提升。
在商业文案写作能力上,文心一言能够做到起名字、写新闻稿、写标语等等。人们俗称“读万卷书”,AI则是“读书破千亿卷”。文心一言大模型的训练数据包括万亿级网页数据,数十亿搜索数据和图片数据,百亿级语音日均调用数据,及5500亿事实的知识图谱。因此百度在中文语言的处理上,处于独一无二的位置。而有研究表明,数据规模大,参数达到千亿级,大模型就可能发生“智能涌现”,涌现出知识和逻辑推理能力。
在数理逻辑推算能力上,文心一言展现了良好的思维链和复杂推理能力,在掌握了一些标准的解题思路后,能够把问题拆分为子问题,一步步推理,这样就更可能给出正确的答案。
可以说,在短期利益和长期价值取舍上,百度明显倾向于后者。而这需要数十年如一日的定力,也要有真金白银的投入,显然百度做到了。
这种保持定力后的技术实力,才是李彦宏面对ChatGPT热潮时的自信来源。
那么李彦宏为何愿意再拼一把?有人评价:“2017年,美国公司在做阿尔法狗,中国公司在送外卖。2023年,美国公司在做ChatGPT,中国公司还在送外卖。”中国公司应该赚更高精尖的钱,君子有所为,有所不为。
“人有我优”的骨气
有骨气的人,心中才有大方向、大原则和大是非,肩上才有使命、有责任、有担当。
ChatGPT的火热对于国内人工智能公司而言,恐惧者有之,焦虑者有之。但百度明显准备得更充足,看得更远,显得也更从容。
“文心一言”的亮相让我们看到了中国AI的实力。作为扎根于中国市场的大语言模型,文心一言具备中文领域最先进的自然语言处理能力,也将比国外开发的模型更适合中文和中国市场,这一点是ChatGPT所不具备的,因为ChatGPT的很多答案并不适合国内用户,因为它的训练数据多是以欧美国家的意识形态为准则的。
另外,“文心一言”以及其背后的基础大模型,不仅能给出更准确的结果,还有更强的通用性和泛化能力,被认为是一项面向未来的先进生产力。同时,多模态是生成式AI一个明确的发展趋势。未来随着百度多模态统一大模型的能力增强,文心一言的多模态生成能力,也会不断提升。
李彦宏曾表示,人类进入人工智能时代,IT技术的技术栈发生了根本性的变化。过去基本分为三层:芯片层,操作系统层和应用层。现在可以分为四层:芯片层、框架层、模型层和应用层。百度是全球为数不多、进行全栈布局的人工智能公司,从高端芯片昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,各个层面都有领先业界的关键自研技术,可以实现端到端优化,大幅提升效率。
可以说,“人有我优”解决的是品质的问题,而百度这种“人有我有,人有我优”的能力是当下略显极致化的市场中所难能可贵的。
相信随着“文心一言”开始使用,将建立真实用户反馈、开发者调用和模型迭代的飞轮,进步会非常快。
未来,“文心一言”们不仅会影响搜索或者互联网公司,而是会影响到每一家公司,有机会通过新的技术去创建最好的客户体验,从而比其他人更能抓住客户,获得更强的竞争优势。
这一点也能从文心一言的定位上一探究竟。
根据公开描述,文心一言是人工智能基座型的赋能平台,通过新技术帮助企业创建最好的客户体验,让任何公司有机会离客户更近,从而深刻地影响千行百业中每一家公司,实现智能化变革、效率提升,获得更强的竞争优势,创造更大的商业价值,而这也是真正的机会。
截至目前,百度文心系列大模型在行业已普遍应用,共包括36个大模型,涵盖基础大模型、任务大模型、行业大模型的三级体系,全面满足产业应用需求,构建了业界规模最大的产业大模型体系;在工具与平台层,通过大模型开发套件、文心API和提供全流程开箱即用大模型能力的EasyDL和BML开发平台,全方位降低应用门槛;产品与社区层,包括AI艺术与辅助创作平台“文心一格”、产业级搜索系统“文心百中”和旸谷社区,让更多人零距离感受到最先进的AI大模型技术带来的新体验。
而从2月份至今短短一个月时间,已超过600家合作伙伴宣布加入文心一言生态,期待尽早用上最新最先进的大语言模型。随着“文心一言”生态拓展,其将获得更大话语权,并赢下更多的市场空间。
在李彦宏看来,AI技术已经发展到一个临界点,各行各业都不可避免地被改变,其商业价值的释放将是前所未有的、指数级的。
他在内部信中曾提到:文心一言与搜索整合,将引领搜索体验的代际变革;文心一言将通过百度智能云对外提供服务,根本性地改变云计算市场的游戏规则;此外,文心一言大模型还将搭载到Apollo智舱系列产品,并与小度进行集成。可以想象,随着“文心一言”的推出,百度将进入业绩提速的快车道。
在马太效应愈发凸显的当下,硬科技的争夺无疑是一场卡位战。从某种程度上来说,中国一定要有自己的ChatGPT,文心一言当之无愧。未来,随着文心一言数据、Query闭环形成,系统生态就会快速提升进步。小步快跑,快速迭代,时间就是最好的护城河。
随着技术的持续进步,我们有理由相信,在不久的将来,百度将在第四次的人工智能浪潮中为全球人类带来更多令人瞩目的科技成果,共同开创一个充满智慧与希望的未来。