2013年,马云身着一件明白色衬衣,在座无虚席的黄龙体育场正中心向黑压压的人群吐露真心:
公司做到这个规模,小小的自尊,我很骄傲。但是对社会的责任,我们这个公司才刚刚开始。
那个晚上,他宣布自己将卸任阿里巴巴 CEO,把“为社会负起责任”的征程继续交给台下数以万计的阿里巴巴人。
说罢,他单膝跪地:“我拜托大家!”
那一天,淘宝整整十岁。
在马云所拜托的人中,有无数手握代码权杖的技术人。他们中有人跟随马云创业,在非典的阴影下敲下了淘宝网最初的几行代码;有人在张勇天猫改革之时慕名加入,穿行了困顿的低谷“十月围城”;有人即将在这个良夜离开温暖的学术圈,跨入阿里巴巴的大门。
未来尚未向他们展现温柔,亦未向他们张开獠牙。
刻不容缓,淘宝的很多团队都摸着石头上路了。有趣的是,站在今天回望,他们虽然研究的姿势不同,却殊途同归地拥抱了同一个技术:人工智能。
如今,普通人都理所当然地沐浴人工智能的恩泽。然而在技术人的具体记忆里,这却是一条艰辛的征程,如同少年骑士打怪升级,这条路上有两个“怪兽”足以致命:
第一、人类智能进化需要亿万年,人工智能的进化也很缓慢。这意味着,淘宝的很多创新功能会给人一种“傻傻的”感觉,引来用户的花式吐槽。而技术人却不能停下脚步,他们必须说服自己:今天被“爱答不理”的点滴星火一定会在未来成为“高攀不起”的耀眼光芒。
第二、技术是一柄曜石长剑,可以捍卫真理,也可以欺凌弱小。技术人需要在无数个十字路口仔细分辨技术的“善”与“恶”,决定是走还是停。而他们唯一的凭据,只有自己的内心。
最近,中哥遇到了几位淘宝背后的神秘技术大牛,在过去的七八年间,他们深居简出,却无时无刻不在和这两个怪兽战斗。
(一)翻译:难倒战斗民族的小事儿
2012年,中国向全世界出口了90亿双鞋,5000万辆自行车,700万吨塑料制品,价值100亿美元的玩具。
Made in China 如火山喷涌。
在这创纪录的出口交易额中,有越来越多的订单是老外通过阿里巴巴国际站下单的,这很让阿里人骄傲。但随之而来的却是外国买家的吐槽——在阿里巴巴国际站上商品的描述都是英文,可是在欧洲、南美洲、中东有大量的老外不说英文,也没过英语四六级,商品介绍看得是云里雾里。
你想象一个场景:天不怕地不怕的战斗民族经销商,皱着眉头怼着屏幕,用蹩脚的翻译软件查字典,想买又怕买错,带着怂怂的表情在危险的边缘疯狂试探,是一幅怎样的画面。。。
为了给 Made in China 添砖加瓦,阿里巴巴的同学决心把商品描述给直接翻译成高质量的俄语、西班牙语、葡萄牙语、意大利语、阿拉伯语、土耳其语等等17种语言。
可是数以亿计的商品,要是雇几个人类翻译,恐怕到世界末日都干不完。这种情况下,他们别无选择,只能想办法做出一套“人工智能机器翻译系统”。
想法很丰满,现实很骨感。在2012年的中国,会搞“机器翻译”这种法术的大牛凤毛麟角。
阿里巴巴的同学们只好访遍名山大川。终于,他们找到了中科院门下。彼时中科院正好有一个小分队做研究性质的机器翻译。而骆卫华,正是当时团队的一员。
别被骆卫华的外表欺骗,他笑容和气,办事却总是死磕。在清华第一次接触“机器翻译”,他就被这件事儿给迷住了,反复叨叨着:“有意思,真的有意思!”
有意思归有意思,从1995年上大学到2012年这十几年之间,因为机器翻译还在早期,没啥人用,所以学机器翻译的人根本没什么用武之地。这个专业的学生要么毕业就转行去做程序员,要么就像骆卫华那样进入研究机构“躲在小楼成一统”。
说白了,在那种情况下还能坚持做机器翻译研究的,基本上非疯即癫,骆卫华的老师刘群比他还夸张,微博名字都改成了“MT-to-Death”(机器翻译至死)。。。
春天还是让这帮人给等到了。这不,阿里巴巴的同学已经在门口三顾茅庐了。
这里简单科普一下“机器翻译”的原理:
机器翻译的基本操作就是给机器准备大量的“原文-译文对照资料”,然后经过精巧的人工智能算法,让机器能够从这些资料中“总结”出翻译的规律,从而学会翻译。
当时,骆卫华他们拼命收集来了网络上17种语言为数不多的对照资料,还拜托各个语种的专家为每种语言写了上千句精细的对照翻译,很快就训练出了一个简易版的翻译机器人。
毕竟资料有限,我们也不懂这些小语种,几乎可以肯定,这个机器人翻译出来的东西是很粗糙的。
骆卫华回忆。
然而,17个语言的页面上线之后,把阿里巴巴和骆卫华都吓了一跳。来自非英语国家的访问量瞬间就增长了40%,成交量当然也随之攀升。
只是牛刀小试,就带来这么威猛的效果。这彻底燃起了阿里巴巴同学们的热情,决定了,大刀阔斧地搞人工智能翻译!于是,他们要做的第一件事就是——邀请骆卫华加盟阿里巴巴。
(二)什么翻译是“好”翻译
2014年,骆卫华成为了阿里巴巴的一员,专门负责机器翻译团队的建设。
刚一加入,他的三观就受到了冲击:
之前我满脑子想的都是怎么让翻译更接近原文的意思。到了阿里巴巴内部之后我才发现,翻译原来并不是越准确越好。。。
骆卫华说。
你可能都看懵了,翻译难道不是越准确越好???
没错,翻译这件事儿其实是技术和艺术的混合体,讲究个“信达雅”。有时候地道的翻译却并不“准确”,例如《Gone With The Wind》翻译成中文叫《乱世佳人》,或者只有一个字《飘》,这两种翻译都不“准确”,却让人更能体会到原句的意境。
在淘宝上,同样有这样的例子。
你可能看到过有商家给自己的宝贝标题起名叫这种:“iPhone11钢化膜苹果11pro防窥x防偷窥膜Xsmax全屏覆盖11防窥屏Xr防尘手机7p防透屏偷8plus窥p膜看瞄贴膜”。
这种做法其实是为了让用户无论搜索什么关键词都能找到它。可是如果把这个标题原封不动地翻译成外语,老外看着这一长串心里就会一万草泥马奔腾而过:“这到底是在卖啥呐思密达??”
所以,对于阿里巴巴上的商品来说,并不是翻译得越“准确”越好,而是越“地道”越好。
于是,骆卫华和同学们开始研究一套有中国特色的翻译系统:改写翻译。简单来说就是:让机器理解这句话的核心是想表达什么,然后给你一个重新组织语言的机会,用人话再说一次。
例如刚才那个超长的标题:“iPhone11钢化膜苹果11pro防窥x防偷窥膜Xsmax全屏覆盖11防窥屏Xr防尘手机7p防透屏偷8plus窥p膜看瞄贴膜”,被精简之后大概就会变成:“iPhone防窥钢化膜”。
虽然机器翻译肯定达不到《乱世佳人》这种信达雅,但毕竟直奔主题,更适应老外的文化习惯,他们纷纷竖起大拇哥。
折腾了半天才搞定标题,大伙儿擦擦汗,接下来要开始进军商品的内文描述了。
内文翻译泾渭分明地分成两类:有些词句可以创造性的“改写”;但是有些词句却必须100%严格准确翻译。这就是商品的“关键属性”,包括品牌、型号、材质、尺寸、颜色等等。
举个栗子,“小米”这个词。
如果机器翻译要是把“小米”(手机)给翻译成了“millet”(吃的那个小米),人家把小米手机当成粗粮给进口了,这还了得。。。
我举小米这个例子,大部分人都能get到梗,但是在不同的专业领域,还有无数像“小米”这样需要专业背景知识才能翻译对的词语。这时候,仅仅靠翻译团队自己的人生阅历就不够了,他们需要各行各业的专家加持。
很幸运,在阿里巴巴内部就有负责各个行业的运营同学,骆卫华团队赶快请他们标注自己的行业的专有名词都有哪些类型,然后机器翻译团队再“按图索骥”,对照专业词典里一个一个地核实修改,就像是在通用翻译系统上一个个“打补丁”。
这个过程非常累,而且不能出错。但每多一个补丁,翻译系统的表现就好一点。正应了技术宅那句古训:“人工智能,有多少人工,就有多少智能。”
搞定了这些,前言不搭后语、驴唇不对马嘴、指鹿为马的笑话才慢慢绝迹了。
然而这仅仅是万里长征的第一步。
有一天开会,国际业务的同学提出一个困惑:“你们说,泰国人需不需要买拖鞋?”
“当然需要啦。。。”大家回答。
“可为啥泰国人就是不在阿里巴巴上搜索拖鞋呢?”对方问。
骆卫华心里“咯噔”一下。
(三)买拖鞋引发的“血案”
这里要先科普一下阿里巴巴的外语搜索系统是如何运作的。
泰国人搜索输入的关键词当然是泰语。但是阿里巴巴搜索引擎只认识英语,所以搜索过程被分为三步:
1、泰国人输入泰语关键词;
2、一个翻译系统把关键词从泰语翻译成英语;
3、阿里巴巴用“英语关键词”去匹配数据库中的商品。
骆卫华说。
大家伙儿一拍大腿,就是因为对文化的理解不够深入,造成这么一个翻译上的失误,结果无数中国商家损失了生意,无数泰国剁手党没有找到心仪的拖鞋,真是罪过。。。
于是他们意识到,很多翻译仅仅专业还远远不够的,还要考虑当地的文化习惯、口语习惯。
“泰国人买拖鞋”的问题肯定不是孤例,团队马上举一反三,去后台查验每一种商品的搜索量。凡是他们觉得不对劲的商品,就找到熟悉这个文化的专家去核实,果然用这种方法发现了很多类似问题。
例如,西班牙语的一个词,在南美洲的阿根廷代表“拖鞋”,在西班牙就是“舞鞋”,在美国说西班牙语的地区指的是“运动鞋”。我们就得根据搜索者的地理位置来判断给他哪种鞋。。。
骆卫华苦笑。
如此案例,不胜枚举。
2015年,随着翻译的完善,阿里巴巴的国际业务开始爆发增长。而“翻译”这件小事儿,也把人工智能的强大表现得淋漓尽致。到2018年,阿里凭借每天7.5亿次的调用量,创造了全球最大规模的电商机器翻译应用记录。
事实上,就在骆卫华加入阿里巴巴的2014年,也是阿里巴巴人工智能的爆发年。他们大刀阔斧地成立了研究机构 iDST,而后自然语言处理大神司罗、来自微软的计算引擎大神周靖人,密歇根州立大学的机器学习大牛金榕纷纷加盟,这些 iDST 大神们支撑起了阿里巴巴人工智能的骨架。而 iDST 也几经辗转,成为了如今人们耳熟能详的达摩院,此乃后话。
而我们不妨回到我们的故事,彼时在淘宝的主战场——中国本土,人工智能也已露出锋芒。
(四)超级导购
2015年,淘宝团队发现了一个“小变化”:来自手机端的购物流量,第一次完全超越 PC 端。
小变化,往往是大历史的回响。
就在同一年,中国大地上智能手机狂销4.38亿部,相当于这个国度总人口的三分之一都在这一年购买了智能机;而在英国伦敦,阿法狗的工程师们正在紧锣密鼓地秘密筹备,来年,这部人工智能机器人会以羞辱的姿势战胜人类最强棋手李世石和柯洁。
“移动互联网”和“人工智能”,就这样以坚固的姿势扭在一起,从手机屏幕喷薄而出。而普通人感受到的第一个变化,恐怕就是在手机淘宝上发现了一个有趣的“小功能”。
以往在淘宝的首页往下拉,很快就能拉到底部。而现在不同了,往下拉,会出现一个名叫“猜你喜欢”的神秘板块,一个个推荐商品如同待选的嫔妃,像瀑布一样流淌在屏幕下方,越划拉越有,越有越想划拉。
站在今天回望,这就是淘宝“认知智能”的第一波雏形。
三桐,正是手淘“推荐算法”的负责人。作为阿里巴巴最早一批招揽的搜索推荐技术人才,他毫无疑问是淘宝移动化战役背后的功臣之一。
刚才说的那个“猜你喜欢”,背后正是三桐和同事们一起构建的推荐算法体系。
说回我们的故事。淘宝认知智能的任务就是一句话:尽自己的最大的努力“猜对”用户想要找什么商品。
你去购物中心的时候,时常会碰到一些比较资深的导购员,通过和你对话,甚至察言观色,就能知道你想买的是什么,从而帮你找到喜欢的东西,甚至还会和你探讨着装品味,讨论服饰穿搭,让你这次购物体验很开心。其实我们的梦想,就是让淘宝成为“资深导购员”。
三桐对我说。
有一说一,即便是一群天才组成的队伍,要做出一个“人工智能资深导购员”仍然非常艰辛。
一方面,要从很少的信息里判断用户的意图,还要确保信息不泄露,本身就对算法有很高的要求;
另一方面,导购要非常谨慎地不打扰客户,稍微多说一句话就会让顾客觉得不自在。
总结一句话:咱也不知道,咱还不敢问。
讲真,就这个尺度,人类都经常拿捏不好。在理发店被理发师“唐僧式推销”过的人一定深有感触——你能从理发师的推销里听出满满的“要掏你钱包”的恶意,这恐怕是人生中最不好的体验之一了。
既然这么难,动不动就招骂,淘宝又为什么又非要挑战呢?
其实就在淘宝内部,曾有过激烈的讨论:我们做推荐,到底是为了什么?
讨论的结果是:不做推荐,当然不会打扰用户,但却会让淘宝变成死气沉沉的哑巴商场。而做“推荐”,绝不是为了多卖东西,而是可以让用户有“发现”的感觉,这样才能体会到购物的快乐。
于是就有了“猜你喜欢”。
这里科普一下。“猜你喜欢”其实是一个“隐式询问系统”,它的工作原理大概是这样:
1、淘宝可以猜一下你的大致年龄和喜好,然后粗略地算出你可能会喜欢什么产品,把这些新产品显示在主页下面。例如给你推荐了一些裙子、化妆品还有背包。
2、你可能无意间刷到了一条裙子,感觉不错,于是点进去查看;后来又发现了一个口红,于是又点进去看。淘宝就通过这种方式,并没有打扰你,但却相当于问了你“喜不喜欢这条裙子?”“喜不喜欢这个口红?”,并且得到了你的“回答”。
3、把用户的这些“回答”塞进复杂的人工智能算法,人工智能会试着预判你的喜好,可以继续推荐你可能喜欢的其他东西。
你看,察言观色,直指人心,这就是“隐式询问”的魅力。
事实上,就在“猜你喜欢”上线之后,有很多人超喜欢这个功能。
当时很多淘宝的用户反映,每天不刷完淘宝给推荐的商品,都不想睡觉。。。
三桐笑着告诉我。
但是,这并不能让所有用户满意。这里有个经典的案例:有的用户在点击了几次“电脑”之后,淘宝会总向他推荐电脑,也不管他是不是已经买过电脑了,或者已经不想买电脑了。
人的思维很活络,而机器却很呆板,完全跟不上人的变化。这种“无脑”推荐,开始让一些用户觉得无聊,还让他们产生了错觉:淘宝是不是想挣钱想疯了,我不买就不罢休??
面对这种吐槽,技术团队觉得好冤枉:明明是技术不够厉害,却被怀疑动机。他们压力山大,赶紧想办法改善推荐的算法和策略。
(五)“闪念”捕捉者
“猜你喜欢”的傻,根本原因还是对于消费者“意图”的理解不准确。
上个月我搜过汽车,上周我搜过键盘,昨天我搜了水杯。这次我又来淘宝,你说,我想要什么?汽车、键盘、水杯一起来吗?大概率不是。
此时此刻我的兴趣点很可能集中在某一个特定的主题上,这个主题有可能是之前搜索过的汽车键盘水杯,有可能是今天临时起意刚刚想到的。
猜对我现在的想法,难度不亚于“读心术”。
2017年三桐所在的团队就开始着手用人类最高级的算法提升推荐的准确性,并且定了一个逆天的目标:认知智能。
刚才几次提到了“认知智能”,听上去很凶悍。这里解释一下:
“认知智能”是“感知智能”的进阶形态。
感知智能,就是让机器可以分辨对面的物体是人是狗,把听到的话写成文字之类。现在你用的人脸识别、辅助驾驶,都是这类智能。
认知智能,就是让人工智能拥有类似人类的“理解”“推理”“规划”能力。一个具有完整认知智能的机器人,基本就达到了科幻电影的水准。
我们说回淘宝推荐系统的改造现场。
三桐告诉我,人的意图实际上可以粗略分为三类:
第一类,是标签,它是静态的。
例如你是一个“男人”,你基本可能大概就永远是个男人,那么你大概率会一直喜欢男装(如果你不是女装大佬的话)。如果你“有小孩”,那么你基本就会一直有小孩,你会在很长的一段时间喜欢购买儿童用品。
第二类,是偏好,它是偏动态的。
假如你是个米 Boy,那么你大概率会一直喜欢小米。如果你是花粉,那么你大概率会一直喜欢华为。这就是品牌偏好,会在一段时间内保持稳定。但是人们会不会一生只对一个品牌忠诚呢?显然大多数人不会。今天还夸 Android 好,明天就抱着苹果喊真香的大有人在。
第三类,才是真正的意图,它是高度动态的。
比如你偶尔在路上看到一个人的耳机很漂亮,你掏出淘宝想要找,找到之后马上下单。到了单位听同事介绍了一款泡面不错,你打算下单在家里屯一箱,看了看觉得吃这么多方便面没营养,于是放弃了。这种闪念,是来无影去无踪的。
对这三类意图就分别像考卷上的“选择题”、“填空题”、“大题”,只有都做对了,用户才会觉得人工智能懂自己。
可对于人工智能来说,这三种题的难度和计算量可是不同的。感受人类的标签,是 Easy 模式,一个月算一次就够了;感受人的偏好,是 Hard 模式,可能要一周算一次;感受人的意图,就是 Hell 模式了,需要每时每刻每秒都永不停歇地计算。
所以,要做对这张考卷,主要考验两个技术:“算法”和“算力”。
所谓算法,主要就是解题能力:无数的数据涌来,到底怎么才能把这些庞杂的数据变成一个“意图”。如果算法不精,用户本来想要黄瓜,你判断用户想要茄子,答案都错了,算得再快也木意义。
所谓算力,主要就是答题速度:如何在最短的时间内,把这个算法跑完。用户搜索了一件衣服,可能一秒钟以后就希望看到你给她的推荐,可如果淘宝算了一小时才算好,那用户早就连淘宝都退出了。。。
这其中,算力的问题相对好解决,解决的方案就叫做“阿里云”。阿里云的本质就是一大坨不知疲倦的计算机,它产生的计算力可以为阿里巴巴自己所用,也可以对外提供服务。实际上,阿里巴巴当年那么努力地做出阿里云,首先是要满足自己计算的需要。(参考《阿里云的这群疯子》)
然而,算法的提升,却是一个非常缓慢的过程。为此,认知智能团队招揽了很多国际上顶尖的算法大牛。他们做了很多尝试。
举个例子:
如果你看到某个商品出现在屏幕里,可能就会快速划过,这时,你的快速划动的动作就应该被算法认为是你对这个商品不感兴趣的因素。
某些商品你虽然停留的时间长,但却仅仅是停留,没有查看的动作,也不意味着你对这个商品感兴趣。
算法越好,可以考虑的情况就越精细,得出的结论就越贴近真实世界。
最近几年,认知智能团队在顶级会议上发表了很多论文,都是在踩坑的过程中得到的干货结论。而人们也会发现,淘宝的推荐虽然仍然在很多方面有提高的空间,却在缓慢而坚定地进步。(参考《阿里巴巴,终于有了预测未来的能力》)
“认知智能”就像一个红娘,不仅要懂姑娘,还要懂小伙儿。这个姑娘代表“消费者”,小伙儿就代表“商品”。
刚才说的都是对消费者的理解,现在说说对商品的理解。
对商品的理解,难度主要集中在商品的图片上。理解图片包括两方面:
第一,图片里面有啥;
第二,图片美不美。
图片里面有啥,通过图像识别技术能判断得八九不离十,但是图片美不美,那可是见仁见智了。
一个商品具有“事实分类”和“情感分类”两个属性。
所以,这群技术宅需要专门开发一套算法,计算出什么类型的人喜欢什么类型的图片。如果是喜欢简约的商务人士,就给他推图片风格简约的皮包;如果是波西米亚风的少女,那就给他推看一眼能晕车的花纹裙子。
如今,你打开淘宝,在首页下拉、付款成功页面、还有商品详情页里,都有推荐商品的板块,它们都是最初那个“猜你喜欢”的衍生版。
这些年,淘宝推荐功能使用的人越来越多,但是吐槽也随之而来。
最大的问题就在于,人们总能感觉出来淘宝在根据自己的行为做推荐。推荐就是这样,一旦被人察觉出来你在推荐,你的推荐再好都不香了。。。
欲戴王冠,必承其重。技术带来的问题,要用技术解决。
于是,从2019年开始,三桐和团队开始攻坚“认知智能”的进阶版,那就是想办法让推荐来到人身边的时候,感觉轻柔、丝滑、无感,却又贴心。
(六)打雷要下雨,天冷穿棉袄
讲真,大多数人没有意识到,了解别人不一定非要获得这个人的每一个细节信息,仅仅依靠常识就能成为一个相当善解人意的人。
什么是常识呢?
举个例子:1、人在热的时候需要冷的东西降温;2、冷的东西包括冷饮;3、冰淇淋属于冷饮;4、夏天的属性是热。根据以上四点推导:人在夏天更喜欢购买冰淇淋。
这就是一个常识。
所以,不管你是谁,在炎炎夏日,有人给你端来一杯冷饮,大概率会让你开心。同理,夏天的时候在淘宝上给你推荐冷饮,也是一个不错的选择。而且,结合常识做出的推荐,人们接受起来也会更容易。
这个世界上的常识无计其数,而把无数常识联合起来,变成一套能让机器理解的东西,就叫做“认知图谱”。
认知智能团队想要死磕的,就是“认知图谱”。
例如,手机壳是和手机相关的配件。所以当你买了手机之后,给你推荐手机壳,就不仅不会引起你的反感,反而让你觉得很贴心;孜然、辣椒面、羊肉是和烧烤相关的商品,那么当你对烧烤架感兴趣的时候,给你推荐这些食材,就变得很智慧了。
这就是一个认知图谱的示例。
当然,知识图谱所包含的内容,还远不止“下雨要打伞”、“天冷穿棉袄”这些小儿科的常识。它还能知道“流行动向”。
例如,最近 Supreme 热销,而你经常购买其他时尚潮牌,系统同样可以给你推荐它;如果你经常购买 JK,那淘宝可能就会给你推荐 Conomi。
有了认知图谱,淘宝开始渐渐摆脱“你搜过什么就给你推什么”的“幼稚园”阶段,进入了更多地给你推荐适合商品的高级阶段。
从学术角度看,最近两年在知识图谱领域有一个非常有趣的测试集,叫做“火锅问答”(HotpotQA),是由三名在美国留学的中国学生聚餐吃火锅的时候想出的创意。
火锅问答里收录了各种需要知识图谱推理才能得出正确答案的问题,而全世界的知识图谱系统都会以挑战火锅问答的成绩作为实力的证明。
阿里认知图谱团队的算法,最近几年都稳稳排在火锅问答成绩榜的世界第一,实力确实不一般。
三桐告诉我,从后台数据看,2020年使用淘宝推荐的用户正在爆炸式地增加,但是仍然有很多人并没有使用推荐的习惯。不过他也不着急,他觉得只要技术进步,一定有越来越多的用户可以发现并且信任这个“导购”。
三桐团队的推荐系统是一个“隐形导购”,然而在淘宝上,还有另一个“实体导购”,那就是人人都很熟悉的,在旺旺上一口一个“亲~”的客服小姐姐。
你可能会问,客服小姐姐和人工智能有啥关系?
关系杠杠的。其实就在此刻,你在淘宝上咨询商品,有很多回答都是人工智能做出的。
(七)“机器人小姐姐”
人工智能客服和人类客服哪个更好?
大多数人的答案毋庸置疑:肯定是人类客服好!谁愿意和机器人对话呀??
这话没错,但是在2014年,淘宝并不是要在“人类”和“人工智能”之间二选一,而是要在“没人”和“人工智能”之间二选一。
空无,是如今淘宝智能客服团队的负责人。他可是历史的亲历者。
2014年的时候,淘宝客服的压力山大。用户打进来的热线电话根本接不起来,有的买卖纠纷投诉,一排就排到三个月以后处理。短时间招不来成千上万的客服人员,即使能招来,也养不起。。。空无回忆。
那个时候,空无是CCO事业部的技术负责人。CCO,就是当时淘宝为了提高用户满意度而设立的部门,全称叫做“阿里巴巴客户体验事业部”。
客服连电话都接不起来,还谈啥客户体验嘞。。。
空无临危受命,准备搞一套人工智能的客服机器人。辅助淘宝的人类客服对付海潮一样涌来的用户咨询。
这里有两个行业小知识,需要科普一下。
1、当时的客服形态是:在对话界面先给你展示一些常见问题,你点选问题,就弹出解答。实在解答不了,你会在角落里发现“人工服务”按钮。淘宝也是这么做的。
2、无论在哪个行业,大部分的用户咨询其实都是比较“低阶”的。例如在淘宝上,用户询问客服最多的就是:“怎么退货?”“怎么申请售后?”这类基本操作。
好,问题来了。
很多用户即使是询问简单问题也会选择人工客服,而人类客服回答一个简单问题,也要耗费相当的精力和时间。这样一来,真正复杂高阶的问题就被挤到后面,忙不过来了。
这就好像考试的时候虽然选择题很简单,但是数量太多了,导致没有时间做大题。。。。
所以,空无想做的客服机器人理念是酱的:
用户把问题用“人话”的形式表达出来,人工智能理解这句话之后,就去知识库里搜索,如果它能回答就直接回答,如果不能回答再让人工服务接过去不迟。
你还记得不,“有多少人工就有多少智能”。要做这件事,首先得拉来很多懂人工智能算法的大牛。
空无那些年的小心思在这一刻体现得淋漓尽致:
其实我加入 CCO 以后,就开始在内部马不停蹄地笼络算法大牛。那时候做算法的人很没地位的,各个团队都不需要他们,很郁闷。别人还看不到算法的重要性,我正好捡漏!到了要做客服机器人的时候,我已经有三个算法团队了。
空无笑着说。
2015年,第一版客服机器人诞生了,这就是现在很多人都知道的“阿里小蜜”。
可是就在阿里小蜜准备上线服役的时候,一场“真理标准大讨论”猝不及防地在淘宝内部爆发了。
很多同事组成了“反方”,他们的观点是:人工智能客服还很傻,一旦放出去,用户很容易觉得淘宝在用这个机器人“阻挡”用户接触人工客服,这会对淘宝的口碑造成很大的影响。
可是空无他们的“正方”观点是:如果不尝试,怎么知道用户喜不喜欢呢?况且人工智能需要在不断的训练中才能成长,如果迟迟不放阿里小蜜出去锻炼,就会一直智障下去。。。眼看每天人工客服积压的投诉越来越多,事不宜迟啊!
最终,空无他们拼死争取到了一块“试验田”:淘宝的新注册用户(大概占总用户的10%)可以看到人工智能客服入口。
讲真,这一版的阿里小蜜确实不太聪明的亚子,从后台来看,对于用户问题的解决率只有30-40%。大部分最后还得转人工。
这也不怪团队不努力,因为涉及到自然语言理解的人工智能确实处在技术的早期,真的非常非常难。但是这样的结果,让“反方”同学占了优势,大家一致投票,人工智能客服还没到火候,再等等也不迟。
空无他们别提多郁闷了。
可是几个月后,大洋彼岸的一个重磅新闻,却扭转了“舆论局势”。
2016年春天,积攒了一年的阿法狗火力全开,横扫李世石和柯洁,瞬间甩掉了人工智能头上“智障”的帽子。虽然阿法狗下围棋和阿里巴巴智能客服没啥关系,可这件事儿却影响了所有人的心智。
“大家开始相信,原来人工智能的春天已经这么近了。”空无说。
这件事之后,“反方”的阻力明显变弱了。从2016年春天开始,所有人投票同意:阿里小蜜全量铺开,所有淘宝的用户都可以用到这个智能客服机器人了。
要知道,人工智能的智能程度,和训练它用到的数据量直接相关。
面对数以亿计的巨大用户群,阿里小蜜迅速获得了海潮一样的汹涌数据,进化的速度陡然加快,问题解决率攀升到60%。
酒香不怕巷子深。很多在淘宝天猫上的商家也开始注意到了这个可堪大用的机器人。他们纷纷辗转找到空无,询问这机器人能不能借他们用用。眼看要到双11,他们店铺自己的客服也不够用了。
空无当然很开心,可是这时,反对派的担忧又来了。。。
(八)小蜜“出圈儿”
淘宝自己用机器人客服,毕竟只代表淘宝。可是平台上的商家如果用了机器人客服,一旦出问题,那可是会影响销量的。商家损失真金白银,肯定会骂淘宝,用户购物体验糟糕,也肯定会骂淘宝。
两头挨骂,谁能担得起这个责任呢?
人工智能征程上的“怪兽”,此刻威力尽显。究竟是给商家上机器人客服是“善”,还是不给商家上机器人客服是“善”?这个抉择,是技术人不能承受之重。
最终,正反两方“打”成了一致,决定先选择9个比较大的商家,一起来共建人工智能客服。大家把好处和风险都摊开了。如果商家信任阿里巴巴,并且愿意承担风险,那我们就一起干!就这样,阿里小蜜的商家版——店小蜜——第一次亮相了。
当时同意合作的9个商家包括耐克、小米、荣耀等等。你可以看到这些品牌不仅很大,而且他们的文化都是相当重视用户口碑和体验的。
他们爱惜羽毛到了“变态”的地步:
在双11之前,每一家都对店小蜜提了一长串要求,其中包括店小蜜回复用户的语气,转人工服务的方式,甚至规定了不同时段分流到店小蜜和人工客服的用户比例,尽量多地让人类客服来接触服务用户,实在忙不过来了店小蜜再顶上。
所有人,都紧张地度过了这次双11。然而,这9家店铺店小蜜的表现可以用“惊艳”来形容。
小米在上一年双11用到了700名人类客服,今年本来预计会用到1000人以上,但是店小蜜的加入,只配合了500个人类客服就平稳地度过了双11,节省了一半的人力。
当然仅仅节省人力不是目的。根据这些商家回忆,在没有增加成本的情况下,店铺从销量到用户满意度居然都提高了,这一把确确实实“赌对了”。
经此一役,阿里内部怀疑阿里小蜜和店小蜜的声音迅速减少,人工智能终于用时间和努力,证明了自己体内所蕴含的巨大能量——机器人客服绝不仅仅是一个工具,而是一个大时代的序曲。
从2016年开始,越来越多的店铺开始使用店小蜜,而店小蜜的回答解决率也超过了90%。作为普通买家,估计你也会有感觉,这几年你在淘宝上咨询商品,人工智能的回复越来越多。虽然有时还不尽如人意,但是解决你的基本问题还是没问题的。
在短短的两年间,被空无“笼络”的算法工程师人生经历了过山车——被各个部门“爱答不理”到“高攀不起”。有了这一手好牌,大家终于可以元气满满地精进人工智能的技术了。
阿里小蜜在这几年又攻克了很多技术难关,空无给我举了几个例子:
1、多轮互动
用户会按照日常对话的方式和机器人对话。而在日常人类对话里,多轮互动是很稀松平常的。
例如:
用户:我要开发票。
客服:你要开哪一个商品的发票?
用户:小米手机。
这时,人脑很轻松就能把前后的信息拼起来,明白用户是要开“小米手机”的“发票”。
可是对于人类来说简单的事情,人工智能就很难做到。这时,技术宅们就要为人工智能专门创建一个“多轮对话”的引擎。简单来说就是把常用的多轮对话都列举出来,让机器下次遇到同样的情况就可以应对自如。
列举多轮对话的场景,是个相当繁琐而且具有专业属性的工作,仅仅靠空无的技术团队是不够的,还需要客服团队根据经验来列举、调整。
为此,空无他们专门做了一套可视化系统,让普通的客服或者运营同学就可以通过拖拽的方式调整多轮对话,很多人一起贡献智慧,机器人聪明的脚步就越来越快了。
2、知识图谱
知识图谱和我们之前说的认知智能里的“认知图谱”有点像,你可以理解为它就是人类的常识。
举两个例子:
如果一个人对客服说:我忘记了。根据知识图谱里记载,“被忘记”的很可能是“密码”。所以阿里小蜜此时就可以根据“知识图谱”追问一句:你是不是忘记了密码?
如果一个人对客服说:不想要了。那么根据知识图谱,“不想要了”的东西很可能是“商品”,阿里小蜜就可以追问:是不是要退货?
3、语音对话
从2018年开始,阿里小蜜长能耐了。以前都是通过文字和用户交流,现在它可以“接电话”了。
其实接电话的本质就是把用户的语音变成文字,人工智能客服再把回答从文字变成语音说出来就行了。但是,真的做起来, 空无发现现实情况比这个要难得多得多。
首先,把语音翻译成文字会涉及到语音识别的准确性;把文字发成语音考验断句和发音的流畅性。这就要求在 ASR(自动语音识别)和 TTS(语音转文字)方面不断改进技术。
其次,用户在语音聊天时的状态更自然,思路更飘忽。有可能上一秒在说售后服务的事儿,下一秒就去说支付的事儿。这个时候就要求系统时刻感知用户的思路有没有切换。
再次,在语音对话的时候,用户一旦发现机器人说的不是自己感兴趣的内容,就会强制打断,这就要求系统在说话的同时,也要时刻支着耳朵听用户有没有新指示,这叫做“双工”技术。
以上每一个问题的解决,都要用到此时此刻人类科学的最前沿成果。
空无感叹,这么多年,做了这么多事儿,其实就是为了一点:绝不想让人工智能客服成为挡住用户寻找人类客服的墙,而是应该成为辅助人类客服帮用户解决问题的帮手。
他面前的那个怪兽,仍然会时不时杀出来,阻挡去路。
2017年的“双11”的一个小插曲,让空无想了很多。
那年11月10日晚上23:50,距离双11流量洪峰到来只有10分钟,客服团队的一位同学突然做了一个操作,本意是想让接下来的阿里小蜜和店小蜜发挥得更好。好巧不巧,这个操作却恰好触发了系统的一个隐秘 Bug,小蜜瞬间瘫痪。
所有的人脑子瞬间一片空白,赶快去抢修。
可是要把系统恢复好,却需要将近二十分钟。这意味着就在双11零点到来之后的十分钟,小蜜是不可用的。
果然,零点到来,无数店铺都发现了:小蜜没有正常工作。瞬间,质疑和吐槽雪片一样袭来。空无他们没有办法,只好一边全力修复,一边安抚店铺掌柜。直到00:10系统恢复运作,吐槽才顺次平息。
那以后,小蜜团队痛定思痛,把本来就很强的测试系统又再次加强,全力保证这种问题不会再出现。到2018年双11,小蜜已经承接了淘宝天猫平台98%的在线服务需求。
很长时间,空无都在被一种情绪所笼罩:
我们的小蜜再也不是一个可有可无的机器人,它背后是几十万商家的真金白银、身家性命,这是沉重的责任。
空无说。
(九)淘宝的“打怪升级”
时间终于跋涉到了2020年。
淘宝已经像一个机甲战士,浑身转载了诸多打磨铮亮的人工智能武器。虽然伤痕累累,却目光炯炯。
马云正式宣布退休,从人们视野中淡去,他的“跪地托付”也留在了历史的书页里,恐怕这些技术人不会每时每刻都记起。但那个画面却像一幕戏剧的开端。
逍遥子张勇接过阿里巴巴的帅印,继续让天下没有难做的生意。大幕拉开,淘宝像一艘船,被技术人的梦想和一次次的抉择推向未知的远方。
后来,骆卫华的翻译团队搞出了新的事情,他们能够把商品图片中的文字“抠出来”,翻译好再原封不动地“PS”回去,让一幅带有中文或英文的图片,可以变成俄罗斯语、西班牙语、土耳其语的图片。这样一来,整个商品页面的翻译变得浑然一体。
这是一个把中文图片变成英文图片的例子。
“我们的希望就是外国用户完全沉浸其中,不要意识到他们看的是一个翻译页面。”骆卫华说。
他们也帮助阿里云团队把阿里云的各种产品介绍都翻译成全世界各国的语言,让代表中国的云计算可以更方便地漂洋过海。
他们还试着对淘宝的购买评价做“情感分析”,从成千上万条评价中找到夸奖和吐槽最典型的几条,作为推荐评价呈现给用户,希望能缩短人们在翻阅评论上浪费的时间。
三桐和他所在的搜索推荐团队仍然在他们“资深导购”的路上探索,最近几年,他们倾注了大量的力量在前沿的“图计算”领域,通过精细分析数据之间的关联来优化推荐,试着给顾客更多的惊喜。
而空无的智能客服团队最近正在尝试让小蜜做“阅读理解”,给它一篇商品介绍的文章,它就可以自动从中挑出关键信息,组成回答。有了这项技术加持,店铺的工作人员不用花很长时间调试机器人,它就可以自己学习商品特性,回答顾客的问题。
而这些技术,也在渐渐从服务淘宝用户的工具变成服务社会的生产力。
骆卫华给我讲了一个故事。
2020年,新冠肺炎来了。中国的治疗实践非常成功,尤其是浙大一院,在凶狠的疫情浪潮里,没有一例死亡病例。
于是,当时马云公益基金、浙大一院和世界卫生组织 WHO 合作,第一时间把医生的救治经验总结成了一套医疗手册对外发布了出去。但是,很快 WHO 就接到了一些反馈:很多非英语国家的一线医生没办法那么准确地阅读英语资料,但医疗手册又非常专业,决不能出现丝毫理解偏差。这些国家的卫生机构希望 WHO 能给出一个多语言版本的医疗手册。
这个任务,猝不及防地落在了骆卫华的机器翻译团队头上。
当然,这么严肃的事情,肯定不敢完全依赖机器翻译。但是他们想到了一个好办法:结合已有的医疗词库,把医疗手册先用机器粗略翻译,然后再召集各个语言的志愿者在这个“粗加工版本”上进行精确订正。
这样做有一个巨大的好处:对于专业词汇的口径已经被统一,人类志愿者不需要在专业词汇上有纷争,这可以节省很多时间。
召集志愿者的英雄帖火速刊登在 WHO 网站上,来自俄罗斯、印尼、伊朗、意大利、日本、韩国的志愿者纷纷回复,愿意为祖国效力。
就这样,原本最短也需要10天才能完成的繁重翻译工作,在人工智能和人的协作下,各个语种分别用了3-5天就全部完成了翻译。世卫组织赶快下发了这些医疗手册。
没人能够估计,如果这些医疗手册晚下发一周,将会有多少处在生死边缘的生命会等不到黎明,滑向深渊。
由于疫情,中国的出口贸易也受到了冲击,关注社会时事和国家命运的人们,都着实捏了一把汗。
然而在中国内部,直播带货方兴未艾,网购的数额大幅增加。阿里巴巴决定把直播带货这件事儿,推向全世界。
骆卫华和团队们做了一件有趣的事情,给直播的主播画面下方,配上了各个语种的实时翻译字幕。现在你登录速卖通(国际版的淘宝),就可以看到一幅奇景:很多主播用中文带货,可下面围观的都是操着各种语言的老外。。。
技术就是技术,这柄长剑并无善恶。
但是,使用技术的淘宝技术人却在漫长的日子里如履薄冰。当我站在他们身边,映入我双眼的是:他们在做“沉重且真实”的事情,尽力让技术加深人和人之间的理解,让技术带给人希望。让技术成为一朵烟花,在夜空里散尽人间的温柔。
如果让我来评价“淘宝打怪升级”的历程,我也许会摘抄《基业长青》的作者吉姆·柯林斯所说的一段话:
没有单一的决定性行动,没有宏大的计划,没有一招致胜的创新,没有单独的幸运突破,也没有什么奇迹时刻。相反,这个过程就像持续地推动一个巨大而沉重的飞轮,让它一圈接着一圈旋转,不断增加动能,直至达到突破点,甚至超越。
他们也许做对了很多,也做错了很多。然而漫长的路上,谁又真的能预知下一个怪兽何时到来?谁又能真的拥有一本《驯龙秘籍》,像开挂一样斩妖除魔?
除了向前,我们别无选择。