演讲:景鲲
主讲老师
雷鸣
天使投资人
百度创始七剑客之一
酷我音乐创始人
清华大学海峡研究院大数据 AI 中心 专家委员
特邀讲者
景鲲
百度度秘事业部总经理
景鲲加入百度之前,曾任微软公司首席研发总监并负责微软必应搜索在亚洲市场的研发工作,也是微软小冰的创造者。
雾霾五笔,4月19日,清华大学《人工智能前沿与产业趋势》系列课程第三讲开课,本讲主题是“自然语言处理技术的发展和行业应用”。自然语言处理(NLP)被认为是人工智能研究中最为困难,也是最重要的问题之一。本课由百度度秘事业部总经理景鲲主讲。在讲座之前,雷鸣老师就音频和NLP技术作了总览式的概述:
NLP技术现在能看到一些落地,特别大的一个场景就是助理,包括家庭助理、虚拟助理、车内的语音助理、儿童语言交互机器人等。第二个场景时智能客服系统;第三是语言翻译。
景鲲:语音是第三次交互革命
景鲲:大家好,我叫景鲲,我来自百度,百度度秘事业部。我加入百度大概四年时间,负责对话式人工智能的产品的落地。加入百度之前我在微软工作了八年时间,负责必应搜索引擎和微软小冰项目。所以直接跟NLP以及NLP的业务落地有一段时间的经验了。然后也给大家介绍一下百度度秘。
整个百度的业务主要分成两块,一块是我们在移动市场上做的一些业务,比如搜索,爱奇艺,手机百度的feed流等;另一块就是我们面向人工智能时代兴起,用人工智能来驱动的新的业务,这个业务包括无人车。第二个就是人机交互,我们做了百度度秘。我们在 AI 时代落地的两大主要业务平台,一个是无人车的阿波罗,一个是度秘。
百度为什么把度秘作为这么重要的一个战略业务来做?其实它是一个非常大的业务。回望我刚开始学计算机的时候,那个时候还是用鼠标和键盘,键盘是用五笔输入法。然后那个时候用五笔输入法还要去花钱上培训班学习五笔输入法。后来可以用拼音输入法了,一下门槛就降低了。 用拼音输入法之后,很多人就可以跟计算机进行交互,进行交流了。随着这种输入的门槛的降低,用户跟计算机之间的交互更方便了,更多的用户得以接触到计算机。所以鼠标和键盘的交互就推动了整个计算机的普及。
霾五笔:FEEF 来自百度汉语|报错 霾_百度汉语 [拼音][mái][释义]1.空气中因悬浮着大量的烟、尘等微粒而形成的混浊形象。 2.乱风时空中降下沙土,尘土飞扬。3.古同“埋”,埋葬。
第二个阶段也是由交互推动整个科技的进展,这次的交互是用手指触屏的交互。通过手指触摸手机,让更多的用户能够跟计算机进行交流,所以在这个时候基本上已经摆脱了语言的障碍。所以我们可以看到在中国市场,移动的互联网用户是远远大于 PC 时代的互联网用户的。
我们觉得在新的人工智能时代,新的交户应该是用更加自然的,用人类的交互方式与计算机进行交流,我们认为这种沟通方式就是用语音、用对话。因为我们每个人可能两岁的时候就开始学说话,我们80岁的时候还是可以用语音交流。为什么语音交互可以成真?因为计算机通过人工智能能力的赋能,通过深度学习等各种机器学习的方法,语音识别、图像识别等能力开始慢慢变得成熟,NLP的能力在某些领域也逐渐可以落地。 所以在人和机器交互过程中,机器开始能够尝试听懂我们所说的话,语音交互开始变得越来越popular。
为什么百度这么重视这件事情?因为每一次的科技的进步,大的进步,基本上都是由交互来驱动的。从最开始在鼠标键盘时代,世界上最大的公司是微软。微软当时基本上只做了一个体验,就是鼠标和键盘的体验,把它做到了最优。移动时代又出现另外一家伟大的公司,就是现在市值最高的一家公司苹果,把这种交互做对了。所以它推动了整个移动智能社会的前进,开拓了难以想象的巨大的科技市场。
“霾”,读作:mái,基本意思为:空气中因悬浮着大量的烟、尘等微粒而形成的混浊现象,能见度小于10千米。通称阴霾。
我们觉得在新的时代通过自然语言对话,我们有机会跟每一个计算机、每个手机、每个桌子甚至每个椅子去对话,在我们需要的时候我们就跟它对话,在新的场景里面去对话,这样的市场将会比原来市场大得多。每个人与搜索引擎去互动,或者跟互联网去交流,获取信息服务,都是一种更加便捷的交互。所以第三次交互的革命将会引发非常多创新。
第二个市场就是车载市场。因为车本身就是双手被固定在方向盘上的一个场景,用户的一个很自然的需求,就是通过跟车的交互去获取车上的信息和服务。这个时候最自然的一种交互就是语音交互。所以从今年开始大家也可以看到在一些新车上,尤其是以互联网汽车为标签的新车上,语音交互已经成为了标准配置。
还有就是手机和可穿戴设备。我们平台上现在最活跃的一个设备是手表,比如儿童手表。每年在中国能卖大概上千万的智能手表,但是在中国这种手表主要是消费给了儿童群体,在这个群体里面用语音交互就是最自然的一种交互。预期到2020年,手机和可穿戴设备大概能达到 68%。
回顾一下原来的手机市场,当 IOS 推出之后,大家都发现手指触摸这种体验太好了。但是在安卓系统开放之前,一个厂商大概要花几千万美金,可能才能研发一款手机。但是有了安卓之前,这些厂商投入的资本可能是1/10的原来的投入,所以迅速让智能设备、智能手机变得满地开花,数量和接触人群都在指数级的增长。语音交互也一样,并不是每家公司都能够从头做语音识别、语音合成、语义理解,甚至资源的检索。这个时候百度其实非常有意愿提供语音交互时代的一个底层的操作系统,能够赋能这样的智能设备,让它变成语音交互。
要把语音交互做对的话,有三点要做对:第一是听得清,第二是听得懂,第三是满足得好。
听得清,就是把语音识别成文字的过程。第二,听得懂是真正能够理解文字,能够消化,知道用户的意图。第三,满足。知道用户的意图之后,还能把合适的内容和服务传递给用户。所以这三步缺一不可。
霾(mai二声,埋),也称阴霾、灰霾(烟霾),是指原因不明的因大量烟、尘等微粒悬浮而形成的浑浊现象。~亲,如果你认可我的回答,请点击【采纳为满意回答】按钮~~手机提问的朋友在客户端右上角评价点【采纳回答】即可。
第一步很多的公司都在解决,而且听清的问题已经逐渐被解决。虽然中国还存在着一些地方的口音,但是语音识别的能力基本上是逐渐增强,可以预见,在未来的一两年内,语音识别,听清的这部分可以做得很好。但是在有些固定场景里面,还需要特定的优化。
有时候我们跟人说话,面对面的时候听得很清楚,但换一个位置就可能听不清了,这是因为我们的耳朵有指向性。通常正面对着一个人的时候,收音最好。对计算机也是一样,有阵列之后往往需要一个解决的问题,就是通过阵列能够辨别发音的方向是哪个方向。我们一旦定位发音的方向之后,这个方向的语音识别就会做得更好,这也是通过多麦克阵列来达到的效果。
还有语音唤醒。语音唤醒指现在的计算机麦克风不能时刻收音,以教室为例,旁边的机器声,甚至窗户声会有很多声音杂音进来,让计算机到搞得很乱。语音唤醒是指,通过一个特定的唤醒词,说了这个词之后,机器开始响应,开始听我们的声音。所以语音唤醒相当于人和机器之间进行了一个初次的连接。
还有远场语音识别。远场语音识别是在智能硬件出现之前应用的不太多的一个技术,但随着像智能音箱这样的设备的出现,用户往往跟它的交互式在一米开外的,这个时候的语音识别跟近场手机上的语音识别有很大的不一样。所以在智能硬件这个领域,让一个设备真的可以听清我们说话需要做的新的技术储备。
第二个方面就是听懂。没有大数据没有算法是很难做好听懂的。我用了一个词叫“freestyle”,用户在跟机器沟通过程中,其实他的表达是非常重要的。举个例子,这个词语音识别是“在家为是”,这是我们有一个电视机顶盒在湖南落地的时候,湖南的一些用户检索的日志,然后我们脱敏之后,发现“在家为是”就是“浙江卫视”。所以看语音的时候其实不懂他是什么意思,要真的懂的话,你需要加上地方语音识别的模型,再加上我们在搜索引擎看到用户的搜索数据采集的信号,结合在一起才能真正了解这个是什么意思。所以用户在跟计算机语音交互过程中,要解决听懂的问题。
听清慢慢能够被解决,但是谁能解决听懂谁,谁就基本上跨过了人机交互的一个非常重要的门槛。要解决听懂的方式,就是要通过大数据、通过深度学习算法不停地计算,才能知道用户真正表达的语意是什么。
然后透露一个数据,截止到今年的 1 月份,百度DUEROS 的平台上搭载了激活的设备数,累计已经超过了 5000 万台,相当于是 5000 万的手机、音箱、电视、手表等各种设备都具有了语音识别的能力。每个月的活跃设备超过1000 万。这个数字还在不停的增长,基本上每年我们可能接触的语音智能设备都会翻倍增加。2020 年的时候,智能设备可能会真正走到我们每个人的家庭里面。
一、霾的五笔:feef 二、霾的解释 1.空气中因悬浮着大量的烟、尘等微粒而形成的混浊形象:阴~。2.乱风时空中降下沙土,尘土飞扬。三、出处:霾,也称阴霾、灰霾,是指原因不明的大量烟、尘等微粒悬浮而形成的浑浊。
这里举几个例子,现在都有什么样的语音交互设备,NLP和语音识别都应用在什么样的产品上?比如说早晨的时候会用在智能音箱上,很多人早晨起床的时候会问一下天气,问一下路况。还有在路上的设备,有车载显示屏、耳机等。还有一些机器人和其他设备。
在人工智能时代,软件+硬件是深度结合的趋势。原来我们做语音识别的时候,很多时候是在手机上做。原来微软的触摸,比如Windows8,是在笔记本上可以触摸的。但后来发现虽然触摸交互是对的,但是你放到一个不同的设备上,感觉就不对。很少有人用手指去触摸屏幕。在语音上也是,比如说手机是一个触摸为主的设备,我们原来做语音助手的时候,很多是把语音能力嫁接在手机上,其实用户用手机去进行语音交互的时候,反而没有触摸来的快。所以语音更好应用的场景在哪里?更好是在新的 AI智能硬件上。
百度也做了几款智能音箱的尝试,包括raven H和小度在家。除了中国市场在做对话式人工智能的落地,涉及到语音识别,语义理解交互和内容,国际的巨头也在布局市场,亚马逊,谷歌苹果微软都投入重兵。人工智能终将走近大家的身边,走进寻常百姓家,在生活中有工作的用武之地。
对话环节
清华大学海峡研究院大数据 AI 中心专家委员雷鸣,百度度秘事业部总经理景鲲,清华大学智能技术与系统国家重点实验室主任朱小燕,梅花创投创始合伙人吴世春就NLP在现在和未来的挑战,深度学习、机器学习在NLP中扮演的角色,NLP技术发展落地以及投资等方面的问题,进行了精彩对话。雷鸣认为,人工智能到明年开始逐渐落地,生根发芽,这是解决实际问题的一个过程,在产品落地的过程中,这个市场有特别多的机会。
本系列课程在清华大学学堂在线的直播地址:
关于清华大学《人工智能前沿与产业趋势》系列课程
本课程的主讲老师为清华海峡研究院大数据 AI 生态专委会专家、百度七剑客之一、酷我音乐创始人雷鸣老师,校内指导教授为清华大学理学院院长、地球系统科学系主任宫鹏教授,地学系白玉琪副教授和计算机科学与技术系朱军副教授。
课程已邀请到真格基金创始人徐小平、腾讯 AI Lab 主任张潼、商汤科技联合创始人兼 CEO 徐立、阿里云量子技术首席科学家施尧耘、百度度秘事业部总经理景鲲、国际人工智能联合会理事会主席杨强等 20 多位大咖,包括 BAT 的 AI 业务负责人、知名 AI 企业创始人、AI 领域的知名教授等。
每节课还会现场开展一次 AI 细分领域的圆桌讨论,由百度创始七剑客之一雷鸣老师主持,和主讲嘉宾、教授、知名 VC 组成强大阵容,看大咖观点碰撞,把论坛搬上讲坛。
【加入社群】
新智元 AI 技术 + 产业社群招募中,欢迎对 AI 技术 + 产业落地感兴趣的同学,加小助手微信号: aiera2015_1 入群;通过审核后我们将邀请进群,加入社群后务必修改群备注(姓名 - 公司 - 职位;专业群审核较严,敬请谅解)。