社会热点
AI热火烧遍全国语音智能助理是热中之热
2023-03-23 10:02  浏览:243

近期AI火箭烧遍全省,语音智能助理是热中之热。各大公司不断加强了对这方面的投入,做平行或则通用领域的初创团队也如雪后笋干般涌现,竞争十分激烈,不少业内人士觉得智能助理将取代APP,成为新的交互模式。还有不少同行对现在的状况进行反省,觉得智能助理产品十分不成熟,必将是过眼云烟。

微生活大众点评_大众点评生活信息助手_大众点评微生活会员卡

《为什么今天的人工智能助理都像人工残障?》中对各家主力产品的考察。从左到右分别是小米的SIRI、微软的、的ALLO

大众点评微生活会员卡_微生活大众点评_大众点评生活信息助手

c公司,也就是笔者工作的出门询问

|智能助理产品的特性

智能助理,顾名思义,是帮助用户完成任务或实现服务的虚拟助理。从键入上,智能助理有语音键入和文字键入,技术上的差别是语音键入要做语音辨识,将语音讯号转化成文字。在相对安静的环境下,语音辨识的字精确率可以抵达97%以上。产品场景上的主要差别是语音对话键入并不须要打字,在辨识精确的状况下键入速率更快,并可以解放手掌和眼睛,因此各个智能助理都有语音辨识功能。智能助理在输出上分文字输出、图像输出、语音输出。现在智能助理产品最主要的形式是语音对话交互。

个人觉得智能助理的语音对话交互,相比传统的APP交互有以下特点:

1)方便性:不须要左手操作,直接说话即可完成键入。

2)键入跨越性:当用户使用某个APP时,用户切换到其他任务时还要打开另外一个APP;同一个APP内用户须要根据图形界面逐层深入,通过键盘和关键词搜索实现APP的功能;而语音交互可以跨越不同APP,跨APP内部的层次,直接提出需求。

3)键入的多样性:语音交互的跨越性自然会带给键入的不确定性。用户直接通过对话完成键入,没有图形界面的限制,键入会愈加无序,同时需求也会更加多样。这就须要强悍的自然语言处理技术理解用户需求和强悍执行能力满足满足用户需求。

同时,语音对话交互相对传统APP交互还有如下劣势:

1)输出信息量更少:传统的APP基于图形界面,能呈现的信息量较大,例如大众点评,我们可以直接通过图片见到饭店的环境,菜肴的卖相。而语音交互输出在这些场景下难以呈现这种信息,输出的信息量更少。

2)通透性差:语音对话交互还要一定音量说出需求,那样会将需求曝露在大庭广众之下。

初期的智能助理都是作为一个外置或用户下载的APP供用户使用。猜想早期各家的看法是将智能助理弄成一个超级APP,弄成流量分发平台,代替各个平行领域的APP。现在相机助手使用率、活跃率、留存率都较低,但是SIRI也不例外。

通过对比APP,我们可以看出,在相机大屏幕,时常在公共场所使用而场景下,语音对话交互未能普及的主要成因如下:

1)通透性差,所有的需求就会被周围人知晓。

腾讯监事长马化腾近来也在文章中提及:“另外一个实例就是语音搜索,我们没有作为重点去做,这个功能看上去便捷,然而或许,例如一个人指着相机说我要去干嘛干嘛,好傻,人一多我都不好意思这样说,但是也不私密,即使多按几下。”。

2)在相机上触屏操作APP并没有比语音交互复杂很多。

3)相机上可以呈现各类图象信息,图形界面的信息量大的优势得以保存。

近期随着智能软件的普及,语音助理渐渐被嵌入各类智能软件中。、基于Wear的、出门询问的等智能腕表或可穿戴设备都外置智能语音助理。因为可穿戴设备屏幕相对相机更小,键入文字、点击触屏相对相机不便于;这些APP难以呈现足够的图片信息;穿戴设备跟用户的亲密度更高。这种诱因令用户在使用穿戴设备时更多使用语音对话交互。出门询问的产品数据也验证了上述观点,腕表的语音搜索,不论是使用率、活跃率、还是存留率,都远低于出门询问的APP。

在用户驾车时,出于安全考虑,还要将精力放到驾驶上,不仅在泊车时可以进行屏幕操作外,语音对话交互几乎是惟一的交互模式。在车载场景下,语音对话交互用户的需求相对愈发集中在地点查询及导航、音乐、音频节目播放等几个低频的领域,用户键入的不确定性相对降低。同时车内是格外私密的环境,你们在公众场所使用语音认为“傻”的问题在车内基本没有。行车中的高安全性,对车载产品提出了操作的无手化、无屏化的需求。车载场景,将是智能助理产品语音对话交互更好的舞台。

京东推出智能耳机Echo遭到用户青睐,来自美国权威机构统计的数字,累计产量早已突破500万台。京东研制的智能助理Alexa成为新的艺人。耳机产品没有屏幕,语音对话交互成了惟一的交互模式。不仅常用的音乐、新闻、打车等功能,Alexa也打通京东帐户支持海淘下单。

现在耳机也成了国外各公司研制的新热点。

去年8月在广州出席雷锋网承办的GAIR会议,顺带去岗顶视察,普通音响的售价普遍在100-200元左右,加了简略语音控制的耳机售价下降到700-800元,一定程度上反应语音对话交互对扬声器产品的价值。屋内的通透性、产品键入方式的惟一性、在家中随时说话的便捷性,都决定智能助理将要在家具产品上得到愈发低频的应用。耳机上语音对话交互,还是要克制。以购物为例,还是有好多问题须要留意。首先是说话人的辨识,假如女儿通过耳机有意或无意下了这些订单,刷爆了父母的信用卡,这必将导致用户和服务商的争端。再者是购物订餐等方面,用户可以运用音响买标准化的产品,如、麦当劳的某款套餐。但用户说我想买一个红色皮夹,白色有好多种,皮夹款式愈发千奇百怪,这对于语音对话交互是一场灾难。

综上所述,简略对比语音对话交互在各场景下的使用状况。笔者觉得,可穿戴、车载产品和家具产品将是语音对话交互模式更好的应用场景。宽广天地,大有可为,也将成为各种智能助理产品的竞技场。产品间的竞争,也将加快你们对技术的投入,智能助理也将越来越智能。

微生活大众点评_大众点评生活信息助手_大众点评微生活会员卡

不同场景下语音对话交互对比

笔者由于工作成因,所在公司出门询问也在不断寻求语音对话交互更好的应用场景,例如车载产品、家居等产品的无手无屏交互,更能发挥语音对话交互特长。以下简略举几个实例:

1)语音快词()

在中,智能语音交互技术有所升级。诸如在导航状态下想要切换地图显示方式,不须要先说“你好询问”热词来启动语音控制,直接说“查看全程”、“3D方式”等语音快词即可直接控制。

2)一说而就(Oneshot)

用户也可以将热词和查询词一起连续说出,而不需等候,如“你好询问,现在的天气如何样”。

3)随时打断(Bargein)

车载产品提供音乐、音频播放等娱乐服务,行进途中假如用户须要从新进行导航或则查看地图,不须要暂停曲目,可直接打断正在播放的曲目来激活操作。

微生活大众点评_大众点评微生活会员卡_大众点评生活信息助手

|智能助理中的主要技术都有什么?

智能助理产品的语音对话交互,还要强悍的技术支持,包括语音辨识、语义理解、搜索技术、智能推荐、语音合成等核心技术。

语音辨识技术将用户的语音键入转换成文字。通常包括四个模块,特性抽取模块、声学模型、语言模型和解码器四部份。

特性抽取模块经过噪声清除、去除信道失真等对声音进行提升,从声音讯号中提取特性向量。在特性抽取模块还要处理噪音、回声、其他人声音干扰的影响。解决思路主要分后端和前端,后端可以运用耳机阵列估算说话人的视角和距离,实现对说话人声音的定向获取,因而实现将环境背景声音过滤。在前端可以通过训练富含噪音数据的模型增加系统的能力。

声学模型把声学特性对应到音素,生成整个序列的声学模型打分。初期运用的是隐马尔科夫-高斯混和模型。后期邓力和等开始开始进行深度学习在语音辨识的探求,DNN急剧增强了精确率。现在研究者运用CTC、RNN、LSTM、TDNN进行探求,都取得了挺好的疗效。

语言模型估算一句话对应的词序列的或许性。最简略的是N语言模型,思想很简略,在上下文中,假定当前词的机率只与之前N-1个词有关,运用条件机率的连乘,得到整句的机率。目前早已也运用血管网路语言模型。

解码器模块整合声学模型、语言模型的信息,找到对键入特性向量最或许的词序列。解码器的核心算法是一种动态规划算法。

随着深度学习应用在语音辨识的声学模型中,语音辨识的精确率得到巨大发展,安静状况下精确率早已到97%以上。

语音辨识技术将语音转化为文字后,还要句法理解技术剖析用户的需求。句法理解技术不同于语音辨识,语音辨识有统一明晰的优化目标;句法理解没有固定的思路和步骤,不同的团队会选用不同的解决方法。虽然这么,仍有迹可循,主体离不开以下模块:

查询分类:对用户的键入进行分类,辨识出用户需求的类型。如“北京今天的天气”,将要被分到天气类,“附近有哪些餐厅”将会分到餐厅类。分类是基本的机器学习任务,主要的工作是清晰的类型定义,高精确的标明数据,选用有分辨度的特点。做好数据和特性的工作,简略的线性分类器,也可以取得很不错的精确率,但为了愈发精准,我们也将深度学习引进到文本分类中。

实体辨识:辨识出用户键入中的实体。如“我想听郭德纲的小品济公传”,辨识出“郭德纲”是小品导演,“济公传”是小品作品。实体辨识是一个典型的序列化标明问题,基本做法是对语句中的每位词标明不同的成份,最后运用机器学习方式进行辨识。如例句中被标明成

“我-O”,“想听-O”,“郭德刚-PER_B”,“的-O”,“济公-”,“传-”。PER、BOOK等是实体的类型信息,“B”、“I”是词在实体的位置信息,“B”表示开头,“I”表示非开头。

指代消解:辨别出指动词的指代关系。如“林丹的女人是谁,她多大了”,我们可以晓得其中的“她”指的是林丹的妻子。现在指代消解问题可以具象成一个分类问题或排序问题,找到最或许的指代关系。

对话技术:对话系统还要理解用户的连续键入,满足用户连续的需求。如用户连续键入“附近的餐厅”、“人均100左右”、“要粤菜”,要辨识出“人均”、“川菜”等都是对餐厅的需求,而不是一个独立的需求在学习用户的行为过程中,发觉用户更多的是逐步提高搜索条件,而不会一句话中提及所有的条件。我们也研制理解上下文的技术,实现多轮的上下文对话。“下周二要去上海,帮我查一下航班”,“有没有南航的”这种问法早已搞定。

NLP安装工程师技术探讨:智能语音助理类产品的未来在那里?

大众点评生活信息助手_微生活大众点评_大众点评微生活会员卡

对话技术样例

问答技术:问答技术分为实体问答和其他类,IBM做的问答系统最先在上打败人类拳手。

实体类问答结束主要分三个部份:

1)问题剖析,剖析问题的类型、需要答案的种类、问题中的宽松关系等;

2)答案抽取,选出各个候选答案;

3)答案排序,找到最佳候选答案。

近期还有专家研究将深度学习to的技术应用在实体问答。假如结合传统的方式,功耗上会有改进,但若果独立使用,并没有现在传统方式好,并且会须要大量的训练数据。这个事例也说明,在自然语言处理领域,并不是所有的状况、所有的领域,深度学习都是最合适的算法。选择方式时要结合规则、数据、特征、模型等进行选择。取法其众大众点评生活信息助手,得其上;取法其上,得其中。

知识图谱技术,在各个平行领域,由于各个API的限制,有些用户多样性的需求现在并不能满足。

如找饭店,各个APP并不能支持“全家宴请”、“有酒吧”等需求的满足。领域诸多,每位领域内需也很复杂,因此有同行觉得这种并不可以实现。对这些观点个人持保留心态,首先需求不是被造下来的,而是实在的存在于用户的行为中;再者每位领域的需求似乎诸多,但在一定时间内可以觉得几乎是一个近似封闭的集合。通过用户的行为剖析,先将问题定性,再将问题定量。在音乐、餐馆、景点导航等泛poi类很多车载、音箱等场景下的重点领域,我们将进行深入的知识图谱挖掘,逐渐将数据结构化,并确立自己的搜索引擎,破除API的限制。

当明晰用户需求后,不仅对接各类APP的API外,还须要搜索技术满足用户的需求。

搜索技术比较成熟,主要分为爬虫、索引、检索、排序等。抓取技术拿来从互联网爬取信息,抓取技术的技术要领在于抓取的覆盖率、实效性和页面的精准解读。爬取信息后将内容进行索引,还要倒排索引和正排索引。倒排索引推行关键词和文档id的关系,并储存某一文档中出现的位置大众点评生活信息助手,拿来找到包含关键词的文档;正排索引跟倒排索引相对,推行文档和文档中词和其他属性的关系,主要拿来对召回的文档进行排序。最后是检索,当用户进行查询时,还要剖析用户的需求,找到满足用户需求的结果。

当我们从数据小学习到用户的习惯、偏好后,还要推荐技术为用户推荐合适的信息、服务和产品。推荐系统有太多不同的底层实现,最基本的步骤是协同过滤,协同过滤的思想是假如两个用户对一系列物品的评价相同度很高,则一个用户对一个物品的评价很或许类似于另一个用户。推荐系统还要解决的几个问题是系统冷启动、推荐的多样性和时效性等。

最后,还要将文字转换语音进行播报的语音合成技术。语音合成技术比较主流的是混和系统,依照统计参数模型,估算出大约的谱参数和杂讯信息,指导条纹系统从语音库中找出最佳的语音基本单元序列,并调整成流利连续的语音。

|小结

通用领域的智能助理不或许解决所有用户的所有问题。

各个平行领域的数据积累和研究日益深入,从低频到高频,问题会被逐步解决。

在特定场景下,用户的需求是特定的,智能助理产品也要结合应用场景。

智能语音助理产品还要强悍的技术支持和持续的技术投入。

虽然一些领域的一些问题处理不好,我们仍不能够定助手产品的价值。你们仍需不断抛光技术产品,为用户愈发智能地提供服务。让人们生活更好的,一定是在路上一步一步坚定不移往前走的人。

微生活大众点评_大众点评生活信息助手_大众点评微生活会员卡

发表评论
0评