人工智能设备以及操作人工智能设备的方法pdf

 公司新闻     |      2024-02-17 20:46:38    |      小编

  《人工智能设备以及操作人工智能设备的方法.pdf》由会员分享,可在线阅读,更多相关《人工智能设备以及操作人工智能设备的方法.pdf(34页完成版)》请在专利查询网上搜索。

  2、工智能设备以及操作人工智能设备的方 法 (57)摘要 人工智能设备以及操作人工智能设备的方 法。 一种人工智能设备包括被配置为接收语音命 令的麦克风、 扬声器、 被配置为执行与外部人工 智能设备的通信的通信单元以及处理器, 处理器 被配置为经由麦克风接收唤醒命令, 获取接收到 的唤醒命令的第一语音质量水平, 经由通信单元 从外部人工智能设备接收输入到外部人工智能 设备的唤醒命令的第二语音质量水平, 当第一语 音质量水平大于第二语音质量水平时经由扬声 器输出指示人工智能设备被选择作为要被控制 的对象的通知, 经由麦克风接收操作命令, 获取 接收到的操作命令的意图, 并且经由通信单元根 据所获取的。

  3、意图将操作命令发送到将执行与操 作命令相对应的操作的外部人工智能设备。 权利要求书2页 说明书19页 附图12页 CN 111754998 A 2020.10.09 CN 111754998 A 1.一种人工智能设备, 该人工智能设备包括: 麦克风, 所述麦克风被配置为接收语音命令; 扬声器; 通信单元, 所述通信单元被配置为执行与外部人工智能设备的通信; 以及 处理器, 所述处理器被配置为: 经由所述麦克风接收唤醒命令, 获取接收到的所述唤醒命令的第一语音质量水平, 经由所述通信单元从所述外部人工智能设备接收被输入到所述外部人工智能设备的 所述唤醒命令的第二语音质量水平, 当所述第一语音质量。

  4、水平大于所述第二语音质量水平时, 经由所述扬声器输出指示所 述人工智能设备被选择作为要被控制的对象的通知, 经由所述麦克风接收操作命令, 获取接收到的所述操作命令的意图, 并且 经由所述通信单元根据所获取的所述意图将所述操作命令发送到将执行与所述操作 命令相对应的操作的外部人工智能设备。 2.根据权利要求1所述的人工智能设备, 其中, 所述第一语音质量水平和所述第二语音 质量水平中的每一个是所述唤醒命令的关键字语音的功率与环境噪声的功率的比率或者 关键字语音区段的信号与噪声区段的信号的比率中的任意一个。 3.根据权利要求1所述的人工智能设备, 其中, 当所述第一语音质量水平小于所述第二 语音质。

  5、量水平时, 所述处理器经由所述通信单元向所述外部人工智能设备发送指示所述外 部人工智能设备被选择作为要被控制的对象的消息。 4.根据权利要求1所述的人工智能设备, 其中, 当所述第一语音质量水平小于所述第二 语音质量水平时, 所述处理器将所述人工智能设备维持在未激活状态。 5.根据权利要求1所述的人工智能设备, 其中, 所述处理器经由所述通信单元向所述外 部人工智能设备发送指示所述人工智能设备被选择作为要被控制的对象的消息。 6.根据权利要求1所述的人工智能设备, 其中, 所述处理器将接收到的所述操作命令发 送到自然语言处理服务器, 从所述自然语言处理服务器接收意图分析结果, 并且基于接收 到。

  6、的所述意图分析结果获取所述操作命令的意图。 7.根据权利要求6所述的人工智能设备, 其中, 所述意图分析结果包括将执行所述操作 命令的外部人工智能设备以及需要由所述外部人工智能设备执行的操作。 8.根据权利要求1所述的人工智能设备, 其中, 当由所述人工智能设备接收的所述唤醒 命令的音量在合适的范围内并且由所述外部人工智能设备接收的所述唤醒命令的音量不 在合适的范围内时, 所述处理器确定所述第一语音质量水平大于所述第二语音质量水平。 9.一种操作人工智能设备的方法, 所述方法包括以下步骤: 接收唤醒命令; 获取接收到的所述唤醒命令的第一语音质量水平; 从外部人工智能设备接收被输入到所述外部人工。

  7、智能设备的所述唤醒命令的第二语 音质量水平; 当所述第一语音质量水平大于所述第二语音质量水平时, 输出指示所述人工智能设备 权利要求书 1/2 页 2 CN 111754998 A 2 被选择作为要被控制的对象的通知; 接收操作命令; 获取接收到的所述操作命令的意图; 以及 根据所获取的所述意图将所述操作命令发送到将执行与所述操作命令相对应的操作 的外部人工智能设备。 10.根据权利要求9所述的方法, 其中, 所述第一语音质量水平和所述第二语音质量水 平中的每一个是所述唤醒命令的关键字语音的功率与环境噪声的功率的比率或者关键字 语音区段的信号与噪声区段的信号的比率中的任意一个。 11.根据权利。

  8、要求9所述的方法, 所述方法还包括以下步骤: 当所述第一语音质量水平 小于所述第二语音质量水平时向所述外部人工智能设备发送指示所述外部人工智能设备 被选择作为要被控制的对象的消息。 12.根据权利要求9所述的方法, 所述方法还包括以下步骤: 当所述第一语音质量水平 小于所述第二语音质量水平时将所述人工智能设备维持在未激活状态。 13.根据权利要求9所述的方法, 所述方法还包括以下步骤: 经由通信单元向所述外部 人工智能设备发送指示所述人工智能设备被选择作为要被控制的对象的消息。 14.根据权利要求9所述的方法, 其中, 获取所述意图的步骤包括以下步骤: 向自然语言处理服务器发送接收到的所述操作。

  9、命令, 从所述自然语言处理服务器接收意图分析结果, 并且 基于接收到的所述意图分析结果获取所述操作命令的意图。 15.根据权利要求9所述的方法, 所述方法还包括以下步骤: 当由所述人工智能设备接 收的所述唤醒命令的音量在合适的范围内并且由所述外部人工智能设备接收的所述唤醒 命令的音量不在合适的范围内时, 确定所述第一语音质量水平大于所述第二语音质量水 平。 权利要求书 2/2 页 3 CN 111754998 A 3 人工智能设备以及操作人工智能设备的方法 技术领域 0001 本发明涉及人工智能设备, 并且尤其涉及能够响应于用户的唤醒命令来选择要被 激活的设备的人工智能设备。 背景技术 000。

  10、2 在智能电话中开始的语音识别技术的竞争被预期随着物联网(IoT)的扩展而在家 居中变得更加激烈。 0003 特别地, 能够使用语音发出命令并且能够进行谈话的人工智能(AI)设备尤其引人 注意。 0004 语音识别服务具有用于使用大量的数据库对用户的问题选择最佳应答的结构。 0005 语音搜索功能是指在云服务器中将输入的语音数据转换为文本, 分析该文本并且 向设备重传实时搜索结果的方法。 0006 云服务器具有能够根据性别、 年龄和语调(intonation)将大量的词语划分为语音 数据并且实时存储和处理语音数据的计算能力。 0007 随着更多的语音数据被累积, 语音识别将是精确的, 从而实现。

  11、人类奇偶校验 (human parity)。 0008 近来, 能够执行语音识别的多个人工智能设备位于家庭中。 0009 为了选择要被控制的人工智能设备, 用户发出用于激活人工智能设备的唤醒命 令。 0010 然而, 当多个人工智能设备位于家庭中时, 多个人工智能设备可能响应于由用户 发出的唤醒命令而被激活, 从而使得用户难于选择要被控制的设备。 发明内容 0011 技术问题 0012 本发明的目的在于解决上面描述的问题和其它问题。 0013 本发明的另一目的在于提供一种能够使用由用户发出的唤醒命令的语音质量从 多个人工智能设备当中选择要被控制的设备的人工智能设备。 0014 本发明的另一目的。

  12、在于提供一种能够根据由用户发出的唤醒命令的音量从多个 人工智能设备当中选择要被控制的设备的人工智能设备。 0015 技术方案 0016 根据本发明一个实施例的人工智能设备能够将通过其接收的唤醒命令的第一语 音质量与从外部人工智能设备接收的唤醒命令的第二语音质量进行比较, 从而选择已接收 到具有更好质量的唤醒命令的设备。 0017 根据本发明一个实施例的人工智能设备能够确定唤醒命令的音量是否在合适的 话语音量范围内并且当音量在合适的话语音量范围内时选择人工智能设备本身作为要被 控制的设备。 说明书 1/19 页 4 CN 111754998 A 4 0018 通过下面的详细描述, 本发明的适用性。

  13、的进一步的范围将变得明晰。 然而, 应该理 解, 由于在本发明的精神和范围内的各种变化和修改对于本领域普通技术人员将变得明 显, 所以诸如本发明优选实施例的详细描述和具体示例仅以说明的方式给出。 0019 有益效果 0020 根据本发明的实施例, 由于根据唤醒命令的语音质量来选择要被控制的设备, 因 此用户能够容易地选择要被控制的设备。 0021 根据本发明的实施例, 由于根据唤醒命令的音量来选择要被控制的设备, 因此用 户能够通过仅改变他们声音的音量而没有混淆地选择要被控制的设备。 附图说明 0022 图1是示出根据本发明的人工智能设备的框图。 0023 图2是示出根据本发明的一个实施例的语。

  14、音系统的图。 0024 图3是示出根据本发明的一个实施例的从语音信号中提取用户的话语特征的处理 的图。 0025 图4是示出根据本发明的一个实施例的将语音信号转换为功率谱的示例的图。 0026 图5是示出根据本发明的一个实施例的操作人工智能系统的方法的图。 0027 图6是示出根据本发明的一个实施例的测量语音质量水平的示例的图。 0028 图7是示出操作图5中所示的人工智能系统的方法的实际使用场景的图。 0029 图8是示出根据本发明的一个实施例的操作人工智能设备的方法的流程图。 0030 图9和图10是示出根据本发明的一个实施例响应于用户的唤醒命令从多个人工智 能设备当中选择任意一个设备作为。

  15、要被控制的对象的处理的图。 0031 图11是示出根据本发明的另一实施例的操作人工智能系统的方法的梯形图。 0032 图12和图13是示出当障碍物位于用户和人工智能设备之间时校正唤醒命令的音 量的方法的图。 0033 图14是示出根据本发明的另一实施例的操作人工智能设备的方法的流程图。 0034 图15和图16是示出根据用户移动检测自动调节音量的合适的范围的处理的图。 0035 图17是示出根据本发明的一个实施例的当多个人工智能设备设置在固定位置中 时注册每一个设备的合适的话语音量范围的处理的图。 具体实施方式 0036 现在将参照附图根据本文公开的示例性实施例进行详细描述。 为了参照附图进行。

  16、 简要描述, 对相同或者等同的部件可以提供相同的附图标记, 并且将不重复对其的描述。 一 般而言, 诸如 “模块” 或者 “单元” 的后缀可以用于指代元件或者部件。 本文使用这样的后缀 仅仅意在便于说明书的描述, 并且后缀本身并不意在具有任何特殊的含义或功能。 在本公 开中, 为了简洁, 一般省去了对于本领域普通技术人员而言公知的技术。 附图用于帮助更容 易地理解各种技术特征并且应该理解, 本文呈现的实施例并不受附图限制。 由此, 本公开应 该被解释为延伸到除了在附图中特别指出的内容之外的任何改变、 等效或者替换。 0037 尽管可能使用包括 “第一” 、“第二” 等的序数来描述各种部件, 但。

  17、是这些表示并不 意在对部件进行限制。 这些表述可以用于将一个部件与另一部件区分开。 说明书 2/19 页 5 CN 111754998 A 5 0038 当表述为部件 “联接到/联接于” 或 “连接到” 另一部件时, 应该理解为该一个部件 直接地或者经由位于其间的任何其它部件连接到该另一部件。 另一方面, 当表述为部件 “直 接连接到” 或 “直接联接到” 另一部件时, 应该理解为在部件之间不存在其它部件。 0039 在本说明书中描述的人工智能设备可以包括蜂窝电话、 智能电话、 膝上型计算机、 数字广播人工智能设备、 个人数字助理(PDA)、 便携式多媒体播放器(PMP)、 导航器、 便携式 。

  18、计算机(PC)、 板型PC、 平板PC、 超级本、 可穿戴设备(例如, 智能手表、 智能眼镜、 头戴式显示 器(HMD)等等。 0040 然而, 在本说明书中描述的人工智能设备100可以应用于诸如智能TV、 桌面型计算 机或者数字标牌的固定人工智能设备。 0041 此外, 根据本发明实施例的人工智能设备100能够应用于固定或者移动的机器人。 0042 此外, 根据本发明实施例的人工智能设备100可以执行语音代理(speech agent) 的功能。 语音代理可以是用于识别用户的语音并且可听地输出适合于用户的被识别的语音 的响应的程序。 0043 人工智能设备100可以包括无线、 感测 单元140、 输出单元150、 接口160、 存储器170、 处理器180和电源190。 0044 无线、 无线 广播接收模块111经由广播信道从外部广播管理服务器接收广播信号和/或广播 相关信息。 0046 移动通信设备112可以通过根据用于移动通信的技术标准或通信方法(例如, 全球 移动通信系统(GSM)、 码分多址(CDMA)、 CDMA 2000(码分多址2000)、 EV-DO(增强型语音数据 优。

  20、化或者仅增强型语音数据)、 宽带CDMA(WCDMA)、 高速下行链路分组接入(HSDPA)、 HSUPA (高速上行链路分组接入)、 长期演进(LTE)、 LTE-A(长期演进高级)等)而建立的移动通信网 络来向基站、 外部终端和服务器等中的至少一个发送无线信号和/或从基站、 外部终端和服 务器等中的至少一个接收无线 无线被配置为便于无线互联网接入。 该模块可以被安装在人工智 能设备100的内部或者外部。 无线可以根据无线互联网技术经由通信网络发 送和/或接收无线 这样的无线互联网接入的示例包括无线LAN(WLAN)、 无线、度(Wi-Fi)、 Wi-Fi直 接互联、 数字现场网络联盟(DLNA)、 无线宽带(WiBro)、 微波接入全球互通(WiMAX)、 高速下 行链路分组接入(HSDPA)、 HSUPA(高速上行链路分组接入)、 长期演进(LTE)和LTE-A(长期演 进高级)等。 0049 短程通信模块114被配置为便利于短程通信并且支持使用BluetoothTM、 射频识别 (RFID)、 红外数据关联(IrDA)、 超宽带(UWE)、 ZigBee、 近场通信(NFC)、 无线保真度(Wi-Fi)、 Wi-Fi直接互联和无线USB(无线通用串行总线、为获取移动人工智能设备的位置(或者当前位置)。 其代表性示例包括全球定位系统(GPS)模块或Wi-Fi模块。 作为一个示例, 当人工智能设备 使用GPS模块时, 可以使用从GPS卫星发送的信号来获取移动人工智能设备的位置。 0051 输入单元120可以包括用于接收视频信号的相机121、 用于接收音频信号的麦克风 说明书 3/19 页 6 CN 111754998 A 6 122以及用于从用户接收信息的用户输入单元123。 0052 通过输入单元120收集的声音数据或图像数据可以被分析和处理为用户的控制命 令。 0053 输入设备120可以接收视频信息(或者信号)、 音频信息(或者信号)、 数据。

  23、或者用户 输入信息。 对于视频信息的接收, 人工智能设备100可以包括一个或多个相机121。 0054 相机121可以处理在视频呼叫模式或图像捕获模式下通过图像传感器获得的静止 图像或者移动图像的图像帧。 经处理的图像帧可以被显示在显示器151上或者被存储在存 储器170中。 0055 麦克风122将外部声学信号处理为电音频数据。 经处理的音频数据可以根据在人 工智能设备100中执行的功能(应用程序)而以各种方式被使用。 同时, 麦克风122可以包括 各种噪声去除算法以去除在接收外部声学信号的过程中产生的噪声。 0056 当经由用户输入单元123接收信息时, 用户输入单元123从用户接收信息。。

  24、 0057 处理器180可以与输入的信息相对应地控制人工智能设备100的操作。 0058 用户输入单元123可以包括机械输入元件(例如, 机械按键、 位于人工智能设备100 的前表面和/或后表面或者侧表面上的按钮、 圆顶开关(dome switch)、 滚轮和滚轮开关等) 或者触摸输入元件。 作为一个示例, 触摸输入元件可以是通过软件处理而显示在触摸屏上 的虚拟键、 软键或者可视键, 或者位于除了触摸屏之外的位置的触摸键。 0059 学习处理器130可以被配置为对要用于数据挖掘、 数据分析、 智能决策、 机器学习 算法和技术的信息进行接收、 分类、 存储和输出。 0060 学习处理器130可以。

  25、包括一个或多个存储器单元, 所述一个或多个存储器单元被 配置为存储由人工智能设备按照预定方式或者另一方式接收、 检测、 感测、 生成或者输出的 数据或者由另一部件、 设备、 人工智能设备或者与人工智能设备通信的设备按照预定方式 或者另一方式接收、 检测、 感测、 生成或者输出的数据。 0061 学习处理器130可以包括与人工智能设备集成或者实现在人工智能设备中的存储 器。 在一些实施例中, 学习处理器130可以使用存储器170实现。 0062 选择性地或者另外地, 学习处理器130可以使用例如直接联接到人工智能设备的 外部存储器或者被保持在与人工智能设备通信的服务器中的存储器之类的与人工智能设。

  26、 备相关的存储器来实现。 0063 在另一实施例中, 学习处理器130可以使用被保持在云计算环境或者可由人工智 能设备经由诸如网络的通信方案而访问的另一远程存储器中的存储器来实现。 0064 学习处理器130可以被配置为将数据存储在一个或多个数据库中以便识别、 索引、 分类、 操纵、 存储、 检索和输出要用于监督学习或者非监督学习、 数据挖掘、 预测分析或者其 它机器的数据。 0065 存储在学习处理器130中的信息可以由人工智能设备的一个或多个其它控制器或 者由使用不同类型的数据分析算法和机器学习算法中的任意一种的处理器180使用。 0066 这样的算法的示例包括K最邻近系统、 模糊逻辑(例。

  27、如, 可能性理论)、 神经网络、 玻 尔兹曼机、 矢量量化、 脉冲神经网络、 支持向量机、 最大余量分类器、 爬山、 归纳逻辑系统贝 叶斯网络、 佩特里网(Petri Net)(例如, 有限状态机、 Mealy机或者摩尔有限状态机)、 分类 树(例如, 感知树、 支持向量树、 马尔科夫树、 决策树森林、 随机森林)、 投注模型和系统、 人工 说明书 4/19 页 7 CN 111754998 A 7 融合、 传感器融合、 图像融合、 强化学习、 增强现实、 模式识别和自动规划。 0067 处理器180可以使用数据分析和机器学习算法来做出决策并且基于生成的信息确 定或预测人工智能设备的至少一个可。

  28、执行操作。 为此, 处理器180可以请求、 检索、 接收或者 使用处理器130的数据并且控制人工智能设备执行至少一个可执行操作的优选操作或者预 测操作。 0068 处理器180可以执行用于实现智能仿真的各种功能(即, 基于知识的系统、 推断系 统和知识获取系统)。 这可应用于包括自适应系统、 机器学习系统、 人工神经系统等的各种 类型的系统(例如, 模糊逻辑系统)。 0069 处理器180可以包括用于使得能够进行涉及语音和自然语言语音处理的操作的子 模块, 例如I/O处理模块、 环境条件模块、 语音到文本(STT)处理模块、 自然语言处理模块、 工 作流处理模块和服务处理模块。 0070 每一。

  29、个这样的子模块可以访问在人工智能设备处的一个或多个系统或数据和模 型, 或者其子集或者超集(superset)。 此外, 每一个子模块可以提供包括词汇索引、 用户数 据、 工作流模型、 服务模型和自动语音识别(ASR)系统的各种功能。 0071 在另一实施例中, 处理器180或者人工智能设备的其它方面可以经由上述的子模 块、 系统或者数据和模型实现。 0072 在一些实施例中, 基于学习处理器130的数据, 处理器180可以被配置为基于上下 文条件或者在用户输入或自然语言输入中表达的用户的意图来检测和感测要求。 0073 处理器180可以基于上下文条件或者用户的意图而主动地推导(derive)。

  30、和获取 (acquire)完全确定要求所需的信息。 例如, 处理器180可以通过分析包括历史输入和输出 的历史数据、 模式匹配、 非模糊词语和输入意图等而主动地推导确定要求所需的信息。 0074 处理器180可以确定用于执行对基于上下文条件和用户的意图的要求进行响应的 功能的任务流。 0075 处理器180可以被配置为经由人工智能设备处的一个或多个感测部件来收集、 感 测、 提取、 检测和/或接收用于数据分析和机器学习操作的信号或数据, 以便从学习处理器 130收集用于处理和存储的信息。 0076 信息收集可以包括经由传感器感测信息、 提取存储在存储器170中的信息, 或者经 由通信单元从另一。

  31、人工智能设备、 实体或者外部存储设备接收信息。 0077 处理器180可以从人工智能设备收集和存储使用历史信息。 0078 处理器180可以使用所存储的使用历史信息和预测建模确定用于执行特定功能的 最佳匹配。 0079 处理器180可以经由感测单元140接收或者感测周围环境信息或者其它信息。 0080 处理器180可以经由无线接收广播信号和/或广播相关信息、 无线接收图像信息(或者与其相对应的信号)、 音频信号 (或者与其相对应的信号)、 数据或者用户输入信息。 0082 处理器180可以实时收集信息、 处理或者分类信。

  32、息(例如, 知识图表、 命令策略、 个 性化数据库、 对话引擎等), 并且将经处理的信息存储在存储器170或者学习处理器130中。 0083 当基于数据分析以及机器学习算法和技术确定人工智能设备的操作时, 处理器 说明书 5/19 页 8 CN 111754998 A 8 180可以控制人工智能设备的部件以便执行所确定的操作。 处理器180可以根据控制命令控 制终端并且执行经所确定的操作。 0084 当执行特定操作时, 处理器180可以经由数据分析以及机器学习算法和技术来分 析指示特定操作的执行的历史信息, 并且基于经分析的信息来更新先前学习的信息。 0085 因此, 处理器180可以连同学习。

  33、处理器130一起基于经更新的信息改善数据分析以 及机器学习算法和技术的将来性能的精确度。 0086 感测单元140可以包括被配置为感测移动人工智能设备的内部信息、 移动人工智 能设备的周围环境和用户信息等的一个或多个传感器。 0087 例如, 感测单元140可以包括邻近传感器141、 照明传感器142、 触摸传感器、 加速度 传感器、 磁传感器、 重力传感器、 陀螺仪传感器、 运动传感器、 RGB传感器、 红外(IR)传感器、 指纹扫描传感器、 超声传感器、 光学传感器(例如, 相机121)、 麦克风122、 电池量表、 环境传 感器(例如, 气压计、 湿度计、 温度计、 辐射检测传感器、 热。

  34、传感器和气体传感器)、 化学传感 器(例如, 电子鼻、 健康护理传感器和生物传感器等)。 本说明书中公开的移动人工智能设备 可以被配置为组合并利用从这样的传感器中的至少两个传感器获得的信息。 0088 输出单元150一般被配置为输出各种类型的信息, 例如音频、 视频和触觉输出等。 输出单元150可以包括显示器151、 音频输出模块152、 触觉模块(haptic module)153和光输 出单元154。 0089 显示器151通常被配置为显示(输出)在人工智能设备100中处理的信息。 例如, 显 示器151可以显示由人工智能设备100执行的应用程序的执行屏幕信息或者根据经执行的 屏幕信息的用。

  35、户界面(UI)和图形用户界面(GUI)信息。 0090 显示器151可以具有带有触摸传感器的夹层(inter-layered)结构或集成结构以 便实现触摸屏。 触摸屏可以在人工智能设备100与用户之间提供输出接口, 并且用作在人工 智能设备100和用户之间提供输入接口的用户输入单元123。 0091 音频输出模块152通常被配置为在呼叫信号接收模式、 呼叫模式、 记录模式、 语音 识别模式和广播接收模式等中输出从无线接收到的或者存储在存储器170中 的音频数据。 0092 音频输出模块152还可以包括接收器、 扬声器或蜂鸣器等。 0093 触觉模块153可以被配置为生成用户感觉到。

  36、的各种触感效应(tactile effect)。 由触觉模块153生成的触感效应的典型示例是振动。 0094 光输出单元154可以使用人工智能设备100的光源的光输出用于指示事件生成的 信号。 在人工智能设备100中生成的事件的示例可以包括消息接收、 呼叫信号接收、 未接来 电、 警报、 调度通知、 电子邮件接收和经由应用等的信息接收等。 0095 接口160用作要与人工智能设备100连接的外部设备的接口。 接口160可以包括有 线或者无线耳麦(headset)端口、 外部电源端口、 有线或者无线数据端口、 存储器卡端口、 用 于连接具有识别模块的设备的端口、 音频输入/输出(I/O)端口、 。

  37、视频I/O端口或耳机端口 等。 人工智能设备100可以与外部设备到接口160的连接相对应地执行与所连接的外部设备 相关的合适控制。 0096 识别模块可以是存储用于准许人工智能设备的使用授权的各种信息的芯片并且 可以包括用户识别模块(UIM)、 订户识别模块(SIM)和通用订户识别模块(USIM)等。 此外, 具 说明书 6/19 页 9 CN 111754998 A 9 有识别模块的设备(本文也被称为 “识别设备” )可以采取智能卡的形式。 因此, 识别设备能 够经由接口160与人工智能设备100连接。 0097 存储器170可以存储支持人工智能设备100的各种功能的数据。 0098 存储器。

  38、170可以存储在人工智能设备100中执行的多个应用程序或者应用, 用于人 工智能设备100的操作的数据和命令, 以及用于学习处理器130的操作的数据(例如, 用于机 器学习的至少一条算法信息)。 0099 除了与应用程序有关的操作之外, 处理器180通常控制人工智能设备100的整体操 作。 处理器180可以处理经由上面描述的部件而输入或者输出的信号、 数据、 信息等或者执 行存储在存储器170中的应用程序, 从而处理或者向用户提供合适的信息或功能。 0100 此外, 处理器180可以控制参照图1描述的部件中的至少一些以便执行存储在存储 器170中的应用程序。 进而, 处理器180可以操作被包括。

  39、在人工智能设备100中的部件中的至 少两个的组合, 以便执行应用程序。 0101 电源190接收外部电力或者内部电力并且在控制器180的控制下供应操作被包括 在人工智能设备100中的各个部件所需的合适的电力。 电源190可以包括电池, 并且电池可 以是内置的或者可充电电池。 0102 同时, 如上所述, 处理器180控制与人工智能设备100的应用程序和整体操作相关 的操作。 例如, 当移动人工智能设备的状态满足设置的条件时, 处理器180可以执行或者释 放用于对应用限制用户的控制命令的输入的锁定功能。 0103 图2是示出根据本发明的实施例的语音系统的图。 0104 参照图2, 语音系统1包括。

  40、人工智能设备100、 语音到文本(STT)服务器10、 自然语言 处理(NLP)服务器20和语音合成服务器30。 0105 人工智能设备100可以向STT服务器10发送语音数据。 0106 STT服务器10可以将从人工智能设备100接收的语音数据转换为文本数据。 0107 STT服务器10可以使用语言模型增加语音文本转换的精确度。 0108 语言模型可以意指能够在给出在前词语时计算句子的概率或者输出下一个词语 的概率的模型。 0109 例如, 语言模型可以包括诸如一元语法模型(unigram model)、 二元语法模型和N 元语法(N-gram)模型等的概率语言模型。 0110 一元语法模型。

  41、是指假设所有词语的使用完全独立于彼此并且通过词语的概率的 乘积来计算词语串的概率的模型。 0111 二元语法模型是指假设词语的使用仅取决于一个在前词语的模型。 0112 N-gram模型是指假设词语的使用取决于(n-1)个在前词语的模型。 0113 即, STT服务器10可以使用语言模型确定语音数据何时被适当地转换为文本数据, 从而增加转换为文本数据的精确度。 0114 NLP服务器20可以从STT服务器10接收文本数据。 NLP服务器20可以基于接收到的 文本数据分析文本数据的意图。 0115 NLP服务器20可以向人工智能设备100发送指示执行意图分析的结果的意图分析 信息。 0116 N。

  42、LP服务器20可以依次执行针对文本数据的语素(morpheme)分析步骤、 句法分析 说明书 7/19 页 10 CN 111754998 A 10 步骤、 语音行为分析步骤、 对话处理步骤, 从而生成意图分析信息。 0117 语素分析步骤是指将与用户发出的语音相对应的文本数据分类为作为具有意义 的最小单位的语素, 并且确定经分类的语素中的每一个的语音部分的步骤人工智能设备以及操作人工智能设备的方法pdf。 0118 句法分析步骤是指使用语素分析步骤的结果将文本数据分类为名词短语、 动词短 语、 形容词短语等并且确定经分类的短语之间的关系的步骤。 0119 经由句法分析步骤, 可以确定由用户发出的语音的主语、 谓语和修饰词。 0120 。

  43、语音行为分析步骤是指使用句法分析步骤的结果分析由用户发出的语音的意图 的步骤。 具体地, 语音行为步骤是指确定句子的意图(例如用户是询问问题、 做出请求还是 表达简单的情感)的步骤。 0121 对话处理步骤是指确定是回答用户的话语(utterance)、 对用户的话语做出响应 还是询问更多信息。 0122 NLP服务器20可以在对话处理步骤之后生成意图分析信息, 意图分析信息包括回 答用户的话语、 响应用户的话语或者询问关于用户的话语的意图的更多信息中的至少一 个。 0123 同时, NLP服务器20可以从人工智能设备100接收文本数据。 例如, 当人工智能设备 100支持语音到文本转换功能时。

  44、, 人工智能设备100可以将语音数据转换为文本数据并且将 经转换的文本数据发送到NLP服务器20。 0124 语音合成服务器30可以合成预存储的语音数据以生成经合成的语音。 0125 语音合成服务器30可以记录被选择作为模型的用户的语音并且将所记录的语音 划分为音节(syllable)或者词语。 语音合成服务器30可以将经划分的语音以音节或者词语 为单位存储在内部或外部数据库中。 0126 语音合成服务器30可以从数据库检索与给定的文本数据相对应的音节或者词语 并且合成所检索到的音节或者词语, 从而生成经合成的语音。 0127 语音合成服务器30可以存储分别与多个语言相对应的多个语音语言组。 。

  45、0128 例如, 语音合成服务器30可以包括以韩语记录的第一语音语言组和以英语记录的 第二语音语言组。 0129 语音合成服务器30可以将第一语言的文本数据翻译为第二语言的文本并且使用 第二语音语言组生成与经翻译的第二语言的文本相对应的经合成的语音。 0130 语音合成服务器30可以向人工智能设备100发送经合成的语音。 0131 语音合成服务器30可以从NLP服务器20接收意图分析信息。 0132 语音合成服务器30可以基于意图分析信息生成包括用户的意图的经合成的语音。 0133 在一个实施例中, STT服务器10、 NLP服务器20和语音合成服务器30可以被实现为 一个服务器。 0134 。

  46、STT服务器10、 NLP服务器20和语音合成服务器30的相应功能也可以在人工智能设 备100中执行。 为此, 人工智能设备100可以包括多个处理器。 0135 图3是示出根据本发明的一个实施例的从语音信号提取用户的话语特征的处理的 图。 0136 图1中示出的人工智能设备100可以进一步包括音频处理器181。 0137 音频处理器181可以被实现为与处理器180分开的芯片或者被包括在处理器180中 说明书 8/19 页 11 CN 111754998 A 11 的芯片。 0138 音频处理器181可以从语音信号中去除噪声。 0139 音频处理器181可以将语音信号转换为文本数据。 为此, 音。

  47、频处理器181可以包括 STT引擎。 0140 音频处理器181可以识别用于激活人工智能设备100的语音识别的唤醒词语。 音频 处理器181可以将经由麦克风122接收的唤醒词语转换为文本数据并且当经转换的文本数 据与预存储的唤醒词语相对应时确定唤醒词语被识别。 0141 音频处理器181可以将噪声被去除的语音信号转换为功率谱(power spectrum)。 0142 功率谱可以是指示被包括在随着时间变化的语音信号的波形中的频率分量及其 幅值的参数。 0143 功率谱示出了根据语音信号的波形的频率的幅值平方值的分布。 0144 这将参照图4进行描述。 0145 图4是示出根据本发明的一个实施例。

  48、的将语音信号转换为功率谱的示例的图。 0146 参照图4, 示出了语音信号410。 语音信号410可以经由麦克风122被接收或者被预 存储在存储器170中。 0147 语音信号410的x轴表示时间并且y轴表示幅值。 0148 音频处理器181可以将x轴是时间轴的语音信号410转换为x轴是频率轴的功率谱 430。 0149 音频处理器181可以使用快速傅里叶变换(FFT)将语音信号410转换为功率谱430。 0150 功率谱430的x轴表示频率并且功率谱430的y轴表示幅值的平方值。 0151 将再次描述图3。 0152 处理器180可以使用从音频处理器181接收的功率谱430或者文本数据中的至。

  49、少一 个来确定用户的线 用户的话语特征可以包括用户的性别、 用户的语调(pitch)、 用户的音调(tone)、 用户发出的主题、 用户的话语速度、 用户的声音的音量等。 0154 处理器180可以使用功率谱430获取语音信号410的频率以及与频率相对应的幅 值。 0155 处理器180可以使用功率谱430的频带来确定发出语音的用户的性别。 0156 例如, 当功率谱430的频带在预定的第一频带范围内时, 处理器180可以确定用户 的性别为男。 0157 当功率谱430的频带在预定的第二频带范围内时, 处理器180可以确定用户的性别 为女。 这里, 第二频带范围可以大于第一频。

  50、带范围。 0158 处理器180可以使用功率谱430的频带来确定语音的语调。 0159 例如, 处理器180可以根据特定频带范围内的幅值确定语音的语调。 0160 处理器180可以使用功率谱430的频带来确定用户的音调。 例如, 处理器180可以确 定将功率谱430的频带中具有某一幅值或者更大幅值的频带确定为用户的主声区 (register)并且将所确定的主声区确定为用户的音调。 0161 处理器180可以根据经转换的文本数据经由每单位时间发出的音节的数量来确定 用户的线 处理器180可以使用针对经转换的文本数据。