• 学前教育
  • 小学学习
  • 初中学习
  • 高中学习
  • 语文学习
  • 数学学习
  • 英语学习
  • 作文范文
  • 文科资料
  • 理科资料
  • 文档大全
  • 当前位置: 雅意学习网 > 英语学习 > 正文

    航天三维可视化系统中语音控制技术的研究与应用

    时间:2020-12-08 20:05:36 来源:雅意学习网 本文已影响 雅意学习网手机站

    http://img1.qikan.com.cn/qkimages/moet/moet201508/moet20150843-1-l.jpghttp://img1.qikan.com.cn/qkimages/moet/moet201508/moet20150843-2-l.jpghttp://img1.qikan.com.cn/qkimages/moet/moet201508/moet20150843-3-l.jpg
      摘 要: 语音控制技术作为一种有效的自动化控制方法在航天领域有着广阔的应用前景。基于Kinect设备,将语音控制技术运用于航天三维可视化系统的智能控制,通过语音指令采集、预处理、语音识别和三维可视化界面控制,实现了一套完整的航天三维可视化系统的语音控制方案。测试结果表明,该语音控制方案能有效识别用户的语音命令,并完成对三维可视化界面的控制。
      关键词: 语音控制; 语音识别; 航天三维可视化; Kinect
      中图分类号: TN912?34 文献标识码: A 文章编号: 1004?373X(2015)08?0151?03
      三维可视化展示在航天领域有着极其重要的地位,指挥显示系统需要通过三维可视化展示向各级指挥员直观地显示航天器发射的过程。在实际应用中,传统的可视化控制方式是指挥员向可视化操作人员下达指令,然后由操作人员完成三维可视化系统的操作,包括视角的切换、推远、拉近以及关键动作的控制等。这种控制模式在很大程度上限制了指挥员对于三维可视化系统的自由控制,并且加重了三维可视化操作人员的工作负担。同时,传统控制模式不能实现远距离控制,指挥员的位置与三维可视化操控台要控制在一定的距离内。而语音识别技术能够很好地解决这些问题,通过语音识别技术,指挥员可直接向三维可视化服务器下达口令,无需通过操作人员进行控制,并能解除指挥员与操控台距离的限制。
      语音识别技术是通过识别说话者声音标识而正确判断出声音所传递的信息,以方便实现相关处理和控制[1]。近年来该技术在军事、工业、家电、通信、医疗[2]等诸多领域得到广泛应用,如电灯等家用电器的控制,通过语音识别可以实现设备的控制自动化等[3]。张建等人将语音识别技术应用到雷达模拟系统中,通过设置语音服务器将内话通信系统与语音识别相结合,运用语音命令输入进行模拟控制,降低了模拟机长的工作负担,提高了工作效率[4]。孙爱中等人对基于DSP的语音识别系统进行了研究,实现了在移动电子设备上的汉字语音输入[5]。另外,语音识别技术在机器人控制[6]、机器狗控制系统模型[7] 方面也有应用。随着航空航天领域的发展,语音识别在机载语音控制方面也有相关研究[8]。
      本文基于语音识别技术设计了一套航天可视化界面控制系统,通过识别三维可视化常用控制命令,实现指挥员对显示页面的直接语音控制,突破传统指挥控制模式的局限性。
      1 系统结构
      为实现通过语音技术对三维可视化页面完成视角切换、场景放缩等语音控制功能,设计了如下步骤:第一步通过语音采集设备获取指令;第二步运用语音识别系统对获取的指令进行识别;第三步将识别出的指令传递给三维可视化服务器并触发相应控制动作。
      1.1 硬件结构
      硬件设备主要包括三个部分(如图1所示):语音指令采集器、指令识别服务器和三维可视化系统服务器。语音指令采集器主要用于捕获语音指令,并将语音指令转换成音频流传递给指令识别服务器。
      由于Kinect[9]在语音采集和识别方面有很多优良的特性和广泛的应用,这里选择了Kinect作为语音指令采集器。指令识别服务器的主要功能是对Kinect传入的音频进行预处理和语音指令的识别,并将识别出的控制指令发送给三维可视化系统服务器。预处理包括背景噪音去除、回音去除、自动增益控制等内容。由于语音控制指令相对简单,并且指令识别服务器只需要对几条固定的指令进行正确识别,所以对于计算机硬件要求不高。因此,采用一台普通的联想办公电脑作为指令识别服务器。三维可视化系统服务器要完成航天发射过程中各器件的三维模型和状态的展示,并响应从指令识别服务器获取的指令,完成三维可视化页面的操作和控制。由于三维可视化系统服务器在显示各航天器件的三维可视化模型和图像时计算资源开销比较大,所以采用了配置较高的联想工作站(ThinkStation D30)作为三维可视化系统服务器。
      1.2 软件模块
      系统软件模块主要包括语音预处理、语音指令识别、三维可视化界面控制三个模块。
      (1) 语音预处理。从语音指令采集器获取的原始音频数据质量较低,需要通过一系列算法处理来提高音频数据质量,主要处理包括回声消除(Acoustic Echo Cancellation,AEC)、自动增益控制(Acoustic Gain Control,AGS)和噪声抑制(Noise Suppression,NS)。回声消除(AEC)通过提取发声者的声音模式,然后根据这一模式从麦克风接收到的音频中挑选出特定的音频来消除回声。自动增益控制(AGS)用于调整发生者声音振幅与时间保持一致。例如当发声者靠近或者远离麦克风时,声音会出现变得响亮或更柔和,自动增益控制就是将这种变化效果进一步增强。噪声抑制(NS)用于从麦克风接收到的音频信号中剔除非语言声音。通过删除背景噪音,使讲话者的声音能够被麦克风更清楚更明确地捕获到。
      (2) 语音指令识别。语音识别可分为两类:对自由形式的语音识别(Recognition of Free?form Dictation)和对特定命令的识别(Recognition of Command)。自由形式的语音识别需要训练软件来识别特定的声音以提高识别精度,通常让讲话人朗读一段文字使得软件能够识别讲话人声音的特征模式,然后根据这一特征模式来进行识别。而特定命令的识别限制了说话人所讲词汇的范围,基于这一词汇范围,识别软件不需要熟悉讲话人语音模式就可以识别出讲话人所说的内容。针对本文的应用,语音识别引擎只需要识别几种特定的语音指令,因此属于对特定命令的识别。在实际应用中,向语音识别引擎中添加了6种三维可视化界面控制常用的语音命令,包括“打开”、“点火”、“重置”、“推远”、“拉近”、“切换”。语音识别引擎对上述6种指令进行识别,并向三维可视化界面控制模块发送控制信号。

    推荐访问:可视化 航天 语音 控制 研究

    • 文档大全
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章