好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

Kinect的软实力,来源于CHIP《新电脑》.doc

5页
  • 卖家[上传人]:夏**
  • 文档编号:541775587
  • 上传时间:2023-05-25
  • 文档格式:DOC
  • 文档大小:25.67KB
  • / 5 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • Kinect的软实力自去年11月正式对外发布,Kinect在短短不到一年的时间中迅速蹿红,业界对其特殊的硬件设计也已经进行了诸多介绍,然而真正托起Kinect这颗明星的并不仅仅是其出众的硬件设计,出众的软件算法也是其重要的制胜法宝微软在今年6月正式对外公布了Kinect for Windows SDK Beta,这标志着Kinect正式从游戏领域开始向受众更为广泛的PC领域迈进,并将有可能彻底改写PC人机交互界面的历史,伴随我们几十年的键盘和鼠标在Kinect的攻势下很有可能最终会被我们丢进故纸堆里Kinect何以有如此强大的实力?优秀的硬件结构绝不只是解释这一问题的唯一答案,事实上Kinect所采用的硬件多数不是什么新发明,真正托起这颗新星的是其背后诸多优秀的软件和算法,是这些软实力让Kinect卓越非凡而作为Kinect灵魂的软件与算法有很多来自中国,来自微软亚洲研究院(以下简称MSRA)我知道你是谁任何机器设备,无论是游戏机还是计算机,它们被人所操控,要最先明确的一件事情就是,正在操控我的人是谁?传统的游戏机通过游戏手柄和手柄所对应的Player1、Player2来进行区分,计算机通过用户账户和登录密码来限定和判别访问的用户。

      而对于Kinect这种完全需要借助人们肢体动作进行操控和交互的设备来说,如何区分面前的人是甲还是乙,仍旧存在很大的困难我们不可能要求用户在每次使用前都选择一下自己的身份,甚至为了安全的需要还要在选择后输入一串密码,这将大大影响用户的使用体验,为此Kinect首先要解决人物识别的基本问题身份识别3法则为了解决这个问题MSRA的研究员为Kinect构建了身份识别的3条基础法则,分别是人脸识别、衣服识别和骨骼识别,Kinect根据人的这3项特征进行综合的识别和判断,最终实现对面前人物的准确分辨人脸识别是整个身份识别最重要的一个组成部分,人脸识别技术在PC领域实际上已经发展的十分成熟,MSRA视觉计算组通过采用高维空间的算法,已经可以实现仅仅借助人脸皮肤的一小部分就能对人进行准确地识别但是这种算法在Kinect上并不适用,由于其摄像头分辨率仅为320×240,在1.8m及以上(Kinect的设计工作距离)距离的情况下,摄像头所能提供的面部的像素数据十分有限,并不适用于进行高维计算另外,由于用户使用Kinect的环境有很大的差异,光线的明暗、色温和人的表情都不在可控范围内,这种非控制环境的人脸识别本身也存在难度。

      为了能让Kinect的人脸识别更加有效,MSRA的研究院采用了抽取人脸中层结构特征的方式,这种中频的特征虽然无法提供100%的准确识别率,但是仍旧能够提供85%左右的识别准确率这种纯二维的图片识别算法也被应用在Windows Live Photo Gallery中,借助这种识别算法的帮助,Windows Live Photo Gallery能够识别区分照片中的人物,并据此实现自动照片分组对于在短时间内需要多次进行身份识别的场合,例如在进行一个游戏的过程中,一个人暂时离开游戏去接,之后又返回继续游戏的情况,另外一种身份识别方式会更为快捷和高效,那就是衣物识别因为在这种短期内,人们更换服装的概率很低,为此MSRA的研究员特别加入了衣物识别这种识别技术首先区分人体的各个部分,如身体、四肢,之后再分别抽取不同部分的颜色和纹理,通过这些颜色和纹理总结出这一部分的表面特征这些特征信息虽然都保存的是原始的彩色信息,但是通过一些算法可以使该识别技术对环境光线相对不敏感,以减少色温变化对识别产生的影响例如通常在钨丝灯下的白衣服比在荧光灯下的看起来偏黄,而Kinect仍旧能够正常地识别出这是相同的一件白衣服。

      骨骼识别是Kinect识别身份的另外一个重要依据,通过抽取和分析人们骨骼的特征信息,如身高来进行身份判别这种技术在某些情况下具备极高的效率和准确率例如,识别家中身高差异明显的大人和小孩的时候,这种技术就尤为实用这种算法十分巧妙地利用了Kinect的硬件特征,与传统的摄像头不同,Kinect能够提供包含深度信息的图像,可以上下摆动扫描人物,并可提供扫描时的俯仰角信息借助深度信息、俯仰角、人物影像高度这3种信息可以帮助准确计算出人物的真实身高人物与Kinect的距离即使发生变化,或者Kinect的摆放高度有变化都不会影响判断的准确性综合判别为了提高识别的成功率并保证识别的效率,MSRA综合采用上述3种识别方式的结果,并根据应用场合的不同进行合理的选择首先在整个Kinect的平台体系中,人脸识别被应用在更底层的平台领域,作为系统生物识别登录的唯一依据,在用户开机使用Kinect的整个过程中都会发挥作用,而且用户的面部信息会被长期保存在Xbox360的数据库中当用户进入某个应用的会话中,例如进入一个Kinect的游戏,游戏可以要求在进行身份识别时调用衣服识别和骨骼识别的数据进行更快捷和高效的身份识别。

      因为在特定会话过程中,这两种身份识别技术更加稳定和准确,可信任度更高在身份识别判断过程中,每种身份识别技术都会在完成识别过程后从3种既定答案中选择一种,即每种技术都可以给出“是”、“不是”或“不确定”的答案通常的判断法则是,人脸识别的数据会被优先考虑,如果其给出的答案为“不是”,那么系统就会得出“不是”的答案,而如果人脸识别给出的答案为“是”或“不确定”,则开始继续参考另外两种识别方式,一般两个“是”,一个“不确定”将会使系统最终得出“是”的答案,而一旦有某种识别方式给出“不是”的答案,则系统也会给出“不是”的答案最真实的虚拟人CHIP曾在几年前为大家介绍过由MSRA推出的微软卡通秀,这个工具可以对我们照片中的头像进行分析,并根据每个人的面部特征生成与真人十分接近的,惟妙惟肖的卡通头像而在Kinect中,MSRA的研究员设计了Avatar Kinect,这个应用采用了被称为面部追踪的技术,允许Kinect用户通过Kinect的面部识别系统,以自身为原型建立3D版的卡通人物,我们将可以从正面、侧面等多个角度观看这个卡通人物更重要的是这个与真人十分接近的卡通人物还能还原玩家的动作和面部表情,玩家在Kinect前的一颦一笑都会被卡通人物真实再现。

      多个再线玩家的卡通人物还可以置身于各种主题的3D聊天室中进行视频聊天,该项技术未来还有可能被加入到企业会议的应用中就像我们前面所说,静态的人物头像向卡通头像的转换技术MSRA在几年前就已经提出并产品化,这是一种2D的图像技术,这种技术算法通过抓取最能反映人们面部特点的特征点信息,如眼睛周边和嘴唇周边区域的特征信息,并将这些特征点信息对应到卡通头像上,即可得到与真人十分相近的静态卡通形象这种2D的特征提取技术在实现动态卡通影像时存在比较明显的缺陷,例如在动态预判断面部特征点在人脸表情发生变化后的位移量时往往很难准确,这一状况在表情出现巨大变化是尤为明显直接的结果是只采用2D特征提取技术的卡通人物做出动态的表情时很可能会走样我们可以用一个类似的例子来解释出现这一情况的原因,如果拍摄并抓取一个人摆动小臂的特征信息,并对应生成一个卡通人物的小臂,此时在小臂需要摆动时,我们很难找到一个可靠的算法来准确预判摆动时指尖的位移量和手腕的位移量各是多少但是当引入骨骼的概念后,即可得到指尖和手腕都是以肘关节为圆心,以相同的角速度和不同的半径运动,借助这一规律即可得到相对准确的小臂特征点运动规律,使虚拟特征点的运动规律与自然界的真实规律更贴近。

      而对应到面部特征点的预判,面部的3D模型就扮演了类似骨骼的作用,为面部特征点的位移预判提供了依据MSRA的研究员们巧妙地利用了Kinect可以生成深度信息这一独特的特性,深度信息可以准确地反映面部的凹凸和轮廓情况,借助这些信息即可进一步获得准确的人脸的3D模型接下来就是采用一些方式将2D算法中所抓取的特征点与通过深度信息获取的3D特征点都对应到同一个3D卡通模型中,例如可以将3D特征点投影到一个2D平面上,将这个平面上的特征点与2D算法中的特征点相互匹配匹配后,借助2D算法生成的面部图片作为3D卡通模型的纹理贴图,而借助深度信息获得的3D特征点为面部特征点提供运动依据,使卡通模型的表情更加自然和真实目前的Kinect可以抓取面部20~80个左右的特征点,真正在工作时,可能会在生成卡通人物的初期采用抓取较少的特征点以保障效率,之后再抓取更多的特征点,以提高精度为了尽可能地表现面部特征,MSRA的研究员还采用了分类器等方法来进行优化,目前一些眨眼等小的表情变化都可以被卡通人物反映出来现实物体进游戏Kinect使我们能够惟妙惟肖的在虚拟世界中构建另外一个自己,其实不仅是人物,在MSRA研究员的努力下,现实世界的任何一个物体都能被我们“搬”到虚拟世界中。

      Kinect在发布的时候曾经推出一个令人印象深刻的宣传片,一个小孩站在Kinect面前举起自己的滑板,拍下滑板正面和背面的样子,在游戏中就会出现一个与现实中几乎一模一样的虚拟滑板这种3D扫描成像技术以往仅仅被应用于高端的商用领域,而Kinect由于配备了独特的硬件,同样可以实现类似的功能不过,尽管Kinect提供的深度图像和2D图像可以很轻松地将真实物体拍摄并捕捉成3D物体,但是在实际实现时还有很多比较复杂的问题需要解决粗糙变平滑Kinect是一款伟大的产品,它用很低廉的价格让用户可以获得深度图像即现实物体的3D结构,但是受到成本所限,Kinect的硬件能力并不算出众Kinect获得的深度图像信息分辨率比较低;另外,这种深度信息的噪声非常大,例如,现实中表面光滑的物体在经过Kinect扫描后,获得的深度信息表面却是凹凸不平的如何通过这些粗糙的信息获得精细、平滑和可接受的输出结果是MSRA的研究员首先面临的挑战MSRA采用了一种被称为表面重构的技术来解决这个问题,这个技术可以借助物体表面的位置信息和噪声非常大的数据,重构出完整的表面传统的平滑算法往往很难区分真正的噪声点和物体表面实际的小凹凸,MSRA的研究员采用了泊松方程等算法进行噪声滤除。

      在判断某个特征点是噪声还是真实存在之前,技术算法首先抓取该点周边表面的角度和朝向的特性,进而判断这个特征点可能存在于空间的什么位置这些根据朝向判断出的所有特征点可以形成一个虚拟的距离场泊松方程用于帮助建立这个距离场,泊松方程认为,给一个采样点的话,可以根据这个采样点的位置,尽可能平均估计这个采样点对周围的影响,估计周围表面距离场应该是什么样这种平均估计的方式能够带来几个好处,首先,如果真实物体表面有一个洞的话,根据洞附近特征点的状况及其产生的影响可以很好地扩散到洞的周围,进而获得非常平滑的形状,使这个洞的形状尽可能得到合理的填充另外,每个特征点的最终状态和特征并不仅仅取决于它本身,还取决于周围很多点,这实际上就是一个很好的降噪过程例如如果在采样面中有一个凸起的点,这个点周围的点在朝向特性上都没有表现出这里有凸起的趋势,那么这个点就会被识别成一个噪声点并被去除,反之就会被保留但是受到采样精度的限制,一些十分小的表面特征信息也可能被判断为噪声并被处理掉通常来说,3000个顶点的人脸3D模型就已经十分真实了,10000个顶点的模型就已经可以表现绝大部分的细节特征了而目前Kinect的深度摄像头可以提供320×240的分辨率,可采集的特征点已经远超过10000,这样的数据量用于生成多边形顶点的话已经不算少,例如如果用这些采样点表现一个人脸的3D模型的话,实际上已经可以做的十分逼真,只是会损失皱纹等一些比较小的细节特征。

      目前真正影响效果的还主要是噪声,而MSRA的这项技术可以有效地将噪声过滤,提升3D虚拟物体的展示效果缺陷自动补除了解决物体表面的平滑问题外,还有很多困扰3D虚拟物体真实度的因素,例如扫描物体前后。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.