当前位置:趣学网 →范文 → 工作报告 → 开题报告→体育视频的内容标注和解析技术研究

体育视频的内容标注和解析技术研究

12-26 23:05:58 浏览次数:868次栏目：开题报告

标签：开题报告范文,论文开题报告,毕业论文开题报告,http://www.quxue6.com 体育视频的内容标注和解析技术研究,

　　一,开展本课题研究的意义

　　近年来,数字视频的应用日趋广泛.诸如视频点播,数字电视,数字图书馆,视频会议,远程教育等等,已经为越来越多的人所接受和熟悉.面对大量涌现的视频数据,如何找到所需的视频信息就成为一个急需解决的问题.

　　简单的视频名查询和类似录像机的播放功能已不能满足人们的需要.正如一本书通常会有目录和索引帮助人们迅速浏览和查询内容,一部视频同样需要有效的目录和索引.传统的方法需要由人对视频内容进行标注,十分费时费力.尤其是当视频资源的数量达到海量级,或是处理的速度要求接近实时的时候,完全采用人工的方法都会遇到难以克服的困难.为了解决这一问题,九十年代以来,出现了基于内容的视频分析和检索.其核心就是通过对视频内容进行计算机分析理解,建立结构和语义索引,以方便用户检索.

　　巨大的商业前景和重要的学术价值,吸引了来自于业界和学术界不同领域的研究人员在这一问题上开展研究.一些原型系统先后被提出,主要有IBM的QBIC/CueVideo,Virage公司的Video Engine,卡内基梅隆大学的Informedia,哥伦比亚大学的VideoQ等.这些努力最终促成了国际标准——MPEG-7(多媒体内容描述接口)的诞生.但是随着问题的深入,研究人员面临了更大的障碍:视觉/听觉内容的机器理解,即难以建立底层特征与高层语义的联系.同样的难题困扰了人工智能领域多年.一般认为,寻找通用的解决方法是异常艰难的.因此,一些研究转而专注于解决特定领域的应用问题,如新闻,电影等.在这些特定领域,结合相应的领域知识,是可能将底层特征与高层语义建立某种联系的.

　　体育视频,即体育比赛的电视转播,作为一个重要的应用领域,一直备受关注.体育比赛一般很漫长,但对于大多数观众来说,真正关心并有可能反复观看的只是其中的一小部分.例如一场跳水比赛常常需要持续几个小时,而其中的精彩部分——运动员从起跳到入水的过程却只有短短几分钟.人们需要一种方便快捷的手段来访问体育视频的内容.

　　与其他视频相比,体育视频具有自己的特点.首先,体育视频中存在一些领域相关的语义事件,如跳水比赛中运动员的跳水,足球比赛中的射门等.这些语义事件往往是视频中最有价值的部分,需要进行标注以便于检索.其次,体育比赛一般有较强的结构性,如跳水比赛由若干轮组成,每轮又由若干选手组成等.为了便于对视频内容的浏览,原始的视频数据应按这些结构进行解析并组织成层次目录.本课题的目标就是研究针对体育视频内容的语义标注和结构解析技术.

　　尽管限于当前的技术水平,完全自动的,通用的视频内容理解是不太可能的,但是本课题的研究将证明部分的解决是有可能的和有价值的,此外我们的研究也将为最终的全面解决奠定基础.除了学术上的意义,本课题的研究还可以有以下一些直接的应用:

　　1,视频资料库:适用于各类体育专业人士或爱好者对收集的体育比赛视频资料进行查询,浏览和管理.目前,我们已申请到国家体育总局的科研项目——跳水训练图像分析软件系统研制.通过对跳水比赛视频的内容标注与解析,能够方便快捷的实现一个典型动作的视频数据库.

　　2,Web多媒体发布:适用于新闻或者体育网站在Web上及时发布体育多媒体信息.今天,已经有越来越多人的习惯于从网上获取最新的资讯.基于我们的技术,可以在第一时间采编和发布综合图文和视音频在内的体育多媒体信息.

　　3,个人移动业务:适用于无线服务提供商为个人提供定制的多媒体消息服务(Multimedia Message Service,简称MMS).我们的内容标注和解析技术,可以为冗长的体育视频生成摘要,从而可以根据用户的个人喜好和终端能力,向移动设备发送体育多媒体消息.

　　二,国内外研究现状分析

　　国际上对于体育视频的研究是从xx年代中期开始的,属于视频检索领域的一个子课题.与新闻视频领域取得的成功相比[10][11],体育视频的研究相对较少也更为困难.这主要是因为新闻视频有一个基本一致的时域结构和场景语义,即先是播音员镜头,然后是新闻报道,最后再回到播音员镜头进行下面的新闻报道,而对于体育视频则不存在这样统一的结构和语义.目前体育视频的研究尚处于初期探索阶段,对于其过程和方法还没有统一的结论,也还没有可以投入实用的系统.

　　1,镜头检测

　　通常在对体育视频进行分析前,需要将其分割成镜头.所谓镜头,是指摄像机不间断拍摄的一组帧序列,它常被看成一部视频的最小结构单元.为了将镜头分割出来,需要进行镜头边界检测.镜头与镜头之间的边界有两种类型:突变和渐变.突变时,镜头直接切换到下一个;渐变时,从一个镜头到下一个镜头会有一个持续多帧的变化过程,常见的主要有淡出淡入(fade out and fade in),溶解(dissolve),擦变(wipe)等.淡出淡入是指视频帧逐渐隐去直到完全黑屏,再逐渐显现后一镜头的帧图像.溶解是指在前一镜头帧图像逐渐模糊的同时,后一镜头的帧逐渐增强,并且产生前后帧图像的重叠.擦变表现为后一镜头帧图像的区域逐渐变大把前一镜头的图像擦掉.

　　镜头检测的关键问题是如何区分镜头之间的切换和因为摄像机或物体运动造成的镜头内变化.由于这个原因,渐变比突变更难以检测.早期的工作主要在突变检测,近来更多的研究集中到对渐变的分析.

　　镜头检测的方法可以分为两类:非压缩域的和压缩域的.在[12][13]中,对各种非压缩域的镜头检测算法进行了实验评价.与非压缩域的方法相比,基于压缩域的方法不需要对视频编码流进行解码,而是直接使用如DCT系数,运动矢量,宏块(macroblock)信息等压缩域特征进行分析,从而提高了处理速度[14][15][16][17].今天大量的视频数据是以压缩格式(如MPEG)存储的,因此基于压缩域的方法往往具有更大的实用价值.

　　2,语义标注

　　所谓语义标注,是指对体育视频中的语义事件进行检测和标注,其实质就是依据事先定义好的类别对视频片段进行识别.当前,国内外对体育视频研究实际上主要集中在这个方面,下面介绍一下相关工作.

　　Y. Gong等首先提出了对足球比赛视频的分析[18].他们结合足球比赛的领域知识,通过场地白线识别,摄像机运动检测,足球和运动员检测等分析,对视频内容进行推断,包括处在球场什么位置,射门,角球等.例如,如果场景接近球门区域而且足球有一个向球门的运动,则可以推断这是一个射门.实验结果表明,系统对于球场位置的识别较为准确,达到90%,但是射门和角球的识别率只有53%,这主要是因为高速运动和遮挡关系,使得足球的检测较为困难.

　　哥伦比亚大学的Peng Xu等观察到足球比赛可以划分为两种状态:进行和暂停(如因为球在界外或裁判暂定比赛).他们开发了一个能够检测视频中的足球比赛是在进行还是暂停的系统[19].该系统对足球视频分析分为两步.首先,根据颜色分析得出每一帧中的草地颜色比率,使用这个特征将帧标注为三种:全景(globe view),近景(zoom-in view)和特写(close-up view).在检测的时候,算法可以对草色和分类决策进行学习和自动调整.接着,在对视频帧进行上述分类标记后,根据经验总结的规则(如全景一般是比赛进行,特写一般是比赛中断等)判断比赛是在进行还是暂停了.实验使用了四段来自不同足球比赛的五分钟片断,检测准确率最好达到86.5%,最坏只有67.3%.

　　在另一篇文章里,他们使用了基于隐马尔科夫模型(HMM)的统计方法[20].根据足球视频的特点,选择主色比率(dominant-color ratio)和运动强度(motion intensity)为提取特征.他们为进行和暂停分别建立了各自的隐马尔科夫模型组,依据最大的可能性对足球视频进行标注.与基于规则的方法相比,这种方法不需要去直接建立复杂的分类规则和确定阈值,而是通过训练样本自动学习.实验结果表明该方法较为有效而且表现稳定,对不同的测试集准确率都在80%以上,平均准确率达到83.5%.

　　清华大学的Ming Luo等也以足球为例提出了一个体育视频分析系统[21].他们的系统根据关键帧中场地颜色的比率和物体的大小,将镜头分类为远镜头和近镜头.此外,对于远镜头,他们观察到在射门或长传时,快速的摄像机运动通常会使图像模糊,从而提出根据帧图像的模糊度(blur extent)来检测足球比赛中的这些事件.实验结果表明算法对射门和长传事件检测的查准率为89.3%,查全率为97.2%.

　　Drew D. Saur等人使用直接基于MPEG压缩域的特征,实现了对篮球视频内容的自动分析和标注[22].算法首先进行基于压缩域DC图的镜头分割,然后对每个P帧统计其中运动矢量的大小,考虑特写(close-up)镜头比广角(wide-angle)镜头一般变化更激烈,将视频划分为广角镜头和特写镜头.对于广角镜头,进一步分析其中的摄像机运动,来标注特定的视频内容,如抢断,快攻,可能的投篮等.

　　微软研究院的Y. Rui等人提出一种依据计算量较小的音频特征来检测棒球比赛中精彩事件的方法,适用于计算能力有限的环境[23].他们的算法首先是基于机器学习的解说员激动语音识别和棒球击打声检测,然后将这两者进行概率混合来推断最终的精彩片断.与人工标注的精彩片断进行对比,实验表明他们的算法能够达到75%的准确率.

　　同样对于棒球,Dongqing Zhang等通过对比赛中比分和状态的字幕显示进行检测和识别来分析语义事件的发生[24][25],如触垒得分和最后一投(投手被罚出局).他们使用视频文本检测和识别技术分析比赛中的字幕信息.识别结果再进一步利用领域知识模型来提高准确度.

　　B. Li和M. I. Sezan对美式橄榄球比赛的电视转播进行了分析[26].为了滤除比赛视频中死球的时间,生成更为紧凑的摘要,他们将比赛片断定义为表现球在运动的视频片断,并提出了两种检测方法:确定的基于规则方法和概率的基于统计的方法.基于规则的方法,分析了场地颜色,场地标线,摄像机运动和运动员衣服颜色等,然后根据经验总结的规则,对视频内容进行判断.基于统计的方法,使用HMM推断视频中的比赛片断,实验表明这种方法也是很有效的.两者相比,前者易于实现和计算,但是需要制定推导规则,而后者则具有一定的学习能力避免了直接设定阈值的困难.

[1] [2] 下一页

，体育视频的内容标注和解析技术研究