当前位置:趣学网 →范文 → 工作报告 → 开题报告→体育视频的内容标注和解析技术研究

体育视频的内容标注和解析技术研究

12-26 23:05:58 浏览次数:868次栏目：开题报告

标签：开题报告范文,论文开题报告,毕业论文开题报告,http://www.quxue6.com 体育视频的内容标注和解析技术研究,

　　在体育比赛转播的时候,通常会在精彩事件之后及时穿插重放慢镜头,这方面也吸引了许多研究者的注意[27][28][29][30].通过检测重放事件,以及发现之前视频中相同内容的正常镜头,就可以为冗长的体育视频生成一个令人满意的精彩索引.

www.quxue6.com

　　Di. Zhang针对体育视频的分析,试图提出一个一般性的框架[31].为了兼顾效率和准确性,他认为事件的检测可以分为两步进行.即基于压缩域分析的初选阶段,和基于对象层次的验证阶段.第一步,选择一些压缩域的特征,如颜色和运动等,通过统计学习的方法实现对事件的初选.第二步,在候选场景中进行对象分割,根据总结的领域规则进行判定,如对于网球比赛的发球镜头,图像中应有大块场地区域,在下方有小的运动员对象.

　　J. Assfalg等认为体育视频的镜头一般可以分为三类:场地,运动员和观众[32].场地镜头关注体育运动本身,表现为大块一致的颜色区域和场地线条等.在运动员镜头中,运动员作为前景中的物体出现,而背景则变得模糊.在观众镜头中,个体常常是不清楚的,而观众整体可以看作一种纹理.基于这些认识,他们通过边缘提取,图形分割和颜色分析等,对三类镜头实现了有效的识别.

　　N. Babaguchi综合了文本和视觉特征来对体育视频中的事件进行检测[33].文本信息来自于电视信号中的隐藏字幕(Closed Caption).首先,通过搜寻文本中事件相关的关键字,估计事件发生的可能时间段.然后,再对时间段内的镜头进行视觉特征分析,计算与已有的事件例子的匹配度,检测出事件相关的镜头.

　　3,结构解析

　　一部视频中常常包含了成百上千个镜头,特别是在体育视频中.这主要是因为体育比赛电视转播的时候,会有多个摄像机从不同视角对比赛进行拍摄,它们之间的频繁切换就构成了镜头.为了更好的访问视频内容,除了语义标注,还需要对镜头进行有效的组织.结构解析的任务就是通过镜头组织为视频数据流建立类似书目的分层浏览结构.

　　以[34][35]为代表,一些研究人员提出了通用的视频结构分析方法.他们用时间约束的聚类法把视觉上相似和时间上相邻的镜头聚类在一起,再在聚类组的基础上构造场景转换图(Scene Transition Graph)或高层场景,进而形成层次化的浏览结构.但是这种统一的结构组织方式(如[34]中将视频分成帧/镜头/组/场景四层)并不适合针对体育视频的分析,这主要是因为体育比赛都有自己特定结构(如图1所示),对体育视频的分析应当结合这种领域知识.

　　图1 跳水比赛的树状结构

　　4,总结

　　综上对国内外研究现状的调查,我们有以下结论:

　　(1)应当结合领域知识进行特征选择.领域知识包括比赛相关和制作相关.比赛相关的领域特征涉及特定的体育运动,如足球比赛中的草色比率,篮球比赛中快攻时摄像机的运动等.制作相关的领域特征适用于大多数体育视频的分析,主要来自对体育视频制作的总结,如精彩场面的重放,有关运动员和比分信息的字幕显示等.综合这两类领域知识,选择合适的特征进行分析是取得研究成功的基础.

　　(2)多模式融合分析代表了新的研究趋势.除了视觉特征外,综合体育视频中所包含的音频特征和文本信息,能够有效提高视频分析的准确度.这也是近年来的研究热点.在体育视频中,一个语义事件常常是一个多模式的表达,如运动员的跳水事件既有视觉上的运动也有听觉上的踏板声和入水声,只对其中一个模式进行分析是不完整的.因此在对体育视频进行内容分析时,融合多模式尤为重要.

　　(3)尽量考虑压缩域的特征分析.一场体育比赛长达数个小时,其视频数据也非常庞大,因而提高处理速度是很有意义的,在某些要求实时应用的场合也是必需的.直接基于压缩域的分析,不需要完全解码,可以显著提高处理速度.[22][31]表明基于压缩域的分析不仅能够大幅度降低计算量,同时也能获得较好的结果,或者作为进一步处理的基础.

　　(4)基于统计的事件检测方法要优于基于规则的方法.早期的研究多采用基于规则的方法.但是,体育视频中的事件检测常常需要综合多种特征分析手段,需要适应不同的场景.这些都增加了直接设定规则的难度.与之相比,统计算法易于混合多种特征同时又具备一定的学习能力,因而具有更大的实用价值.

　　(5)忽略了对事件之间关系的研究.体育比赛中的各种语义事件不是孤立的,它们具有某种因果关系或概率相关.因此综合多种事件及其之间关系的分析,对于提高分析的精度和深度都是有价值的.

　　(6)缺乏对体育视频内容的结构解析.尽管许多文章中提到了体育视频的结构分析,但是它们对结构的分析主要是基本场景的分解,如[20]中将足球视频分为比赛进行和暂停,[31]中检测网球比赛的发球场景.体育视频的结构,如图1所示,通常是一个多层的目录结构.在检测基本场景的基础上,需要进一步研究高层结构的解析.据我们所知,这方面的研究还没有.

　　(7)没有一个统一的体育视频内容分析框架.[31]中提出了一个视频分析的一般框架,但是他们的系统主要是实现语义事件的检测,缺乏对视频结构的充分解析.根据体育视频的自身特点和应用需要,我们认为视频分析的过程应该有一个基本的框架,这对于进一步的研究无疑是有意义的.

　　三,研究目标,内容和拟解决的关键技术

　　本课题的目标是研究体育视频内容的语义标注和结构解析技术.在实际研究中,我们主要选择跳水比赛作为研究对象.跳水运动十分富有观赏性,是我国的奥运优势项目,深受人们的喜爱.跳水比赛具有一般体育比赛的典型特征,如层次化的结构,领域相关的语义事件等.通过内容分析技术的研究,最终我们将实现一个面向跳水运动的视频查询系统.

　　如果把视频也看作一种语言表达,视频分析在某种程度上与自然语言理解是非常类似的,其目的都是使计算机能够理解信息的内容,从而实现智能化的信息处理.自然语言理解作为人工智能中的一个重要研究方向,已经有四十多年的历史(教学案例，试卷，课件，教案)了.它对于新兴的视频分析研究必然有很多可以借鉴的地方.通常,自然语言理解将词汇作为基本的处理对象,包括自动分词,词性标注,句法分析等几个阶段.与之类似,由于镜头是视频中具有完整内容表达的最小单位,我们将镜头作为体育视频分析的基本单元,并提出如图2所示的体育视频内容分析框架.

　　图2 体育视频内容分析框架

　　1,镜头检测

　　与自动分词类似,镜头检测按照镜头为基本单位对视频流进行分解.镜头检测是视频内容分析的基础步骤,很大程度上影响了整个系统的性能.虽然镜头检测是一个一般性的问题,但是在体育视频中也有其特殊要求:

　　(1)针对体育视频数据量大的特点,算法应能实现快速检测;

　　(2)在体育视频中存在大量的运动,算法应能尽量避免由于运动导致的误判;

　　(3)作为之后分析的基础,算法应具有较高的准确性.

　　2,模式学习和语义标注

　　镜头检测后的视频流是一组镜头序列.在此基础上,语义标注通过事件检测对镜头序列进行标注.我们采用基于统计的方法来识别语义事件.识别的时候,首先通过对训练样本的学习建立分类器,然后利用这个分类器对镜头中的事件进行识别.以下问题需要解决:

　　(1)多模式提取和选择领域相关的特征来表示语义事件;

　　(2)应用压缩域分析提高处理速度;

　　(3)设计一个良好的学习分类模型,实现高准确度的识别;

　　(4)对镜头的标注应当有利于后续的结构分析.

　　3,文法描述和结构解析

　　在语义标注之后,结构解析的任务是通过对视频标注序列的分析,生成体育视频的层次浏览结构.目前,这方面还没有好的算法.为解决这一问题,我们借鉴自然语言理解中句法分析的思想,根据体育比赛具有较强结构性的特点,使用文法来定义语法规则,提出了基于文法的体育视频结构解析.在结构解析中引入文法描述,有以下好处:(1)根据文法描述可以按照体育比赛特定结构进行解析;(2)实现了领域知识和具体算法的分离.这样,只需要引入相应的文法描述,我们可以使用统一的解析器来分析不同类型的体育比赛.关键技术包括:

　　(1)自动生成体育视频的分层浏览目录;

　　(2)实际应用中视频流可能不完整或存在标注错误,解析器应具有良好的容错能力;

　　(3)对于大数据量的体育视频,要求结构解析的效率要高.

　　四,拟采取的研究方法,技术路线及可行性分析

　　1,基于压缩域的镜头分割算法

　　体育视频中常见的渐变主要有溶解,擦变,特别是其中的一些擦变具有特技效果,如图3所示.这些特定模式的擦变,通常出现在慢镜重放的开始和结束,识别这种镜头边界是十分有价值的.现有压缩域算法主要对切变检测比较成功,而对于渐变的研究不多.我们将综合压缩域的DCT系数,运动矢量以及宏块信息等,研究一种有效的渐变检测方法.

　　图3 体育视频中特定模式的擦变

　　一般在进行镜头边界检测的时候,首先从相邻帧提取合适的特征,然后比较这些特征之间的差值,如果差值超过了事先设定的阈值,则认为出现了镜头转换.因此,选取合适的阈值是非常关键的.常用的方法包括单阈值法,多阈值法和局部阈值法.单阈值法使用一个全局阈值,方法简单,但是对于渐变不能很好检测.多阈值法使用多个阈值进行分级判定,如使用较大阈值检测突变,使用较小阈值检测渐变.局部阈值法根据局部范围内的变化情况自动调整合适的镜头切分阈值,代表了新的研究趋势.目前,有关阈值选取的研究仍然是视频处理中的一个难点.我们将主要基于局部阈值法进行研究.

　　2,体育视频中语义事件的检测

　　我们将体育视频中的语义事件分为三类:重放事件,状态事件和目标事件.重放事件是指体育比赛转播中穿插播放的慢镜重放片断.重放事件反映了比赛中观众感兴趣的精彩部分.状态事件发生在比赛状态发生变化的时候,如跳水比赛每一轮结束的评分,网球比赛中一局的开始镜头等.状态事件的检测对于视频结构的解析有非常重要的作用.目标事件,如跳水比赛中运动员的跳水,足球比赛中的射门等,是指体育比赛中具有观赏性的特定运动,通常表现为物体

www.quxue6.com

及其之间的运动关系.对这三类事件,我们分别采用如下的技术路线:

　　(1)通过标志性边界检测来识别重放事件

　　中将重放分为三种类型:重复播放的同一镜头;慢动作方式重放的同一镜头;同一场景但是由不同摄像机在不同视角拍摄的.直接从内容上比较重放事件和先前视频镜头的相似性来进行分析,是很难识别准确的,尤其对于最后一种重放.

　　通过对体育比赛电视转播的观察,可以发现一般对于精彩片断的重放都会以一个标志性的镜头切换引入,再以类似的变化结束,如图3所示.因此对于重放事件的检测,事实上可以归结到对这种标志性镜头边界的检测,从而简化问题.我们将主要研究这种方法.

　　(2)利用视频文本识别确定状态事件

　　状态事件是和体育比赛的状态变化直接相关的,而通常在比赛状态发生变化的时候,电视转播会在视频中加入相关字幕提示,如跳水比赛中在运动员入场的时候,会有文字说明运动员姓名和所要做的动作;在一轮比赛结束的时候,会显示该轮所有选手的得分情况.

　　根据这个特性,我们提出通过视频中文本检测和识别的方法来检测状态事件.该方法包括两个层次.首先,通过视频文本的检测[36][37][38][39][40]就可以初步确定状态事件的出现.然后,我们对检测的文本进行识别,通过关键字的匹配,识别状态事件的类别.例如,运动员入场的字幕显示中有关键字"Round"(轮次),"Rank"(排名),"DD"(难度),"Total"(总分)等,通过匹配这些关键字,就可以判断当前镜头为运动员入场的状态事件.

　　(3)融合视音频双模式的目标事件检测

　　在目标事件中,往往存在显著的运动和音频特征,如运动员的跳水事件既有视觉上的运动也有听觉上的踏板声和入水声.融合视音频的分析避免了单纯使用视觉或听觉特征不能完整描述语义事件的不足,可以有效提高识别精度.

　　在进行识别的时候,我们采用混合隐马尔科夫模型和支持向量机的方法[41].支持向量机能够在小样本条件下,通过结构风险最小化准则,实现有效分类.但是支持向量机只是静态分类机,不能很好模拟时序过程.与之相反,隐马尔科夫模型虽然能够较好的处理随机时序数据的识别,但是并不能保证训练好的模型能够良好的分类未知数据.这样,将两者混合起来使用,通过在隐马尔科夫模型中引入静态数据识别良好的支持向量机,能对视频流数据取得最佳的识别效果.

　　3,语法制导的结构解析

　　为了对输入的体育视频数据进行结构解析,首先我们需要对该类体育比赛的文法规则进行描述.乔姆斯基(Chomsky)把文法分成4种类型,即0型文法(或称短语文(教学案例，试卷，课件，教案)法),1型文法(或称上下文有关文法),2型文法(或称上下文无关文法)和3型文法(或称正则文法).型号越高所受约束越多,对语言的描述能力也就越弱.

　　我们使用上下文无关文法对体育比赛的结构进行描述,主要是基于以下考虑:(1)上下文无关文法完全可以胜任对体育比赛树状结构的描述;(2)上下文无关文法在自然语言理解,句法模式识别,编译技术等领域有广泛的应用,技术比较成熟;(3)基于上下文无关文法的解析器不仅可以为视频有效生成层次浏览树,而且具有较强的错误处理能力.

　　其中终结符r,b,e,u分别表示一轮比赛的结束,选手比赛开始,选手比赛结束和一般镜头,非终结符和为结构单元,分别代表每轮比赛和每个选手的比赛.对于语义标注序列"buuuuuuuebuuuuuuuueeur",使用文法分析器进行解析得到它的层次结构"[[buuuuuuue][buuuuuuuue]eur]".其中序列最后"r"前面的"eu"为错误标示,可以用错误恢复策略进行处理(例如,在发现终结符不能匹配时,弹出该终结符并发出警告).由于视频序列在进行基于统计的语义标注时,存在某种程度的不确定性.所以错误处理应当结合语义标注的确定度来进行.如果出错标注本身的确定度比较低,则可以认为该标注有错;如果出错标注的确定度比较高,则可以认为错误发生在它的前面.

　　以上,我们通过基于压缩域的镜头分割,语义事件的检测和语法制导的结构解析实现了体育视频的内容标注和解析.虽然我们主要以跳水视频为例进行分析,但是其中的技术完全可以应用到其他类似体育视频的分析中,甚至一般视频的处理中.我们的研究表明,尽管限于当前的技术水平,完全自动的,通用的视频内容理解是不太可能的,但是通过有效的人机交互和建立应用相关的模型,新的技术将可以面对视频信息大量涌现的挑战,给人们带来更加丰富和方便的体验.

　　五,预期研究成果及创新之处

　　一个压缩域镜头边界检测的有效算法

　　体育视频中慢镜重放的检测方法

　　基于压缩域的视频文本检测和分割

　　体育视频中状态事件的识别

　　视音频融合的事件检测

　　基于文法的体育视频结构解析

　　一个通用的体育视频内容分析框架及其系统实现

　　六,已有工作基础

　　1,已有资源:

　　4.96G的跳水比赛视频数据,总长度约8小时20分钟;

　　5.33G的足球比赛视频数据,总长度约9个小时;

　　2.58G的其他体育视频数据,包括篮球,排球和网球等;

　　2,已进行工作

　　一个基于内容的智能视频检索系统:iVideo

　　一种通过关键帧提取和组织来浏览视频的方式:XPlayer

　　可视化的视频分析工具:MediaLab

　　综合颜色特征和摄像机运动分析的镜头边界检测算法

　　基于标志模板的重放镜头检测算法

　　跳水比赛视频中精彩片断的自动提取:iVideoAnalyzer

　　基于压缩域文本检测的体育视频结构分析:SportsPlayer

　　3,专利和文章

　　王扉,李锦涛,张勇东,林守勋,"跳水比赛视频中精彩片断的自动提取",计算机研究与发展,评审中.

　　王扉,张勇东,李锦涛,林守勋,"在体育比赛视频中检测精彩片断的方法",(发明)专利号02156973.8,已受理.

　　七,研究计划及预期进展

　　20xx/01 – 20xx/04 基于文法的体育视频结构解析

　　20xx/05 – 20xx/06 压缩域的镜头边界检测算法

　　20xx/07 – 20xx/10 体育视频中的语义事件检测

　　20xx/11 – 20xx/12 跳水比赛的视频分析和检索系统

　　20xx/01 – 20xx/04 技术改进,论文写作

　　八,参考文献

　　Content-based Video Analysis and Retrieval

　　 C.W. Ngo, H.J. Zhang, and T.C. Pone, "Recent Advances in Content Based Video Analysis", International Journal of Image and Graphics, Dec 20xx.

　　 N. Dimitrova, H.J. Zhang, B. Shahraray, I. Sezan, T. Huang, and A. Zakhor, "Applications of Video-Content Analysis and Retrieval", ieEE Multimedia, Vol. 9, No. 4, 20xx.

　　庄越挺,潘云鹤,吴飞编著,网上多媒体信息分析与检索,清华大学出版社,20xx年.

　　 M. Flickner et al, "Query by Image and Video Content: The QBIC System", ieEE Computer, 28(9), 1995.

　　 D. Ponceleon, S. Srinivasan, A. Amir, D. Petkovic, and D. Diklic, "Key to Effective Video Retrieval: Effective Cataloging and Browsing", in Proc. ACM Multimedia, 1998.

　　 A. Hampapur, A. Gupta, B. Horowitz, C-F. Shu, C. Fuller, J. Bach, M. Gorkani, and R. Jain, "Virage Video Engine", SPIE Storage and Retrieval for Images and Video Databases V, 1997.

　　 H. D. Wactlar, T. Kanade, M. A. Smith, and S. M. Stevens, "Intelligent

www.quxue6.com

Access to Digital Video: Informedia Project", ieEE Computer, Vol.29, No.3, pp.46-52, May 1996.

　　 S.-F. Chang, W. Chen, H. Meng, H. Sundaram, and D. Zhong, "VideoQ: an automated content based video search system using visual cues", in Proc. ACM Multimedia, November 1997. 4

上一页 [1] [2]

，体育视频的内容标注和解析技术研究