现在位置:范文先生网>理工论文>计算机论文>MPEG-7与媒体资产检索

MPEG-7与媒体资产检索

时间:2023-02-20 22:34:17 计算机论文 我要投稿
  • 相关推荐

MPEG-7与媒体资产检索

MPEG-7与媒体资产检索

1、 引言    随着电视技术与IT技术的不断融合,以及IT技术日新月异的发展,实现视音频信息的数字化管理即所谓的媒体资产管理已成为可能。但要实现对庞大的视音频数据进行组织、管理及检索,仅仅有数字化的视音频信息是远远不够的,这时便提出了所谓的"元数据(Metadata)"技术。"元数据"就是描述数据的数据,即有关视音频信息的描述信息。但现在多数媒体资产管理系统都是按照传统的管理信息系统的方式组织和管理元数据的,即将视音频信息进行编目,再将编目信息(元数据)存入数据库以备日后的检索和管理。这种方式对于版权、作者、主题等等文本信息是很有效的,但是要实现真正的面向内容的管理就力不从心了。针对这一问题,MPEG (Moving Picture Experts Group)推出了基于内容的多媒体描述标准MPEG-7。MPEG-7标准重点在于AV(Audiovisual)信息的描述和定义,以明确的结构和语法来定义AV信息的内容。它的正式名称是"多媒体内容描述接口(multimedia content description interface)"。通过MPEG-7格式定义的信息,使用者可以有效地搜寻、过滤和定义想要的视音频资料。 2、 MPEG-7     MPEG-7于2001年推出,它本身并不试图定义一种新的数字压缩方法,而主要是针对基于内容的多媒体描述问题。 2.1 MPEG-7标准的范围     MPEG-7是MPEG继MPEG-1、MPEG-2、MPEG-4之后制定的新标准,但它与前三个标准不同,它超越基于波形或基于样本、基于压缩(如MPEG-1和MPEG-2)甚至是基于对象(如MPEG-4)的表示,也超越具体的存储方式(如可以应用于存储在磁带、影片等上模拟信号也可以应用于存储在磁盘、光盘上的数字信号,甚至可应用于存在于纸上的图形、图片),其目的是建立一种基于多媒体内容的描述方式,以便更有效地支持多媒体资料在产生、存储、交换、传输等过程中的各种应用,这些应用包括搜索引擎、编辑工具和个性化的检索机制等。但MPEG-7并不涉及这些就在具体的应用本身,而是仅仅定义了多媒体内容的描述方法,图1是关于MPEG-7标准内容的抽象描述。 MPEG-7与媒体资产检索     MPEG-7对多媒体信息的描述目前主要包括以下几个方面(当然,随着应用的不断深入,MPEG-7也在不断的扩充和完善): ● 有关媒体制作方面的信息(如媒体的制作商、标题等);
● 有关媒体使用方面的信息(如媒体的版权、使用记录等);
● 有关媒体存储方面的信息(如媒体的编码方式、存储格式等);
● 有关媒体时间域、空间域方面的信息(如媒体中的场景切换、区域分割等);
● 有关媒体特征方面的信息(如媒体的灰度、纹理、音频特征等);
● 有关媒体内容表述方面的信息(如媒体中包括的对象、事件及其之间的相互关系等)。
2.2 MPEG-7描述
MPEG-7定义了一组的描述方法和工具,主要包含:
● 描述子D (Descriptors):用来描述多媒体内容的各种特征。
● 描述方案DS (Description Schemes):用来描述D之间的结构及关系。
● 描述定义语言DDL(Description Definition Language):用来定义D和DS的语言。     一个MPEG-7描述(descriptions)由一组DS实例组成,并与AV素材的内容链接,以使用户能够快速、有效地访问需要的AV素材。描述可以与AV素材存储在同一存储系统中,也可以异地、远程存储。 2.2.1描述子     MPEG-7定义了一组标准的描述子,下表列出的是一些MPEG-7的视觉描述子: 类型 特征 描述子 视觉 结构 网格分布 二维/三维多视图 时间序列 三维空间坐标系 时间插值 颜色 颜色空间 颜色量化 颜色直方图 主颜色 可扩展颜色 颜色结构 颜色分布 GOF/GOP颜色 纹理 边缘直方图 同类纹理 纹理浏览 形状 对象范围 基于区域的形状 基于轮廓的形状 三维形状 运动 镜头运动 对象运动轨迹 参数运动 运动速度 位置 区域定位子 时空定位子 其它 人脸描述子     每个描述子都定义了标准和非标准两个部分,标准部分定义了描述子的语法、语义及其二进制的表示法。而操作部分是非标准的部分,许多低层的特征(如颜色直方图等)都是可以自动抽取的,推荐使用的特征抽取及匹配算法都包含在非标准的部分。 2.2.2描述方案     描述方案(DS)定义了各组成部分之间的结构和语义关系,它由描述子(D)和描述方案(DS)组成,下面是在AV内容描述方案中常用到的几个概念: ● 语法结构:AV内容的物理和逻辑结构,如时间片断、空间区域的基础结构。
● 语义结构:语义含义的细分,如时间事件、空间对象结构。
● 语法语义链接:语法元素与语义元素间的结合。
一个顶层的AV描述方案往往是由多个描述方案组成:
● 一组语法结构描述方案(Syntactic structure DS):即片断、区域、颜色、文本、运动等物理特征的描述。
● 一组语义结构描述方案(Semantic structure DS):即对象、人物或事件等语义特征,如"进球"、"射门"、"广告"等。
● 语法语义链接描述方案(Syntactic-semantic links DS):即语法元素和语义元素之间的关系。
● 摘要描述方案(Summary DS):用于不同粒度间的浏览。
● 媒体信息描述方案(MetaInfo DS):有关作者、出版者等信息的描述,包括内容描述方案、信用描述方案、创作目的描述方案、版权描述方案、出版描述方案等。
● 介质信息描述方案(MediaInfo DS):有关存储介质的描述,如文件格式、存储介质、压缩格式、长度等。
● 模式描述方案(Model DS):提供AV数据的分类方法的描述或当前AV内容和其它内容间的通信的不同方法。 图2是一个AV描述方案的结构描述: MPEG-7与媒体资产检索 2.2.3 DDL语言     DDL语言可以创建新的描述方案和描述子,也可以扩展或修改现有的描述方案。MPEG-7的DDL语言以XML语言为基础,但由于XML并不是专门用来作为AV内容描述语言来设计的,因此MPEG-7在XML的基础上作了进一步的扩展。MPEG-7的DDL语言主要包括以下几个部分: ● XML语言的结构部分
● XML语言的数据类型部分
● MPEG-7的扩展部分 DDL语言、描述方案、描述子之间的关系见图3。 MPEG-7与媒体资产检索 3、 基于MPEG-7的媒体资产检索     检索是媒体资产管理系统中的重要环节,没有效的检索机制媒体资产管理也就没有意义了。基于MPEG-7建立起来的媒体资产管理系统不仅可以包含传统的视音频信息,还可将其它多媒体信息(如做宣传片时所建的3D模型等)纳入其中,并且可超越存储方式(无论是在线、近线还是离线)建立检索机制。 3.1基于MPEG-7的媒体资产管理系统的结构     虽然 MPEG-7描述不依赖于资料的编码表示,但是在某种程度上,该标准建立在MPEG-4之上,在MPEG-4中定义的表示方式也非常适合MPEG-7描述的建立。MPEG-4提供对视听资料以对象方式编码的方法,这些对象具有一定的时间(同步)和空间(空间位置和三维感受)关系。利用MPEG-4编码,将有可能把描述附加到场景中的元素(VOP)上。因此在媒体资产管理系统中,可将输入的视频编码成高、低两种码率的码流,高码率的可采用MPEG-2编码,用于编辑、下载、播出等;低码率的可采用MPEG-4编码,检索、浏览以及网络上的传输。MPEG-7描述建立在MPEG-4编码之上,MPEG-4编码与MPEG-2编码之间用EDL表链接。系统结构见图4。 MPEG-7与媒体资产检索 3.2特征自动抽取     一部视频节目由一系列场景组成,而场景由镜头组成,镜头又由帧组成。利用镜头边界检测算法可将视频序列分解成镜头,如最常用的颜色直方图法,计算每两帧之间的颜色直方图的分布差,当其超过某一阈值时,就可认为这两帧是两个镜头的边界。将场景被分成镜头后,就可利用自动关键帧抽取算法抽取一个或多个关键帧作为镜头的代表,供用户浏览。关键帧抽取时,可先将第一帧作为镜头的第一个关键帧,然后将此关键帧与以后的每一帧作比较,当差值超过某一阈值时,可将这一帧作为新的关键帧,以此类推,直到镜头结束。     镜头分解和关键帧抽取完成后就可对其进行静态特征(形状、颜色、纹理等)和运动特征进行自动抽取,并生成MPEG-7的标准描述,作为日后检索的依据。 3.3人工编目     对高层的语义描述,是不可能自动抽取的,需更多的依赖人机交互。因此专业的编目人员是建立高效的检索机制所必不可少的。但是面对多种多样的用户需求,仅仅依靠几个专业的编目人员是不可能的,一方面虽然已有了自动抽取的大量特征,但详细的语义说明仍然是一个海量的工作;另一方面,每一个人对AV素材的理解可能都不尽相同,既使是非常高水平的编目人员也不可能满足所有用户的需求。因此"学习能力"也就成为对媒体资产检索系统的一种更高层的要求。     所谓的"学习能力"是指根据用户的检索过程生成新的描述信息的机制。例如,有一用户键入"98世界杯上巴乔射失的点球"想检索有关的AV素材时,可能以前没有这样的描述,所以无法找到。但用户可能通过"98世界杯"、"点球"等一系列过程最终找到了有关素材,这时系统就可将"98世界杯上巴乔射失的点球"这一描述加到这一素材之上,当再有用户键入相同信息时,系统就可快速的找到有关素材。"学习能力"将编目、检索两个完全分立的近程结合起来,扩大了编目能力,也提高了系统的效率,使得每一个用户都成为系统的编目人员,大大地减轻了编目人员的工作压力。     与"学习能力"相对就的是"遗忘能力"。如过每一次检索都产生新的描述,系统就会不停地扩大,直至最终崩溃。我们先看一看人类的大脑,之所以人类能记意大量的信息是因为我们忘却了更大量的无用信息。因此一个具有"学习能力"的系统必须具有"遗忘能力",即能够将长时间无人使用的描述从系统中删除的能力。当然,系统应将描述分出级别,对于专业编目人员建立的系统描述应设为最高级别,只有通过人工删除,系统无法自动删除,而对于由用户检索建立起的描述则由系统根据使用频率及当前系统的负载情况采用有效的删除策略。 3.4视频检索     基于MPEG-7的检索机制支持文本检索、图像检索、音频检索等多种检索方式,允许用户输入一幅图像或在键盘上键入一段音符来查找相关素材。但是在实际应用中,由用户直接输入图像是不太现实的,更多地是由用户输入对图像的文本描述信息,这一点也进一步说明仅有低层的视觉描述而缺少高层语义描述的系统是没有实用价值的。根据用户的输入,系统采用相似匹配的算法检索到所有相关的关键帧(编目时描述信息越详细,查询的结果也就可能越准确),用户从所有关键帧中选择可能是自己需要的部分,然后调入相关的低码流的素材进行济览,当用户确认以后就可通过EDL表调用高码流部分进行下载输出。 主要参考文献:
1、 ISO/IEC JTC1/SC29/WG11 N4031. Overview of the MPEG-7 Standard (version 5.0). José M. Martínez
2、 D-Lib MagazineSeptember 1999. MPEG-7 Behind the Scenes. Jane Hunter
3、 http://www.cbttn.com.《MPEG-7及其在广播电视中的应用》. 张颖辉、陶然、王越、马越
4、 北京邮电大学出版社.《MPEG-7标准及其应用》.余兆明、李晓费、陈来春、


【MPEG-7与媒体资产检索】相关文章:

多级存储技术在媒体资产管理系统中的应用08-06

实习检索报告08-16

谈谈宁夏地方文献检索08-09

信息检索心得体会08-20

文献检索心得体会12-06

文献检索课学习心得04-20

文献信息检索心得体会03-21

信息检索课的心得体会04-01

信息检索课心得体会04-17