视频基于音视频双重特征的视频内容分析技术研究

内容分析  时间:2021-02-25  阅读:()

上海交通大学

硕士学位论文

基于音视频双重特征的视频内容分析技术研究姓名蔡群

申请学位级别硕士

专业通信与信息系统

指导教师陆松年

20061201

上海交通大学硕士论文 基于音视频双重特征的视频内容分析技术研究

基于音视频双重特征的视频内容分析技术研究

摘 要

随着计算机和互联网技术的飞速发展多媒体将越来越成为信息的主要载体进行传播。这在提升人们生活质量的同时也带来了新的风险尤其是对青少年来说使得他们接触到某一类带有色情内容的视频的可能性更大、渠道更多。本文中我们将该类带有色情内容的视频称为不良视频。因此本文主要针对这类视频的特点进行研究提出一个识别并实时过滤该类视频的方案在特定类视频内容的分析技术上做出了一些新的尝试。

基于视频的独特性我们选择充分利用其信息量采用结合音视频双重特征的分析方法在视觉域和听觉域分别展开研究分别针对该类特殊视频分析并提取其区别于正常视频的特征参量 以用于后续的分类最后综合利用两方面的分析结果给出对视频内容的判断。

在视觉域我们主要针对肤色展开研究首先通过颜色空间的变换、光线补偿、域值确定、纹理分析等技术提取出视频帧图像的皮肤掩码图像之后研究敏感图像区别于正常图像的肤色信息分布规律 以提取有效的特征向量。在听觉域我们主要针对敏感女声展开研究通过分析并利用音频短时特征实现对音频的分段以提取出所有的可疑音频段之后研究敏感女音段区别于正常音频段的特征提取出有效的段特征向量。对提取出的特征向量选择支持向量机(SVM)对其进行学习和分类分别实现对图像帧和音频段的识别。

最后采用基于COM架构的DirectShow技术对视频流进行实时的分析。首先进行音视频流的分离并分别进行分析在得到上文所提

– I –

上海交通大学硕士论文 基于音视频双重特征的视频内容分析技术研究

出的音视觉域分类结果之后采用综合判断的方法对视频内容进行分类和分段取得了较好的效果。

关键词肤色检测、音频分割、支持向量机、视频内容识别

– II –

上海交通大学硕士论文 基于音视频双重特征的视频内容分析技术研究

RESEARCH ON AUDIO-VISUAL FEATURE-BASED

VIDEO CONTENT DETECTION

ABSTRACT

With the development of modern computer and internet technology,video will be the main carrier for information and will spread more broadlyand rapidly,which will enhance people’s life quality,but at the same time, itbrings new risks, especially for the younger.The possibility for them tocome into contact with pornographic videos is much larger. So, this paperresearches the features of this kind of videos, and gives out a method torecognize and filter it.

Based on the features of video,which haves both visual and audiomessages,we proposed an audio-visual feature-based framework.Audio andvisual features are analyzed and extracted independently, and their resultsare combined to give out a final detection result.

In visual field, our research focuses on skin detection. Firstly,weimport skin color model, lighting compensation and texture model toabstract skin message from a frame image,and then build a skin color mask.Secondly, to different images with pornography from normal images,weanalyze their skin distribution, and abstract six effective parameters for thefollowing classification. In audio field, our research focuses onwell-regulated sexy female-voice.Firstly,we segment the audio stream withaudio short-time features, to get all dubious audio sects, and then, analyzeand abstract some segment features which can different sexy female-voice

– III –

上海交通大学硕士论文 基于音视频双重特征的视频内容分析技术研究

with other normal sounds.

After we abstracted effective feature vectors for both visual and audiofields,we choose support vector machine (SVM) to learn and then classifythese vectors. SVM has good performance in the classification based onfinite samples, and its work includes two steps,one is learning step and theother is test step. In learning step,we put the feature vectors obtained formimages or audio segments pre-classified manually into SVM to train it. Intest step,feature vector of images or audio segments is put into learned SVM,and whether the image or audio segment is pornographic or not can beclassified by the output of corresponding SVM.The results show that thefeature vectors abstracted in chapter 2 and 3 are effective and we can getreliable results in both visual and audio fields.

At the end of this thesis,we use ‘DirectShow’component system basedon COM framework, to realize real-time analysis of audio and visualstreams, and then combine their results to realize the detection for videos tre ams.

KEY WORDS:audio segmentation,a support vector machine,pornographyrecognition

– IV –

上海交通大学硕士论文 基于音视频双重特征的视频内容分析技术研究

图片目录

图2-1 肤色检测效果对比((a)原图、 (b)YUV-YIQ方法、 (c)HIS方法) · · · · · · · · · · · · 16图2-2 纹理分析效果对比((a)(d)原图、 (b)(e)肤色检测结果、 (c)(f)纹理分析结

果)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·20

图3-1 不同声音类别的短时平均能量((a)音乐、 (b)普通男声)· · · · · · · · · · · · · · · · · · · · · · · · · ·26

图3-2 不同声音类别的短时平均过零率((a)音乐、 (b)普通男声)· · · · · · · · · · · · · · · · · · · · · ·27

图3-3 双门限端点检测法分割可疑音频段· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·33

图3-4 带背景噪声的正常语音段分割结果(语音内容“我是和平主义者” ) · · ·34图3-5 不良音频段分割结果· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·35

图4-1 线性可分情况下SVM分类示例· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·39

图4-2 SVM分类示意图· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·41

图4-3 SVM学习和测试过程· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·44

图5-1 COM组件、 COM对象和COM接口的关系· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·48

图5-2 典型的Filter Graph示例· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·52

图5-3 系统架构及检测流程· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·53

图5-4 某不良视频的音视频流分段结果· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·54

– VII –

上海交通大学硕士论文 基于音视频双重特征的视频内容分析技术研究

表格目录

表4-1 图像分类结果· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·45

表4-2 音频段分类结果· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·46

– VIII –

上海交通大学硕士论文 基于音视频双重特征的视频内容分析技术研究

上海交通大学

学位论文原创性声明

本人郑重声明所呈交的学位论文是本人在导师的指导下独立进行研究工作所取得的成果。除文中已经注明引用的内容外本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。

学位论文作者签名蔡群

日期 2006年12月 10日

上海交通大学硕士论文 基于音视频双重特征的视频内容分析技术研究

上海交通大学

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定同意学校保留并向国家有关部门或机构送交论文的复印件和电子版允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

保密□在 年解密后适用本授权书。

本学位论文属于

不保密□。 √

请在以上方框内打“√”

学位论文作者签名蔡群 指导教师签名陆松年

日期 2007年1月 15日 日期 2007年1月 18日

木木云35元/月,美国vps服务器优惠,1核1G/500M带宽/1T硬盘/4T流量

木木云怎么样?木木云品牌成立于18年,此为贵州木木云科技有限公司旗下新运营高端的服务器的平台,目前已上线美国中部大盘鸡,母鸡采用E5-267X系列,硬盘全部组成阵列。目前,木木云美国vps进行了优惠促销,1核1G/500M带宽/1T硬盘/4T流量,仅35元/月。点击进入:木木云官方网站地址木木云优惠码:提供了一个您专用的优惠码: yuntue目前我们有如下产品套餐:DV型 1H 1G 500M带宽...

RAKSmart VPS主机半价活动 支持Windows系统 包含香港、日本机房

RAKSmart 商家最近动作还是比较大的,比如他们也在增加云服务器产品,目前已经包含美国圣何塞和洛杉矶机房,以及这个月有新增的中国香港机房,根据大趋势云服务器算是比较技术流的趋势。传统的VPS主机架构方案在技术层面上稍微落后一些,当然也是可以用的。不清楚是商家出于对于传统VPS主机清理库存,还是多渠道的产品化营销,看到RAKSmart VPS主机提供美国、香港和日本机房的半价促销,当然也包括其他...

hosthatch:14个数据中心15美元/年

hosthatch在做美国独立日促销,可能你会说这操作是不是晚了一个月?对,为了准备资源等,他们拖延到现在才有空,这次是针对自己全球14个数据中心的VPS。提前示警:各个数据中心的网络没有一个是针对中国直连的,都会绕道而且ping值比较高,想买的考虑清楚再说!官方网站:https://hosthatch.com所有VPS都基于KVM虚拟,支持PayPal在内的多种付款方式!芝加哥(大硬盘)VPS5...

内容分析为你推荐
雅虎社区有什么网站的论坛内容丰富 资讯较新 适合年轻人的?百度抢票浏览器手机百度浏览器抢票版根本就没预约抢票。噱头而已!bluestacksbluestacks怎么用?不兼容vivo手机和软件不兼容怎么办?苹果5怎么越狱苹果5怎么越狱?直播加速怎么让已拍摄好的视频加速创维云电视功能创维健康云电视有什么功能?ejb开发什么是ejb?idc前线穿越火线河北的服务器好卡 有人知道怎么回事嘛 知道的速回2012年正月十五农历2012年正月15早上9点多生的!命里缺什么!是什么命相
域名服务器 备案未注册域名 重庆vps租用 域名商 linode cdn服务器 rak机房 Hello图床 远程登陆工具 国内php空间 刀片服务器是什么 cdn加速是什么 免费智能解析 hkt 网购分享 中国电信网络测速 国外在线代理服务器 贵阳电信 xuni 开心online 更多