AVO 基本单位是原始 AV 对象,可能是一个没有背景的说话的人,也可能是这个人的语音或背景音乐等等。它具有高效编码、高效存储传播及可交互操作的特性。MPEG-4 就是围绕 AV 对象的编码、存储、传输和组合而制定的。 MPEG-4 对 AV 对象的主要操作如下:
(1)采用 AV 对象表示音视频或其组合内容;
(2)组合已有 AV 对象,通过自然混合编码 SNHC 组织;
(3)可对 AV 对象数据多路合成和同步,以便选择合适网络传输数据;
(4)允许用户对 AV 对象进行交互操作;
(5)支持 AV 对象知识产权和保护
MPEG-4 是第一个使用户可在接收端对画面进行操作和交互访问的编码标准。在 MPEG-4 校验模型中, VO(Video Object) 主要定义为画面中分割出来的不同物体, 并由三类信息描述:运动信息、形状信息、纹理信息。MPEG-4 视频数据流的逻辑结构如下图所示:
每个 VS 由一个或多个 VO 构成,每个 VO 可能有一个或多个 VOL 层,如基本层、增强层等,每个层是 VO 的某一分辨率表示。每个层中都有时间连续的 GOV,每个 GOV 又由一系列的VOP 构成。
MPEG-4 提供自然和合成的音频、视频以及图形的基于对象的编码工具。类似于以前标准,MPEG-4 由若干部分组成, 主要部分为系统、视频和音频。 MPEG-4 码流主要包括基本码流和系统流, 基本码流包括音视频和场景描述的编码流表示,每个基本码流只包含一种数据类型,并通过各自的解码器解码;系统流则指定根据编码视听信息和相关场景描述信息产生交互方式的方法,并描述其交互通信系统。
MPEG-4 系统把音视频对象及其组合复用成一个场景,提供与场景互相作用的工具,使用户具有交互能力。 MPEG-4 的系统终端模型如下图所示
(1)压缩层,执行媒体解码的系统组件。媒体是通过基本码流接口从同步层提取的。
(2)同步层,负责各个压缩媒体的同步和缓冲。它接收来自传输层的同步层包(SL),根据基本码流的时间标志进行拆包,并转发到压缩层。
(3)传输层,对已经存在的各种传输协议描述。这些协议能够用来传输和存储符合 MPEG-4标准的视听内容。
系统解码器模型包括定时模型和缓冲模型两种。如下图所示,每个基本码流都有一个单独的解码缓冲区,单个解码器可以解码多个基本码流(如扩展的视听对象解码)。
与 MPEG-1、 MPEG-2 相比, MPEG-4 不仅支持自然声音(如语音和音乐), 还支持合成声音(如MIDI)。 MPEG-4 音频部分将音频的合成编码和自然声音的编码相结合,并支持音频的对象特征。
1.自然声音编码
MPEG-4 支持 2Kbps~64 Kbps 的自然声音编码。如 8KHz采样频率的 2Kbps~4 Kbps 的语音编码,以及 8KHz 或 16KHz 采样频率 4Kbps~16 Kbps 的语音编码,一般采用参数编码;而 6Kbps~24 Kbps 的语音编码,一般采用码激励线性预测 CELP(CodeExcited Linear Predictive)编码技术;而从 16Kbps 以上码率的编码,则采用视频变换编码技术。
2.合成语音编码
MPEG-4 引入两个有力的编码技术:文本到语音编码(TTS, Text-to-Speech)和乐谱驱动合成编码。事实上,合成语音编码技术是一种基于知识库的参数编码。
MPEG-4 支持对自然和合成视觉对象的编码。合成的视觉对象包括 2D、 3D 动画和人面部表情动画等。对于静止图像, MPEG-4 采用零树小波算法(Zerotree Wavelet Algorithm),以提高压缩比,同时还提供多达 11 级的空间分辨率和质量的可伸缩性。对于运动视频对象的编码, MPEG-4 采用了如下图 所示编码框图,以支持对象的编码。
MPEG-4 相对 MPEG-1、 MPEG-2 而言,编码效率显著提高除了因为基于内容的性质外,还因为引入了以下的编码工具。
全局运动补偿有助于改善最挑剔的场景中的图像质量
1.基于VOP的编码
某一时刻 VO 以 VOP 的形式出现,编码也主要针对这个时刻 VO 的形状、运动、纹理这三类信息进行。
位图表示法实际就是一个边框矩阵,取值为 0~255(或 0、1),编码变为对该矩阵的编码。矩阵倍分为 16×16 的形状块,允许进行有损编码,这要通过对边界信息子采样实现,同时允许使用宏块运动矢量作形状块的运动补偿。为了得到语义上更方便的描述,以支持基于内容的操作, MPEG-4 还引入基于上下文的算术编码。
2.VOP编解码结构框图
VOP 编解码器主要由两部分组成:形状编解码和传统运动纹理编解码。重构的 VOP 由形状、纹理和运动信息正确组合而成