音频压缩的成功者-感知编码

时间：2023-03-20 17:56:39 计算机毕业论文我要投稿

相关推荐

音频压缩的成功者-感知编码

音频压缩的成功者——感知编码

2004年中南地区省级电视台技术年会论文二等奖

近年来，随着现代通信的发展，数字化日益渗透人们的日常生活，人们对各种多媒体业务的需求日益增长，我们正享受着数字化带来的方便和快捷，卫星电视、数字电视、各种数码音乐产品正改变着我们的生活。于是便要求得到更多更好的音频产品和服务。数字声音作为一种存储、处理和传输高保真声音的方法，在消费电子、专业声音等众多领域已得到广泛应用。但是如果没有通用有效的高质量音频编解码方案，数字存储和传输技术的进一步发展将会受到严重的束缚。在音频数字压缩技术中，当前比较成功的编码方式被称为“感知型编码（ Perceptual Coding ）”，现在比较常用的 MP3 、 MD 等都是感知编码原理。

一般来说，数据压缩有两种方法。一种方法是利用信号的统计性质，完全不丢失信息的高效率编码法，称为平均信息量编码或熵编码。第二种方法是利用接收信号的人的感觉特性，省略不必要的信息，压缩信息量，这种方法称为感觉编码。

因为熵编码可通过解码完全再现编码前的数据，故应用范围广泛 ,例如可用于磁盘压缩、文件压缩等，在保存信息方面，完全不用担心劣化。不过遗憾的是，仅依靠熵编码不能将音频信号进行大幅度的数据压缩。这是因为在音频信号中会有白噪声信号，这种完全随机的信号，根据信息论是决不能用熵编码进行压缩的。因此在音频压缩中，必须同时采用感知编码。

感知编码是利用人耳听觉的心理声学特性（频谱掩蔽特性和时间掩蔽特性）、人耳对信号幅度、频率、时间的有限分辨能力，凡是人耳感觉不到的成分不编码，不传送，即凡是对人耳辨别声音信号的强度、音调、方位有贡献的部分（称为不相关部分或无关部分）都不编码和传送。对感觉到的部分进行编码时，允许有较大的量化失真、并使其处于听阈以下，人耳仍然感觉不到。简单的说感知编码是建立在人类听觉系统的心理声学原理为基础，只记录那些能被人的听觉所感知的声音信号，从而达到减少数据量而又不降低音质的目的。

目前音频压缩编码已成为标准的是 MPEG-1 （ ISO/IEC11172-3 ）、 MPEG-2 （ ISO/IEC13818-3 ）和美国大联盟的 AC-3 。他们都是感知编码。

一、为什么压缩

了解数字音频首先要提到脉冲编码调制 PCM （ Pulse Code Modulation ），它是概念上最简单、理论上最完善的编码系统，是最早研制成功、使用最为广泛的编码系统，但也是数据量最大的编码系统。 PCM 指模拟音频信号只经过采样、量化、编码，模数转换成 PCM 信号，得到标准的数字音频码流，而未经过任何编码和压缩处理。

根据奈奎斯特采样定律，通常其采样频率至少应当是信号中的最高频率分量的两倍。对于高质量的音频信号，其频率范围是从 20Hz ～ 20kHz 。所以其采样频率必须在 40kHz 以上。在 CD 中采用了 44.1kHz 的采样频率。普通 CD 线性 PCM 的取样频率为 44.1kHz ，量化精度为 16bit ，动态范围为 98db 。（在对模拟信号采样以后，还必须对其幅度上加以分层。在 CD 中，其分层以后的幅度信号用 16 bit 的二进制信号来表示，也就是把模拟的音频信号在幅度上分为 65536 （ 2 16 ）层。这样，它的动态范围就可以达到 96 分贝（ 6 分贝 / 比特）。）

PCM 的编码原理比较直观和简单，它的原理框图如图所示。

在这个编码框图中，它的输入是模拟声音信号，它的输出是 PCM 样本。图中的“防失真滤波器”是一个低通滤波器，用来滤除声音频带以外的信号；“波形编码器”可暂时理解为“采样器”，“量化器”可理解为“量化阶大小 (step-size) ”生成器或者称为“量化间隔”生成器。

那么这种未经压缩的 PCM 信号的数据量具体有多大呢？以 CD 音质的信号为例，它的单通道的采样率是 44.1k Hz ，每个样值是 16bit 的量化，而立体声 CD 音质信号，有两个通道，它每秒的码流是 44.1K × 16 × 2 ≈ 1.4Mbit/s 。（数字信号传输率 = 取样频率 × 量化比特 × 通道数）一张 CD 唱片的容量约为 680MB ，可以容纳约 1 小时的双声道 PCM 数字音频节目，由于这种编码方式所产生的数据量太大，存储和传输都既不方便也不经济，有时甚至是行不通的。对于电视广播来说，数据传输速率越高，每套节目所需的频宽就越大，在频带资源日趋紧张的今天，过宽的频带是不能允许的，同时对于有形载体（激光碟、磁带等），每种载体的记录密度都是有限的（受当时技术发展程度的制约），增大数据量就意味着缩短节目长度。因此需要开发一种新的编码方式，它应该使用较少的数据量，而又不会导致音质的主观听感有明显的下降。

二、感知编码原理

1 、理论基础——闻域和临界频段

音频压缩理论是建立在心理声学模型基础上，从研究人耳的听感系统开始的。

人耳实际上可看成一个多频段的听感分析器，在接收端的最后，它对瞬间的频谱功率进行了重新分配，这就为音频的数据压缩提供了依据。

众所周知，声源振动的能量通过声波传入人耳，使耳膜发生振动，人们就产生了声音的感觉。但是人耳能听到的振动频率约在 20 Hz 到 20KHz 之间，低于 20 Hz 或高于 20K Hz 的振动，不能引起人类听觉器官的感觉。心理声学模型中一个基本的概念就是听觉系统中存在一个听觉阈值电平，低于这个电平的声音信号就听不到，因此就可以把这部分信号去掉。听觉阈值的大小随声音频率的改变而改变，各个人的听觉阈值也不同。大多数人的听觉系统对 2kHz ～ 5kHz 之间的声音最敏感。一个人是否能听到声音取决于声音的频率，以及声音的幅度是否高于这种频率下的听觉阈值。这就是说在听觉阈值以外的电平可以去掉，相当于压缩了数据。另外，听觉阈值电平是自适应的，即听觉阈值电平会随听到的不同频率的声音而发生变化。也许你有这样的体验，在一安静房间里的普通谈话可以听得很清楚，但在播放摇滚乐的环境下同样的普通谈话就听不清楚了。声音压缩算法也同样可以确立这种特性的模型来取消更多的冗余数据。

音频压缩的成功者-感知编码

【音频压缩的成功者-感知编码】相关文章：

用于压缩感知的无线传感网测量矩阵设计方法05-27

Video Object编码技术05-29

感知与对话-浅析中国传统建筑艺术的内在精神05-24