走进数字AV压缩技术(中)(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇走进数字AV压缩技术(中)范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

2、Wav编码

WAV是由微软制定并开发的一种音频编码格式，由于微软本身的影响力，这个格式目前事实上已经成为了各种系统平台中最为通用也是最常见的音频文件格式。WAV文件格式，符合 RIFF（Resource Interchange File Format）规范。所有的WAV文件都有一个文件头，这个文件头内包含有音频流的编码参数。WAV可以使用多种音频编码来压缩其音频流，我们最常见的都是经PCM编码处理的WAV，但这不表示WAV只能使用PCM编码。WAV对音频流的编码没有硬性规定，除了PCM之外，还有几乎所有支持ACM（Audio Compression Manager）规范的编码都可以为WAV的音频流进行编码。在Windows平台上通过ACM结构及相应的CODEC(编码译码器)，可以在WAV文件中存放超过20种的压缩格式。只要有软件支持，你甚至可以在WAV格式里面存放图像，所以MP3编码同样也可以运用在WAV中。只要安装好了相应的译码器，就可以欣赏这些WAV了。

在Windows平台下，基于PCM编码的WAV是被支持得最好的音频格式，所有音频软件都能完美支持，由于本身可以达到较高的音质的要求，支持多种音频位数、采样频率和声道，因此WAV也是音乐编辑创作的首选格式，但其缺点是文件体积较大（一分钟时长44kHz、16bit采样的WAV文件约需要占用10MB左右的硬盘空间），所以不适合长时间记录。它的主要用途是存放音频数据并用作进一步的处理，而不是像mp3那样用于聆听。因此，基于PCM编码的WAV被作为了一种中介的格式，常常使用在其它编码的相互转换之中，例如将mp3转换成WMA时。

3、mp3编码

mp3是1993年由Fraunhofer-IIS研究院和Thomson公司的研究成果。它是MPEG(Moving Picture Experts Group) Audio Layer-3的简称，是MPEG1的衍生编码方案。mp3是第一个实用的有损音频压缩编码，虽然几大音乐商极其反感这种开放的格式，但也无法阻止这种音频压缩的格式的生存与流传。各种与mp3相关的软件产品层出不穷，现在各种支持mp3格式的硬件产品也是随处可见了。

在mp3出现之前，一般的音频编码即使以有损方式进行压缩能达到4:1的压缩比例已经非常不错了。mp3可以做到12:1的惊人压缩比，这使得mp3迅速地流行起来。mp3之所以能够达到如此高的压缩比例同时又能保持相当不错的音质是因为利用了知觉音频编码技术，也就是利用了人耳的特性，削减音乐中人耳听不到的成分，同时尝试尽可能地维持原来的声音质量。

mp3编码技术的之初其实是非常不完善的，由于缺乏对声音和人耳听觉的研究，早期的mp3编码器几乎全是以粗暴方式来编码，音质破坏严重。随着新技术的不断导入，mp3编码技术一次一次的被改良，其中有2次重大技术上的改进。

第一次改进是VBR（Variant Bit Rate，可变位率）的引入。我们知道，衡量mp3文件的压缩比例通常使用位率（Bit Rate）来表示。通常位率越高，压缩文件就越大，但音乐中获得保留的成分就越多，音质就越好。由于位率与文件大小音质的关系，所以后来出现了VBR方式编码的mp3。VBR编码的特点是可根据编码的内容动态地选择合适的位率，因此编码的结果是在保证了音质的同时又照顾了文件的大小，结果大受欢迎。同时，mp3格式的文件有一个有意思的特征，就是可以边读边放，这也符合流媒体的最基本特征，也就是说播放器可以不用预读文件的全部内容就可以播放，读到哪里播放到哪里，即使是文件有部分损坏。VBR技术的优越性是显而易见的，但要运用确实是一件难事，因为这要求编码器知道如何为每一段分配位率，这对没有波形分析的编码器而言，这种技术如同虚设。正是如此，VBR技术并没有一出现就显得光彩夺目。第二次改进就是听觉模型的引入。专家们通过长期的声学研究，发现人耳存在遮蔽效应。声音信号实际是一种能量波，在空气或其它媒介中传播，人耳对声音能量的多少即响度或声压最直接的反应就是听到这个声音的大小，我们称它为响度，表示响度这种能量的单位为分贝（dB）。即使是同样响度的声音，人们也会因为它们频率不同而感觉到声音大小不同。人耳最容易听到的就是4kHz的频率，不管频率是否增高或降低，即使是响度在相同的情况下，大家都会觉得声音在变小。但响度降到一定程度时，人耳就听不到了，每一个频率都有着不同的值。

0dB是听觉灵敏度的极限，而120dB是痛苦灵敏度的极限。人耳在2000Hz到5000Hz范围内的灵敏度最高，两端就迅速下降。所以人耳对中频的灵敏度远高于高低频。

从人耳听觉等效曲线图中，我们可以看到这条曲线基本成一个V字型，当频率超过15kHz时，人耳会感觉到声音很小，很多听觉不是很好的人，根本就听不到20kHz的频率，不管响度有多大。当人耳同时听到两个不同频率、不同响度的声音时，响度较小的那个也会被忽略，例如：在白天，由于周围噪声源多，我们很难听到计算机主机散热风扇的声音，但晚上却听得很清楚。根据这种原理，编码器可以过滤掉很多听不到的声音，以简化信息复杂度，增加压缩比，而不明显的降低音质。这种遮蔽被称为同时遮蔽效应。但声音A被声音B遮蔽，如果A处于B为中心的遮蔽范围内，遮蔽会更明显，这个范围叫临界带宽。每一种频率的临界带宽都不一样，频率越高的临界带宽越宽。

根据这种效应，专家们设计出人耳听觉心理模型，这个模型被导入到mp3编码中后，导致了一场翻天覆地的音质革命，mp3编码技术一直背负着音质差的恶名，但这个恶名现在已经逐渐被洗脱。到了此时，mp3削减音乐中人耳听不到的成份，同时尝试尽可能地维持原来的声音质量。一直被埋没的VBR技术光彩四射，配合心理模型的运用便现实出强大的诱惑力与杀伤力。在中高位率下，编码得当的mp3要比WMA优秀很多，可以非常接近CD音质，在不太好的硬件设备支持下，没有多少人可以区分两者的差异。

目前属于开放源代码并且免费的编码器是LAME。这个工具是公认的压缩音质最好的mp3压缩工具。另外，几乎所有的音频编辑工具都支持打开和保存mp3文件。到了现在，许多新一代的编码技术都已经能在相同的位率下提供比mp3优越得多的音质。应该说，mp3确实显现出疲态了。不过由于mp3的影响力实在是太大了，支持mp3的软件多如牛毛，更别提众多支持mp3的硬件播放器了。总之，mp3依然是世界上最流行的音频压缩技术，要它真正退出舞台相信还有好长一段时间。

4.mp3PRO

Thomson公司、Fraunhofer-IIS连同Coding Technologies于2001年6月了一种名为mp3PRO的音乐格式。mp3PRO是一种基于mp3编码技术的改良方案，从官方公布的特征看来确实相当吸引人。从各方面的数据显示，mp3PRO并不是一种全新的格式，完全是基于传统mp3编码技术的一种改良，本身最大的技术亮点就在于采用了SBR（Spectral Band Replication，频带复制）技术，这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码，与传统的编码技术不同的是，SBR更像是一种后处理技术，因此译码器的算法的优劣直接影响到音质的好坏。高频实际上是由译码器（播放器）产生的，SBR编码的数据更像是一种产生高频的命令集，或者称为指导性的信号源。我们可以看到，mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码，它在原来mp3技术的基础上专门针对原来mp3技术中损失了的音频细节进行独立编码处理并捆绑在原来的mp3数据上，在播放的时候通过再合成而达到良好的音质效果。这种改善可以让64kbps的mp3达到128kbps的mp3的音质水平。Coding Technologies推出了最新的MPEG-4 AACPlus，通过将SBR技术应用在AAC（Advanced Audio Codec，先进音频编解）技术中而获得更卓越的音质。Coding Technologies表示SBR将会成为MPEG-4的核心技术。但由于技术专利费用的问题以及其它技术提供商（例如微软）的竞争，mp3PRO并没有得到很大的流行。由于得不到支持，mp3PRO这个优良的音频技术到底何去何从，谁也不敢肯定。

5.RA 和RAM

随着互联网的发展，Real Networks公司发明的Real Media出现了。RA、RMA这两个文件类型就是RealAudio格式。RealAudio可以根据听众的带宽来控制自己的位率，就算是在非常低的带宽下也可以提供足够好的音质让用户在线聆听。

网络流媒体的道理其实非常简单，简单地说就是将原来连续的音频分割成一个一个带有顺序标记的小数据包，将这些小数据包通过网络进行传递，在接收的时候再将这些数据包按顺序组织起来播放。如果网络质量太差，有些数据包收不到或者延缓了到达，它就跳过这些数据包不播放，以保证用户在聆听的内容是基本连续的。由于Real Media是从极差的网络环境下发展过来的，所以Real Media的音质并不怎样，包括在高位率的时候，甚至差于mp3。

后来Real Networks通过与SONY公司合作，利用SONY的ATRAC技术（也就是MD的压缩技术）实现高位率的高保真压缩。和WMA一样，RA不但都支持边读边放，也同样支持使用特殊协议来隐匿文件的真实网络地址，从而实现只在线播放而不提供下载的欣赏方式。这对唱片公司和唱片销售公司很重要，在各方的大力推广下，RA和WMA是目前互联网上，用于在线试听最多的音频媒体格式。由于Real Media的用途是在线聆听，并不适于编辑，所以相应的处理软件并不多。一些主流软件可以支持Real Media的读/写，可以实现直接剪辑的软件是Real Networks自己提供的捆绑在Real Media Encoder编码器中的Real Media Editor，但功能非常有限，这一点与现在的Windows Media相比就差得远了。（未完待续）

走进数字AV压缩技术(中)

常用范文

优秀范文

精选范文