New!你知道小组可以导入词条、编辑专题页面吗?  

音频信号处理技术

 一、声音信号的特点

1 、音调:音调与声音的频率有关,频率快则音调高,频率慢则音调低

声音信号

n 周期信号:单一频率音调的信号

n 非周期信号:包括一定频带的所有频率分量的信号

2 、音强(响度):用来描述声音的强弱,体现在声音的振幅的大小

度量单位

n 物理学:声压 dym/cm2( 达因 / 平方厘米 ) 声强 w/cm2( 瓦特 / 平方厘米 )

n 心理学:响度级:方 (phon) 或宋 (song)

听阀和痛阀

n 听阀:当声音弱到人的耳朵刚刚听见的声强

n 痛阀:当声音强到人的耳朵感到疼痛时的声强

听阀与痛阀是与频率相关的。

3 、音色:由混入基音的泛音所决定,每个基音有其固有频率和不同音强的泛音,从而使每种声音具有特殊的音色效果。

二、音频信号处理方法

音频信号的离散化

n 量化:连续幅度的离散化

样本精度:每个声音样本的位数

n 采样:连续时间的离散化

采样频率:每秒需要采集多少个样本

奈奎斯特 (Nyquist) 采样定律:采样频率不应低于声音信号最高频率的两倍,就能把以数字表达的声音还原成原来的声音。 例如,电话话音的信号频率约为 3.4kHz ,采样频率就选为 8kHz ;高质量声音采样频率为 44.1kHz 。

三、音频文件及存储格式

存储格式

n RIFF (Resource Interchange File Format ,资源交换文件格式 ) 是在多媒体编程接口的规范, .wave 文件是其中的一种格式;

n 波形文件有许多不同类型的文件构造块组成,其中最主要的两个文件构造块是格式块 ( Format Chunk) 和声音数据块 (Sound Data Chunk) ;

n 格式块包含有描述波形的重要参数,例如采样频率和样本精度等;

n 声音数据块则包含有实际的波形声音数据。

四、声音质量的度量

n 用声音信号的带宽来衡量,分为五级

n 客观质量度量:用信噪比 (signal to niose ratio , SNR) 衡量,建立在度量均方误差的基础上,计算简单,但不能完全反映人对语音质量的感觉。

n 主观质量度量:用平均意见得分 (mean opinion score , MOS) 评价

分数 质量级别 失真级别

5 优 (Excellent) 无察觉

4 良 (Good) ( 刚 ) 察觉但不讨厌

3 中 (Fair) ( 察觉 ) 有点讨厌

2 差 (Poor) 讨厌但不反感

1 劣 (Bad) 极讨厌 ( 令人反感

六、 音频信号压缩技术(话音)

1 、熵编码

2 、脉冲编码调制 PCM : PCM,pulse code modulation

优点:概念简单、理论完善 缺点:数据量大

( 1 )均匀量化

n 采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化,也称为线性量化;

n 量化后的样本值 Y 和原始值 X 的差 E=Y-X 称为量化误差或量化噪声。

缺点: 无论对大的输入信号还是小的输入信号一律都采用相同的量化间隔。为了适应幅度大的输入信号,同时又要满足精度要求,就需要增加样本的位数。而对话音信号来说,大信号出现的机会并不多,增加的样本位数就没有充分利用。

( 2 )非均匀量化

也称为非线性量化,其基本思想是,对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔;

可以在满足精度要求的情况下用较少的位数来表示。

有两种量化标准:

n μ律压扩算法

n A 律压扩算法

3 、 增量 调制 DM , DM(delta modulation) ,也称△调制,是一种预测编码技术

n DM 对实际的采样信号与预测的采样信号之差的极性进行编码。

n 如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“ 1 ”表示;相反则用“ 0 ”表示,或者相反。

n 由于 DM 编码只须用 1 位对话音信号进行编码,所以 DM 编码系统又称为“ 1 位系统”。

纵坐标表示“模拟信号输入幅度”,横坐标表示“编码输出”。用 i 表示采样点的位置, x[i] 表示在 i 点的编码输出。输入信号的实际值用 yi 表示,输入信号的预测值用 y[i+1]=y[i] △表示。假设采用均匀量化,量化阶的大小为△,在开始位置的输入信号 y0=0 ,预测值 y[0]=0 ,编码输出 x[0]=1 。

缺点:

n 斜率过载 (slope overload) :在输入信号变化快的区域,输入信号的变化速度超过反馈回路输出信号的最大变化速度时发生;

n 粒状噪声 (granular noise) :在输入信号缓慢变化部分,增量调制器的输出出现随机交变的“ 0 ”和“ 1 ”的现象

对策:量化阶△应该能够动态变化——自适应增量调制

4 、自适应增量调制 ADM , Adaptive Delta Modulation

n 斜率过载和粒状噪声不可调和,无论增加或减小量化阶,所以提出“自适应增量调制”

n 思想:根据输入信号斜率的变化自动调整量化阶△的大小,使斜率过载和粒状噪声都减到最小;

n 系统输出为 0 和 1 ;

n 每当输出不变时量化阶增大 50% ,使预测器的输出跟上输入信号,使斜率过载减到最小;

n 每当输出值改变时,量化阶减小 50% ,使粒状噪声减到最小。

5 、自适应脉冲编码调制 APCM , adaptive pulse code modulation

n APCM 根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。

n 前向自适应 (forward adaptation) 和后向自适应 (backward adaptation)

6 、差分脉冲编码调制 DPCM , differential pulse code modulation

n 思想:根据过去的样本去估算 (estimate) 下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。

n 差值变化幅度总是小于信号本身

7 、自适应差分脉冲编码调制 ADPCM , adaptive difference pulse code modulation

n ADPCM 综合了 APCM 的自适应特性和 DPCM 系统的差分特性,是一种性能比较好的波形编码。

n ADPCM 算法目前普遍应用的较好的算法

n 核心思想:

①利用自适应的思想改变量化阶的大小,即使用小的量化阶 (step-size) 去编码小的差值,使用大的量化阶去编码大的差值 ;

②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。

8 、子带编码 SBC , subband coding

n 子带:输入音频信号的频带可以分成若干个连续的频段,每个频段称为子带。

n 基本思想:对每个子带中的音频信号采用单独的编码方案去编码。编码 / 译码器可以采用 ADPCM , APCM , PCM 等。

n 好处之一,对每个子带信号分别进行自适应控制,量化阶 (quantization step) 的大小可以按照每个子带的能量电平加以调节。

n 好处之二,可根据每个子带信号在感觉上的重要性,对每个子带分配不同的位数,用来表示每个样本值。

9 、线性预测差分编码 LPC , linear predictive coding

n LPC 通过分析话音波形来产生声道激励和转移函数的参数,对声音波形的编码实际就转化为对这些参数的编码,使声音的数据量大大减少。

n 在接收端使用 LPC 分析得到的参数,通过话音合成器重构话音。

n 线性预测器使用过去的 P 个样本值来预测现时刻的采样值 x(n) 。

n 合成器是一个离散的随时间变化的时变线性滤波器,它代表人的话音生成系统模型。

n 时变线性滤波器既当作预测器使用,又当作合成器使用:

n 分析话音波形时,主要是当作预测器使用;

n 合成话音时当作话音生成模型使用。

10 、 GSM 简介

n GSM ,全球数字移动通信系统, Global System for Mobile communications 。

n GSM 算法是根据 GSM 协议开发的, GSM 协议是欧洲最流行的数字蜂窝电话通信协议。

n GSM 的输入是帧 (frame) 数据,一帧 (20 毫秒 ) 由采样频率为 8kHz 的带符号的 160 个样本组成,每个样本为 13 位或者 16 位的线性 PCM(linear PCM) 码。

n 压缩后 GSM 的数据率: 13.2kb/s

n GSM 的压缩比:近似于 10:1 。

七、 音频编码标准

1、 ITU G 系列声音压缩标准

ITU , International Telecommunication Union

该系列标准各项指标如 P72 表。

2、 MPEG Audio 压缩技术

n MPEG Audio 标准包括 MPEG-1 Audio 、 MPEG-2 Audio 和 MPEG-2 AAC

n 处理对象: 10 Hz ~ 20000 Hz 范围里的声音数据

n 大名鼎鼎的 MP3 是 MPEG-1 Audio 中的一个层

n 数据压缩的主要依据:是人耳朵的听觉特性,使用“心理声学模型 (psychoacoustic model) ”

² 去掉低于“听觉阈值电平”的声音信号(听阀与频率、具体的人有关)

² 利用“听觉掩饰特性”,听觉阈值电平会随听到的不同频率的声音而发生变化。(例如,安静房间里的谈话和吵闹环境中的谈话)

1 、利用人听觉系统特性压缩声音数据

n MPEG 声音数据压缩的基础是量化。虽然量化会带来失真,但 MPEG 标准要求量化失真对于人耳来说是感觉不到的。

n 在 MPEG 标准的制定过程中, MPEG-Audio 委员会通过实验表明,采样频率为 48 kHz 、样本精度为 16 位的声音数据压缩到 256 kb/s 时,即在 6 : 1 的压缩率下,即使是专业测试员也很难分辨出是原始声音还是编码压缩后的声音。

n 在 MPEG Audio 中利用人听觉系统特性压缩声音数据,有两种编码方法:感知子带编码( MPEG-1 Audio 采用)和 Dolby AC3 ( MPEG-2 Audio 采用)

( 1 )感知子带编码 (perceptual subband coding) ,如上图

² 分割子带

² 对每个子带分别进行量化和编码

² 将各子带的编码进行复合

( 2 ) Dolby AC3(Audio code number 3)

² 分析滤波器组把用 PCM 时间样本表示的声音信号变换成用频率系数块表示的声音信号。

² 谱包络编码的功能是对“分析滤波器组”输出的指数进行编码。指数代表粗糙的信号频谱

² 位分配使用“谱包络编码”输出的信息确定尾数编码所需要的位数

² 尾数量化按照位分配信息对尾数进行量化。

² AC-3 帧格式将输出的频谱包络组成 AC-3 帧。

2. MPEG-1 Audio 声音的性能

n 输入信号为线性 PCM 信号,采样率为 32, 44.1 或 48 kHz ,输出为 32 kb/s ~ 384 kb/s 。

n 三个独立的压缩层次:用户对层次的选择可在复杂性和声音质量之间进行权衡。

n 可预先定义压缩后的数据率,支持用户预定义的数据率。 <detail>

n 编码后的数据流支持循环冗余校验 CRC(cyclic redundancy check) 。

n 支持在数据流中添加附加信息。

MPEG-1 Audio 三个压缩层次

layer

压缩比

输出数据率

用途

layer1

4:1

384kb/s

小型数字盒式磁带

layer2

6:1~8:1

256kb/s~192kbs

数字广播声音、数字音乐、 CD 、 VCD

layer3

10:1~12:1

64kbs

ISDN 上的声音传输

可预先定义压缩后的数据率

音质要求

声音带宽 (kHz)

方式

数据率 ( kb/s)

压缩比

电话

2.5

单声道

8

96:1

优于短波

5.5

单声道

16

48:1

优于调幅广播

7.5

单声道

32

24:1

类似于调频广播

11

立体声

56 ~ 64

26 ~ 24:1

接近 CD

15

立体声

96

16:1

CD

>15

立体声

112 ~ 128

12 ~ 10:1

3 、 MPEG-2 标准中的音频

n MPEG-2 标准委员会定义了两种声音压缩格式

² MPEG-2 Audio

² MPEG-2 AAC

n MPEG-2 Audio ,或者称为 MPEG-2 多通道 (Multichannel) 声音,与 MPEG-1 Audio 是兼容,又称为 MPEG-2 BC (Backward Compatible)

n MPEG-2 AAC (Advanced Audio Coding) ,与 MPEG-1 声音格式不兼容,因此通常称为非后向兼容 MPEG-2 NBC(Non-Backward-Compatible) 标准。

4 、 MPEG-2 Audio 的扩充

n 增加了 16 kHz, 22.05 kHz 和 24 kHz 采样频率;

n 扩展了编码器的输出速率范围,由 32 ~ 384 kb/s 扩展到 8 ~ 640 kb/s ;

n 增加了声道数,支持 5.1 声道和 7.1 声道的环绕声。

n 支持线性 PCM 和 Dolby AC-3

5 、 MPEG-2 AAC

n MPEG-2 AAC 是 MPEG-2 标准中的一种非常灵活的声音感知编码标准。

n 特点:利用听觉系统的掩蔽特性来减少声音的数据量,并且通过把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉。

n 采样频率: 8 kHz~96 kHz

n 音源:单声道、立体声和多声道的声音

n MPEG-2 AAC 在压缩比为 11:1 ,即每个声道的数据率为 (44.1 × 16 )/11=64 kb/s , 5 个声道的总数据率为 320 kb/s 的情况下,很难区分还原后的声音与原始声音之间的差别。

n 与 MPEG 的层 2 相比, MPEG-2 AAC 的压缩率可提高 1 倍,而且质量更高,与 MPEG 的层 3 相比,在质量相同的条件下数据率是它的 70% 。

3、 MP4

n MP3 的优势与遗憾

² 凭借较高的压缩比和较好的音质创造了一个全新的音乐领域

² MP3 的开放性不可避免地导致了版权之争

n Mp4 是一个商标而非标准

n Mp4 特点:

² 每首 MP4 乐曲就是一个 .exe 的可执行文件,使用方便。

² 更小的体积和更好的音质。采用 a2b 音频压缩技术, MP4 文件大小仅为 MP3 的 3/4 左右,更适合在 Internet 上传播。

² 采用了独特的“ Solana ”数字水印技术,方便地追踪和发现盗版发行行为。针对 MP4 的非法解压,可能导致 MP4 原文件的损毁。

² 支持版权保护, MP4 乐曲中内置了作者、版权持有者待版权说明,既可声明版权,又表示了对作者和演唱者的尊重。

² 比较完善的功能:独立调节左右声道音量控制、内置波形 / 分频动态音频显示和音乐管理器、支持多种彩色图像、网站链接及无限制的滚动显示文本等。

4、数字乐器接口 MIDI

n MIDI : Musical Instrument Digital Interface

n MIDI 是在音乐合成器、乐器和计算机之间交换音乐信息的一种标准协议。

n MIDI 是乐器和计算机使用的标准语言,是一套指令 ( 即命令的约定 ) ,它指示乐器即 MIDI 设备要做什么,怎么做,如演奏音符、加大音量、生成音响效果等。

n MIDI 不是声音信号,在 MIDI 电缆上传送的不是声音,而是发给 MIDI 设备或其它装置让它产生声音或执行某个动作的指令。

1 、 MIDI 标准的优点

n 生成的文件比较小,因为 MIDI 文件存储的是命令,而不是声音波形;

n 容易编辑,因为编辑命令比编辑声音波形要容易得多;

n 可以作背景音乐,因为 MIDI 音乐可以和其它的媒体一起播放,这样可以加强演示效果。

2 、产生 MIDI 乐音的方法

(1) 频率调制合成法 (FM,frequency modulation)

n 一共有五个模块

n 各模块可以接收参数

n FM 合成器算法要解决的问题就是如何用 13 个参数的组合产生不同的乐音,例如:

² 用什么样的波形作为数字载波波形

² 用什么样的波形作为调制波形

² 用什么样的波形参数去组合

n 声音包络发生器用来调制声音的电平,这个过程也称为幅度调制,并且作为数字式音量控制旋钮

(2) 乐音样本合成法,也称为波形表 (Wavetable) 合成法

n 方法 : 把真实乐器发出的声音以数字的形式记录下来,播放时改变播放速度,从而改变音调周期,生成各种音阶的音符。

n 优势 : 可以合成 FM 不能产生的乐音,声音更加逼真

3 、 MIDI 系统

n MIDI 数据流:是单向异步的数据位流,速率 31.25 kb/s ,每单位 10 位 (1 位开始位, 8 位数据位和 1 位停止位 ) 。

n MIDI 乐器上的 MIDI 接口通常包含 3 种 MIDI 连接器,即 IN( 输入 ), OUT( 输出 ) 和 THRU( 穿越 ) 。

n MIDI 数据流来源 : MIDI 控制器 (MIDI controller)

n MIDI 控制器是当作乐器使用的一种设备,在播放时把演奏转换成实时的 MIDI 数据流。常用的是乐器键盘 (musical instrument keyboard) 和 MIDI 音序器 (MIDI sequencer)

n MIDI 音序器是一种装置,允许 MIDI 数据被捕获、存储、编辑、组合和重奏。来自 MIDI 控制器或者音序器的 MIDI 数据输出通过该装置的 MIDI OUT 连接器传输。

n MIDI 数据流的接收设备: MIDI 声音发生器 (MIDI sound generator) 或者 MIDI 声音模块 (MIDI sound module) ,它们在 MIDI IN 端口接收 MIDI 信息,然后播放声音。

( 1 )一个简单的 MIDI 系统

n 由一个 MIDI 键盘控制器和一个 MIDI 声音模块组成。

n 许多 MIDI 键盘乐器在其内部既包含键盘控制器,又包含 MIDI 声音模块功能。在这些单元中,键盘控制器和声音模块之间已经有内部链接,这个链接可以通过该设备中的控制功能 (local control) 对链接打开 (ON) 或者关闭 (OFF) 。

( 2 )复杂的 MIDI 系统

n 单个物理 MIDI 通道 (MIDI channel) 分成 16 个逻辑通道,每个逻辑通道可指定一种乐器。在 MIDI 信息中,用 4 个二进制位来表示这 16 个逻辑通道。

n 音乐键盘可设置在这 16 个通道之中的任何一个,而 MIDI 声源或者声音模块可被设置在指定的 MIDI 通道上接收。

n 在一个 MIDI 设备上的 MIDI IN 连接器接收到的信息可通过 MIDI THRU 连接器输出到另一个 MIDI 设备,并可以菊花链的方式连接多个 MIDI 设备,这样就组成了一个复杂的 MIDI 系统

( 3 )用 PC 机构造的 MIDI 系统

n 在这个系统中, PC 机使用内置的 MIDI 接口卡,用来把 MIDI 数据发送到外部的多音色 MIDI 合成器模块。

n 应用软件把信息通过 PC 总线发送到 MIDI 接口卡。 MIDI 接口卡把信息转换成 MIDI 消息,然后送到多音色声音模块同时播放出许多不同的乐音

n 使用安装在 PC 机上的高级的 MIDI 音序器软件,用户可把 MIDI 键盘控制器连接到 MIDI 接口卡的 MIDI IN 端口,也可以有相同的音乐创作功能。

n 多媒体个人计算机 (MPC) 规范就要求声卡必须有 MIDI 接口和 MIDI 声音模块,称为合成器。合成器分为 FM 合成器和波表合成器两种

5、 声卡

声卡的历史

n PC 喇叭与 ADLIB 音乐卡

n Sound Blaster 卡

n SB AWE 系列声卡

n PCI 声卡

Sound Blaster 16 声卡上有一个 IDE 接口和 CD 音频接口外部接口有麦克风插口 (Mic) 、立体声输出插口 (Speaker) 连接音箱或耳机;线性输入 (Line in) 可连接 CD 播放机、单放机合成器等;输出插口 (Line out) 可连接功放等;游戏杆和 MIDI 设备。

声卡的声道

n 单声道:当通过两个扬声器回放单声道信息的时候,人们可以明显感觉到声音是从两个音箱中间传递到耳朵里的。

n 立体声:声音在录制过程中被分配到两个独立的声道,从而达到了很好的声音定位效果。在音乐欣赏中听众可以清晰地分辨出各种乐器来自的方向,从而使音乐更富想象力,更加接近于临场感受。

n 四声道环绕:四声道环绕规定了 4 个发音点:前左、前右,后左、后右,听众则被包围在这中间。同时还可以增加一个低音音箱,以加强对低频信号的回放处理。核心是三维音效。

数字录音技术音频信号的数字化

 

现在,在国外激光唱片( CD )的软件和硬件、家用数字音频录音机( DAT )已相当普及。此外,广播中继和卫星直接广播、 8mm 录像机中声音系统也用了脉码调制,使用数字信号处理器( DSP )来控制声场以提高音响效果的机器也已问世,可以说已经进入数字音频时代。
数字信号处理的概念可以追溯到十七世纪发展起来的数值解析。然而,它之所以发展到今天这样盛行,首先归功于 1940 年至 1950 年间以香农为代表的信息论和电子计算机的实用化。其次是由于大规模集成电路( LSI )为中心的半导体技术的迅猛发展,尤其是数字集成电路性能的提高和价格的下降 ,促进了数字化的发展。
一 模拟信号的数字化
1. 采样和内插
图 1 为信号处理的流程图。在模拟信号的数字化中采样和量化操作是必要的。通常在采样保持回路( S/H )内进行采样后,经 A/D 变换器进行量化,但在并列型的 A/D 变换器内采样和量化也有同时进行的。

所谓采样,即是对图 1 ( a )一个连续信号,在某一时刻读取其值。被采样后一系列的采样值图 1 ( b )称之为时间序列。一般而言,由于信号的频带是有限的,因此按照以后提到的采样定理,没有信息失落的采样是可能的。图 1 ( c )所示的采样值是用二进制数字表示的量化情况。
在完成了传输和记录等处理之后的数字信号在 D/A 变换器中重新恢复成采样脉冲列,经过低通滤波器还原成模拟信号。图 1 ( d )粗线所示的采样值通过带宽为 1/2T 的理想低通滤波器时,在采样点上表现出原始的数值,而其两侧为衰减振荡。必须注意的是它在其它所有采样点上的输出都为 0 。
如把所有的采样值通过理想的低通滤波器后相当在采样点处保持原值,采样点之间则进行内插,其输出波形如图 1 ( e )所示的连续波形。实际上,若没有完善的带宽限制,没有理想宽度为零的采样脉冲,由理想滤波器进行的内插是不可能实现的。所以用真实的硬件就会产生畸变。
再则,由于量化,在图 1 ( f )重现的波形与原始波形之间存在误差即量化噪音。数字化从原理上不可避免产生差异,使得信号变坏。
2. 低通滤波器
若信号的频带事先已经限制,则采样频率不必很高,所以一般在采样之前必须先限制带宽。如频带限制不完全,使信号中比采样频率 1/2 还高的信号分量将产生频谱折叠,而落在频带内,称为折叠噪音。一旦产生折叠噪音,以后不可能再将其分离开。
在采样前进行带宽限制和进行内插用的低通滤波器,它既可采用高阶无源模拟滤波器,也可以是高阶有源模拟滤波器。

随着 A/D 变换器和数字运算元件的高速化,开始使用如图 2 所示的高速采样和数字滤波器的组合结构。图中的例子是模拟滤波器的带宽限制在 100KHz 之内, 200KHz 采样量化后的数字信号经通带为 0 ~ 20KHz ,阻带为 25 ~ 100KHz 的数字滤波器来限制频带。这样因采样频率高四倍,就留下四个取样频谱的间隔(按时域间隔),因为只要得到采样频率为 50KHz 的数字信号。
可是,有时可能要处理直至 100KHz 的信号。所以在采样前有必要把带宽限制在 100KHz ,如必要的信号带宽为 20KHz ,模拟低通滤波器限制 175KHz 以上的频率较为理想,在这种情况下,所产生的折叠噪音的带宽仅在 25 ~ 100KHz 范围内,使信号带宽不受影响。
另一方面, D/A 变换器的内插过程与上述相反,把 3 个 50KHz 的采样值,插入到采样频率为 200KHz 的频谱为 0 之处,因数字滤波器的带通限制在 20KHz ,就可以从模拟低通滤波器上获得模拟信号。


3. 量化和量化噪音
量化是把可能取的任何采样值表示成有限的离散值的变换过程。在图 3 中表示量化阶跃电压 ⊿ 一定时的线性量化的一个例子。( a )为中间上升型( mid — riser ),( b )为中间保持型( mid — tread )。
现在,在量化器内施加一个小信号正弦波,对于中间上升型振幅在 ⊿ 以下者,输出振幅均为 ±⊿ /2 方波输出。反之对于中间保持型,振幅在 ⊿ /2 之内量化输出等于零。总之,输入与量化的输出有很大的差异,这个差异就称作量化噪音。由于量化使得信号的恶化,信息的失落是不可避免的。
在宽频带音频信号的量化中,对应于输入信号而言,有很多量化阶跃电压,量化噪声是与输入无关的白噪音。但是对于输入低电平的量化级数较少的信号或者电平很高变化又是非常之慢的信号,量化噪音变成与输入强度有关的某种失真。在有的地方称之为抖动( dither ),于是量化噪音可以归并到与输入无关的白噪音的这一类中去。
4. 量化比特数和动态范围
如前所述,当量化阶跃电压为 ⊿ 时,量化噪音的功率为 ⊿ 2/12 。设系统的量化 bit 数为 M ,最大振幅 ± 1 的量化噪音的功率为 2-2 ( M-1 ) /12 ,如信号的有效值为 S ,信号对量化噪音的功率信噪比为:
S/Nq=S2 〔 2-2 ( M-1 ) /12 〕
=12S2/2-2 ( M-1 )
用 dB 表示:
S/Nq=6.02M+4.77+20lgS ( dB )
由于最大振幅为 ± 1 的正弦波,其有效值为 1/ ,即 -3.01dB ,因此在 M 〔 bit 〕的线性量化系统中对于最大振幅的正弦波的 S/Nq 也就是动态范围:
S/Nq = 6.02 M+1.76 ( dB )
从中可知, 10bit 的动态范围 62 dB , 16bit 约为 98dB 。
5. 采样与量化的相互关系
一般而言,采样频率决定频带,而量化特性决定动态范围,可以看作两者相互独立。但是实际上两者之间有着紧密的联系,确切地说所使用的采样频率决定了可以通过的频带,而量化级数比较多时,大致上动态范围也较宽。但是如前所说,假如将抖晃按与信号无关那样的处理,则在频带内量化噪音均匀分布。因而若信号带宽一定,如图 4 所示,当采样频率越高,量化噪音分布的频带就越宽,那么为了在一定频带中降低噪音,分布在信号频带内的量化噪音功率应小。理论上是认为即使量化比特数只有 1bit ,只要采样频率足够高,可使通带之内动态范围到达任意宽的程度。




进一步作某些处理,若能使量化噪音不在音频信号中,而集中在高频域中,于是可用降低的采样频率进行低的 A/D 变换和 D/A 变换。实际上,菲利浦公司已发表一种 1bit 的 D/A 变换器,在激光唱片所需频带内确保有 16bit 的精度。图 5 所示量化噪音的频谱分布集中在高频区内。用激光唱片采样频率 44.1KHz 的 256 倍,即 11.28MHz ,可以确保在比较低的采样频率通带内的动态范围,也可以用同样方法构成 A/D 变换器。
二 音频信号的信息量
1. 信息量和熵
从信息量的观点来看,概率比较小的罕见事件其信息量大,信息量对概率是单调递减函数,某事件发生概率为 P ,信息量定义为:
信息量 = -㏒ 2P 〔 bit 〕
虽然罕见事件发生的信息量比较大,但是罕见事件不易发生。我们知道,如果事件并不那么罕见,但又多少起点变化,经过长时间观察后,总的信息量也可以变得大一些。
现令发生的事件 1 、 2 、 3 …… i ……
所具有的信息量各为 -㏒ 2 P1 、 - ㏒ 2P2 …… - ㏒ Pi ……
各种事件发生的概率为 P1 、 P2 …… Pi ……
总的信息量为两者乘积之和,即 -p1 ㏒ 2p1 – P2 ㏒ 2p2 、 …… - pi ㏒ 2pi ……
从这个观点出发长时间平均信息量称之为熵,一般写成:
H =- ∑ pi ㏒ 2pi 〔 bit 〕
如前所述,我们研究的音频信号在时间上是变化的事件,在这个时间过程中发生的概率事件称为概率过程。概率过程有各种各样的,如音乐,在某一时刻的信号受过去信号的影响,这种概率过程称之为马尔柯夫过程,与各自独立发生的事件相比,信息量要小也就是熵小。对于如乐音和人声各个采样概率现象的研究就属于马尔柯夫过程。实际的信息量比起用采样频率和量化比特数出发的信息量要小得多,因后者包含着冗余度。
2. 信息量和传输容量
( 1 )香农定理
假如所使用的信号平均信息量比传输通路的传输容量小,则必然存在正确地传输信号的编码方法,这是信息论的先驱者香农推导出来的定理。
这个定理表明,为了有效地使用传输通路和高效率地传输信号,需要知道信号的信息量和传输线的容量及找到最佳编码方法。
( 2 )模拟信号的信息量多得多
在音频领域处理信号当然是模拟信号,此信号时时刻刻都在变化,预想何时取何值是不可能的,说明其信息量为无限大。因此要正确无误的传输,需要有无穷大的传输容量。但是实际上硬件必然存在噪音,而且传输容量也必然有限,所以被传输和处理的模拟信号必然引入误差、噪音和包含着不明确度。也就是说模拟信号的传输过程中,信号或多或少地变坏。
( 3 )数字方式信号不会恶化
将信号进行数字化,信息量是采样频率和量化比特数的乘积,它是有限值。因此,使用传输容量有限的现代机器来传输数字信号时,有可能使传输和处理的信号质量不恶化。系统质量基本上取决于采样频率、量化比特特性以及运算的字长。
另一种看法是由于把具有无限可能性的模拟信号变成有限容量的数字信号,将产生信息丢失。因此,从质量观点来分析,是否采用数字化处理,要总体比较一下,由于模拟处理引起的信号恶化的总量与数字化过程中产生信号恶化孰优孰劣?再则,模拟信号的高质量处理需要熟练技术,而对数字化的处理无论何人、何时进行都将获得相同的结果。
但是,现实中有些议论是:数字化的激光唱片,数字录音磁带的音质十分良好,这是因为宽频带的音频信号的振幅分布或频谱很不均匀。这些信号本身具有冗余度。也就是说信号本身的信息量大大低于它的采样频率和量化比特的乘积( 500 Kbp ~ 900Kbp )。利用这冗余度,当然可以节约传输通路的容量。
三 磁光式数字录音机
旋转磁头数字式录音机( R — DAT )问世之后,可以抹音可以录音的小型磁光录音机也研制成功了。 1989 年 10 月在日本东京召开的第 38 届日本音响展览会上,索尼公司首次展出一台 CDR-1987A 可抹音可录音小型磁光录音机。 1990 年 1 月在美国的拉斯维加斯城召开的冬季用户电子展览会上,汤姆逊电子公司展出了 DR1000 MOD 磁光录音机。
下面以 DR1000 MOD 为例,介绍这种录音机的原理和性能。
汤姆逊公司研制出的小型磁光录音机,其外形与通常的小型激光唱机特别相像。但这种小型磁光录音机与小型激光唱机只是部分兼容。虽然它能够重放经过专门设计的小型激光唱片,但是一张在这种汤姆逊录制的磁光唱片 无法在一般的小型磁光录音机上重放 —— 至少是不能在目前市场上的小型激光唱机上重放。这不等于说将来的小型激光录音机的光学组件不会改变结构,以适于读取这些可抹音可录音唱片。关键问题在于两种介质的信息存贮面的反射性能 :磁光唱片( MOD )的反射只有 20% ,而激光唱片的反射几乎是 100% 。
MOD 的录音介质是一层很精细的磁性铽、铁、钴合金(铽是一种深棕色的稀土族金属元素)。这种磁光层是采用阴极蒸发法、在高真空条件下溅射在 4.7 英寸的聚碳酸酯或玻璃盘上制成的。它的螺旋形纹槽引导录音激光束,允许最大重放时间为 74 分钟。第一轨迹是导入( Lead-in )轨迹,由它们的生产厂家先录制在空白唱片上。这些轨迹能使 DR1000MO-D 录音机判断出现在插入的是哪种唱片,录音时应该怎样设置激光的强度和磁场强度。
磁光录音机用激光束而不是用磁头来记录、重放和抹去信息。它的原理是用激光束对磁性体的局部进行加温,使该磁性体达到它的居里点 180 摄氏度,从而将它的矫顽力减小至足够小的程度,使得在录音点的外部磁场能翻转磁光层的磁性。重放时,应用克尔效应,也就是说如果照射的激光束和磁性体的磁性方向平行,那么反射光和透射光的偏振面将产生旋转效应。从表面反射的偏振光在方向上的微小变化仅 0.5 度,但这对于系统区分二进制的 “ 0 ” 和 “ 1 ” 已足够了。此系统也能检测偏振面没有发生变化的地方,表明此处没有录音。
汤姆逊磁光录音机在录音时接通激光,并采用了强调制器加诸于磁场。它的磁极性由数字式数据流控制。抹音和录音在激光扫描的同一时刻发生, DR1000 MOD 只需 25 毫瓦的激光,到达唱片的激光仅 5.5 毫瓦。重放磁光唱片时,照射在唱片表面的激光功率为 0.8 毫瓦,重放一般小型的激光唱片时才 0.4 毫瓦。
每张空白唱片的导入( Lead-in )区域由用户自己录制目录指南(曲目位置)。当唱片插入机器以后,这一目录被读入一个 64K 字节的存贮器中,如果接着录制新的节目,这一信息得以更新,并被记录在用户导入区域。节目和段落的存取速度与优质小型激光唱机一样。
目前,数字音频作为一个新兴的学科,正在人们兴致的不断高涨中发展壮大,落在录音工作者肩上的责任将更为重大,而且也要求从事录音工作的音响导演及 录音师,对数字音频技术的特点要十分清楚,对它的特性变化的控制要熟练掌握,并能综合利用各种特性控制方法,使系统的特性能满足我们的需要。

发表讨论

Copyright © 2005-2009 hudong.com Ltd. All Rights Reserved. 互动在线 版权所有