1 、音调:音调与声音的频率有关,频率快则音调高,频率慢则音调低
声音信号
n 周期信号:单一频率音调的信号
n 非周期信号:包括一定频带的所有频率分量的信号
2 、音强(响度):用来描述声音的强弱,体现在声音的振幅的大小
度量单位
n 物理学:声压 dym/cm2( 达因 / 平方厘米 ) 声强 w/cm2( 瓦特 / 平方厘米 )
n 心理学:响度级:方 (phon) 或宋 (song)
听阀和痛阀
n 听阀:当声音弱到人的耳朵刚刚听见的声强
n 痛阀:当声音强到人的耳朵感到疼痛时的声强
听阀与痛阀是与频率相关的。
3 、音色:由混入基音的泛音所决定,每个基音有其固有频率和不同音强的泛音,从而使每种声音具有特殊的音色效果。
二、音频信号处理方法
音频信号的离散化
n 量化:连续幅度的离散化
样本精度:每个声音样本的位数
n 采样:连续时间的离散化
采样频率:每秒需要采集多少个样本
奈奎斯特 (Nyquist) 采样定律:采样频率不应低于声音信号最高频率的两倍,就能把以数字表达的声音还原成原来的声音。 例如,电话话音的信号频率约为 3.4kHz ,采样频率就选为 8kHz ;高质量声音采样频率为 44.1kHz 。
三、音频文件及存储格式
存储格式
n RIFF (Resource Interchange File Format ,资源交换文件格式 ) 是在多媒体编程接口的规范, .wave 文件是其中的一种格式;
n 波形文件有许多不同类型的文件构造块组成,其中最主要的两个文件构造块是格式块 ( Format Chunk) 和声音数据块 (Sound Data Chunk) ;
n 格式块包含有描述波形的重要参数,例如采样频率和样本精度等;
n 声音数据块则包含有实际的波形声音数据。
四、声音质量的度量
n 用声音信号的带宽来衡量,分为五级
n 客观质量度量:用信噪比 (signal to niose ratio , SNR) 衡量,建立在度量均方误差的基础上,计算简单,但不能完全反映人对语音质量的感觉。
n 主观质量度量:用平均意见得分 (mean opinion score , MOS) 评价
分数 质量级别 失真级别
5 优 (Excellent) 无察觉
4 良 (Good) ( 刚 ) 察觉但不讨厌
3 中 (Fair) ( 察觉 ) 有点讨厌
2 差 (Poor) 讨厌但不反感
1 劣 (Bad) 极讨厌 ( 令人反感
六、 音频信号压缩技术(话音)
1 、熵编码
2 、脉冲编码调制 PCM : PCM,pulse code modulation
优点:概念简单、理论完善 缺点:数据量大
( 1 )均匀量化
n 采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化,也称为线性量化;
n 量化后的样本值 Y 和原始值 X 的差 E=Y-X 称为量化误差或量化噪声。
缺点: 无论对大的输入信号还是小的输入信号一律都采用相同的量化间隔。为了适应幅度大的输入信号,同时又要满足精度要求,就需要增加样本的位数。而对话音信号来说,大信号出现的机会并不多,增加的样本位数就没有充分利用。
( 2 )非均匀量化
也称为非线性量化,其基本思想是,对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔;
可以在满足精度要求的情况下用较少的位数来表示。
有两种量化标准:
n μ律压扩算法
n A 律压扩算法
3 、 增量 调制 DM , DM(delta modulation) ,也称△调制,是一种预测编码技术
n DM 对实际的采样信号与预测的采样信号之差的极性进行编码。
n 如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“ 1 ”表示;相反则用“ 0 ”表示,或者相反。
n 由于 DM 编码只须用 1 位对话音信号进行编码,所以 DM 编码系统又称为“ 1 位系统”。
纵坐标表示“模拟信号输入幅度”,横坐标表示“编码输出”。用 i 表示采样点的位置, x[i] 表示在 i 点的编码输出。输入信号的实际值用 yi 表示,输入信号的预测值用 y[i+1]=y[i] △表示。假设采用均匀量化,量化阶的大小为△,在开始位置的输入信号 y0=0 ,预测值 y[0]=0 ,编码输出 x[0]=1 。
缺点:
n 斜率过载 (slope overload) :在输入信号变化快的区域,输入信号的变化速度超过反馈回路输出信号的最大变化速度时发生;
n 粒状噪声 (granular noise) :在输入信号缓慢变化部分,增量调制器的输出出现随机交变的“ 0 ”和“ 1 ”的现象
对策:量化阶△应该能够动态变化——自适应增量调制
4 、自适应增量调制 ADM , Adaptive Delta Modulation
n 斜率过载和粒状噪声不可调和,无论增加或减小量化阶,所以提出“自适应增量调制”
n 思想:根据输入信号斜率的变化自动调整量化阶△的大小,使斜率过载和粒状噪声都减到最小;
n 系统输出为 0 和 1 ;
n 每当输出不变时量化阶增大 50% ,使预测器的输出跟上输入信号,使斜率过载减到最小;
n 每当输出值改变时,量化阶减小 50% ,使粒状噪声减到最小。
5 、自适应脉冲编码调制 APCM , adaptive pulse code modulation
n APCM 根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。
n 前向自适应 (forward adaptation) 和后向自适应 (backward adaptation)
6 、差分脉冲编码调制 DPCM , differential pulse code modulation
n 思想:根据过去的样本去估算 (estimate) 下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。
n 差值变化幅度总是小于信号本身
7 、自适应差分脉冲编码调制 ADPCM , adaptive difference pulse code modulation
n ADPCM 综合了 APCM 的自适应特性和 DPCM 系统的差分特性,是一种性能比较好的波形编码。
n ADPCM 算法目前普遍应用的较好的算法
n 核心思想:
①利用自适应的思想改变量化阶的大小,即使用小的量化阶 (step-size) 去编码小的差值,使用大的量化阶去编码大的差值 ;
②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。
8 、子带编码 SBC , subband coding
n 子带:输入音频信号的频带可以分成若干个连续的频段,每个频段称为子带。
n 基本思想:对每个子带中的音频信号采用单独的编码方案去编码。编码 / 译码器可以采用 ADPCM , APCM , PCM 等。
n 好处之一,对每个子带信号分别进行自适应控制,量化阶 (quantization step) 的大小可以按照每个子带的能量电平加以调节。
n 好处之二,可根据每个子带信号在感觉上的重要性,对每个子带分配不同的位数,用来表示每个样本值。
9 、线性预测差分编码 LPC , linear predictive coding
n LPC 通过分析话音波形来产生声道激励和转移函数的参数,对声音波形的编码实际就转化为对这些参数的编码,使声音的数据量大大减少。
n 在接收端使用 LPC 分析得到的参数,通过话音合成器重构话音。
n 线性预测器使用过去的 P 个样本值来预测现时刻的采样值 x(n) 。
n 合成器是一个离散的随时间变化的时变线性滤波器,它代表人的话音生成系统模型。
n 时变线性滤波器既当作预测器使用,又当作合成器使用:
n 分析话音波形时,主要是当作预测器使用;
n 合成话音时当作话音生成模型使用。
10 、 GSM 简介
n GSM ,全球数字移动通信系统, Global System for Mobile communications 。
n GSM 算法是根据 GSM 协议开发的, GSM 协议是欧洲最流行的数字蜂窝电话通信协议。
n GSM 的输入是帧 (frame) 数据,一帧 (20 毫秒 ) 由采样频率为 8kHz 的带符号的 160 个样本组成,每个样本为 13 位或者 16 位的线性 PCM(linear PCM) 码。
n 压缩后 GSM 的数据率: 13.2kb/s
n GSM 的压缩比:近似于 10:1 。
七、 音频编码标准
1、 ITU G 系列声音压缩标准
ITU , International Telecommunication Union
该系列标准各项指标如 P72 表。
2、 MPEG Audio 压缩技术
n MPEG Audio 标准包括 MPEG-1 Audio 、 MPEG-2 Audio 和 MPEG-2 AAC
n 处理对象: 10 Hz ~ 20000 Hz 范围里的声音数据
n 大名鼎鼎的 MP3 是 MPEG-1 Audio 中的一个层
n 数据压缩的主要依据:是人耳朵的听觉特性,使用“心理声学模型 (psychoacoustic model) ”
² 去掉低于“听觉阈值电平”的声音信号(听阀与频率、具体的人有关)
² 利用“听觉掩饰特性”,听觉阈值电平会随听到的不同频率的声音而发生变化。(例如,安静房间里的谈话和吵闹环境中的谈话)
1 、利用人听觉系统特性压缩声音数据
n MPEG 声音数据压缩的基础是量化。虽然量化会带来失真,但 MPEG 标准要求量化失真对于人耳来说是感觉不到的。
n 在 MPEG 标准的制定过程中, MPEG-Audio 委员会通过实验表明,采样频率为 48 kHz 、样本精度为 16 位的声音数据压缩到 256 kb/s 时,即在 6 : 1 的压缩率下,即使是专业测试员也很难分辨出是原始声音还是编码压缩后的声音。
n 在 MPEG Audio 中利用人听觉系统特性压缩声音数据,有两种编码方法:感知子带编码( MPEG-1 Audio 采用)和 Dolby AC3 ( MPEG-2 Audio 采用)
( 1 )感知子带编码 (perceptual subband coding) ,如上图
² 分割子带
² 对每个子带分别进行量化和编码
² 将各子带的编码进行复合
( 2 ) Dolby AC3(Audio code number 3)
² 分析滤波器组把用 PCM 时间样本表示的声音信号变换成用频率系数块表示的声音信号。
² 谱包络编码的功能是对“分析滤波器组”输出的指数进行编码。指数代表粗糙的信号频谱
² 位分配使用“谱包络编码”输出的信息确定尾数编码所需要的位数
² 尾数量化按照位分配信息对尾数进行量化。
² AC-3 帧格式将输出的频谱包络组成 AC-3 帧。
2. MPEG-1 Audio 声音的性能
n 输入信号为线性 PCM 信号,采样率为 32, 44.1 或 48 kHz ,输出为 32 kb/s ~ 384 kb/s 。
n 三个独立的压缩层次:用户对层次的选择可在复杂性和声音质量之间进行权衡。
n 可预先定义压缩后的数据率,支持用户预定义的数据率。 <detail>
n 编码后的数据流支持循环冗余校验 CRC(cyclic redundancy check) 。
n 支持在数据流中添加附加信息。
MPEG-1 Audio 三个压缩层次
|
layer |
压缩比 |
输出数据率 |
用途 |
|
layer1 |
4:1 |
384kb/s |
小型数字盒式磁带 |
|
layer2 |
6:1~8:1 |
256kb/s~192kbs |
数字广播声音、数字音乐、 CD 、 VCD |
|
layer3 |
10:1~12:1 |
64kbs |
ISDN 上的声音传输 |
可预先定义压缩后的数据率
|
音质要求 |
声音带宽 (kHz) |
方式 |
数据率 ( kb/s) |
压缩比 |
|
电话 |
2.5 |
单声道 |
8 |
96:1 |
|
优于短波 |
5.5 |
单声道 |
16 |
48:1 |
|
优于调幅广播 |
7.5 |
单声道 |
32 |
24:1 |
|
类似于调频广播 |
11 |
立体声 |
56 ~ 64 |
26 ~ 24:1 |
|
接近 CD |
15 |
立体声 |
96 |
16:1 |
|
CD |
>15 |
立体声 |
112 ~ 128 |
12 ~ 10:1 |
3 、 MPEG-2 标准中的音频
n MPEG-2 标准委员会定义了两种声音压缩格式
² MPEG-2 Audio
² MPEG-2 AAC
n MPEG-2 Audio ,或者称为 MPEG-2 多通道 (Multichannel) 声音,与 MPEG-1 Audio 是兼容,又称为 MPEG-2 BC (Backward Compatible)
n MPEG-2 AAC (Advanced Audio Coding) ,与 MPEG-1 声音格式不兼容,因此通常称为非后向兼容 MPEG-2 NBC(Non-Backward-Compatible) 标准。
4 、 MPEG-2 Audio 的扩充
n 增加了 16 kHz, 22.05 kHz 和 24 kHz 采样频率;
n 扩展了编码器的输出速率范围,由 32 ~ 384 kb/s 扩展到 8 ~ 640 kb/s ;
n 增加了声道数,支持 5.1 声道和 7.1 声道的环绕声。
n 支持线性 PCM 和 Dolby AC-3
5 、 MPEG-2 AAC
n MPEG-2 AAC 是 MPEG-2 标准中的一种非常灵活的声音感知编码标准。
n 特点:利用听觉系统的掩蔽特性来减少声音的数据量,并且通过把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉。
n 采样频率: 8 kHz~96 kHz
n 音源:单声道、立体声和多声道的声音
n MPEG-2 AAC 在压缩比为 11:1 ,即每个声道的数据率为 (44.1 × 16 )/11=64 kb/s , 5 个声道的总数据率为 320 kb/s 的情况下,很难区分还原后的声音与原始声音之间的差别。
n 与 MPEG 的层 2 相比, MPEG-2 AAC 的压缩率可提高 1 倍,而且质量更高,与 MPEG 的层 3 相比,在质量相同的条件下数据率是它的 70% 。
3、 MP4
n MP3 的优势与遗憾
² 凭借较高的压缩比和较好的音质创造了一个全新的音乐领域
² MP3 的开放性不可避免地导致了版权之争
n Mp4 是一个商标而非标准
n Mp4 特点:
² 每首 MP4 乐曲就是一个 .exe 的可执行文件,使用方便。
² 更小的体积和更好的音质。采用 a2b 音频压缩技术, MP4 文件大小仅为 MP3 的 3/4 左右,更适合在 Internet 上传播。
² 采用了独特的“ Solana ”数字水印技术,方便地追踪和发现盗版发行行为。针对 MP4 的非法解压,可能导致 MP4 原文件的损毁。
² 支持版权保护, MP4 乐曲中内置了作者、版权持有者待版权说明,既可声明版权,又表示了对作者和演唱者的尊重。
² 比较完善的功能:独立调节左右声道音量控制、内置波形 / 分频动态音频显示和音乐管理器、支持多种彩色图像、网站链接及无限制的滚动显示文本等。
4、数字乐器接口 MIDI
n MIDI : Musical Instrument Digital Interface
n MIDI 是在音乐合成器、乐器和计算机之间交换音乐信息的一种标准协议。
n MIDI 是乐器和计算机使用的标准语言,是一套指令 ( 即命令的约定 ) ,它指示乐器即 MIDI 设备要做什么,怎么做,如演奏音符、加大音量、生成音响效果等。
n MIDI 不是声音信号,在 MIDI 电缆上传送的不是声音,而是发给 MIDI 设备或其它装置让它产生声音或执行某个动作的指令。
1 、 MIDI 标准的优点
n 生成的文件比较小,因为 MIDI 文件存储的是命令,而不是声音波形;
n 容易编辑,因为编辑命令比编辑声音波形要容易得多;
n 可以作背景音乐,因为 MIDI 音乐可以和其它的媒体一起播放,这样可以加强演示效果。
2 、产生 MIDI 乐音的方法
(1) 频率调制合成法 (FM,frequency modulation)
n 一共有五个模块
n 各模块可以接收参数
n FM 合成器算法要解决的问题就是如何用 13 个参数的组合产生不同的乐音,例如:
² 用什么样的波形作为数字载波波形
² 用什么样的波形作为调制波形
² 用什么样的波形参数去组合
n 声音包络发生器用来调制声音的电平,这个过程也称为幅度调制,并且作为数字式音量控制旋钮
(2) 乐音样本合成法,也称为波形表 (Wavetable) 合成法
n 方法 : 把真实乐器发出的声音以数字的形式记录下来,播放时改变播放速度,从而改变音调周期,生成各种音阶的音符。
n 优势 : 可以合成 FM 不能产生的乐音,声音更加逼真
3 、 MIDI 系统
n MIDI 数据流:是单向异步的数据位流,速率 31.25 kb/s ,每单位 10 位 (1 位开始位, 8 位数据位和 1 位停止位 ) 。
n MIDI 乐器上的 MIDI 接口通常包含 3 种 MIDI 连接器,即 IN( 输入 ), OUT( 输出 ) 和 THRU( 穿越 ) 。
n MIDI 数据流来源 : MIDI 控制器 (MIDI controller)
n MIDI 控制器是当作乐器使用的一种设备,在播放时把演奏转换成实时的 MIDI 数据流。常用的是乐器键盘 (musical instrument keyboard) 和 MIDI 音序器 (MIDI sequencer)
n MIDI 音序器是一种装置,允许 MIDI 数据被捕获、存储、编辑、组合和重奏。来自 MIDI 控制器或者音序器的 MIDI 数据输出通过该装置的 MIDI OUT 连接器传输。
n MIDI 数据流的接收设备: MIDI 声音发生器 (MIDI sound generator) 或者 MIDI 声音模块 (MIDI sound module) ,它们在 MIDI IN 端口接收 MIDI 信息,然后播放声音。
( 1 )一个简单的 MIDI 系统
n 由一个 MIDI 键盘控制器和一个 MIDI 声音模块组成。
n 许多 MIDI 键盘乐器在其内部既包含键盘控制器,又包含 MIDI 声音模块功能。在这些单元中,键盘控制器和声音模块之间已经有内部链接,这个链接可以通过该设备中的控制功能 (local control) 对链接打开 (ON) 或者关闭 (OFF) 。
( 2 )复杂的 MIDI 系统
n 单个物理 MIDI 通道 (MIDI channel) 分成 16 个逻辑通道,每个逻辑通道可指定一种乐器。在 MIDI 信息中,用 4 个二进制位来表示这 16 个逻辑通道。
n 音乐键盘可设置在这 16 个通道之中的任何一个,而 MIDI 声源或者声音模块可被设置在指定的 MIDI 通道上接收。
n 在一个 MIDI 设备上的 MIDI IN 连接器接收到的信息可通过 MIDI THRU 连接器输出到另一个 MIDI 设备,并可以菊花链的方式连接多个 MIDI 设备,这样就组成了一个复杂的 MIDI 系统
( 3 )用 PC 机构造的 MIDI 系统
n 在这个系统中, PC 机使用内置的 MIDI 接口卡,用来把 MIDI 数据发送到外部的多音色 MIDI 合成器模块。
n 应用软件把信息通过 PC 总线发送到 MIDI 接口卡。 MIDI 接口卡把信息转换成 MIDI 消息,然后送到多音色声音模块同时播放出许多不同的乐音
n 使用安装在 PC 机上的高级的 MIDI 音序器软件,用户可把 MIDI 键盘控制器连接到 MIDI 接口卡的 MIDI IN 端口,也可以有相同的音乐创作功能。
n 多媒体个人计算机 (MPC) 规范就要求声卡必须有 MIDI 接口和 MIDI 声音模块,称为合成器。合成器分为 FM 合成器和波表合成器两种
5、 声卡
声卡的历史
n PC 喇叭与 ADLIB 音乐卡
n Sound Blaster 卡
n SB AWE 系列声卡
n PCI 声卡
Sound Blaster 16 声卡上有一个 IDE 接口和 CD 音频接口外部接口有麦克风插口 (Mic) 、立体声输出插口 (Speaker) 连接音箱或耳机;线性输入 (Line in) 可连接 CD 播放机、单放机合成器等;输出插口 (Line out) 可连接功放等;游戏杆和 MIDI 设备。
声卡的声道
n 单声道:当通过两个扬声器回放单声道信息的时候,人们可以明显感觉到声音是从两个音箱中间传递到耳朵里的。
n 立体声:声音在录制过程中被分配到两个独立的声道,从而达到了很好的声音定位效果。在音乐欣赏中听众可以清晰地分辨出各种乐器来自的方向,从而使音乐更富想象力,更加接近于临场感受。
n 四声道环绕:四声道环绕规定了 4 个发音点:前左、前右,后左、后右,听众则被包围在这中间。同时还可以增加一个低音音箱,以加强对低频信号的回放处理。核心是三维音效。
|
数字录音技术音频信号的数字化 | ||
|


