第三章,多媒体音频

第三章多媒体音频技术 3 1声音 声波是一种物理现象 是由物体在空气或其他介质中振动 通过振动使空气分子交替的压紧和放松而产生疏密波 当声波进入人耳 鼓膜振动导致内耳的微细感骨的振动 将神经冲动传向大脑 听者感觉到的这些冲动就是声音 3 2声音的属性 人耳对不同强度 不同频率声音的听觉范围称为声域 在人耳的声域范围内 声音听觉心理的主观感受主要有响度 音高 音色等特征 其中响度 音高 音调 音色可以在主观上用来描述具有振幅 频率和频谱三个物理量的任何复杂的声音 故又称为声音 三要素 3 2声音的属性 频率 f 每秒中声波周期性振动的次数 单位HZ 决定了声音的音调 人耳能听见的频率段为20 20000HZ 振幅 声波的强度 决定了声音的响度 人耳能听见的是0 140dB频谱 不同频率 不同政府的声波合起来产生的复合音 决定了声音的音质 音色 不同乐器 不同人有不同的音色 3 3 1声音信号的类型模拟信号 自然界 物理 为连续的波形数字信号 计算机 波形不连续 而是每隔一段时间采样 工作方式与人耳相似 只是将耳膜振动产生的振动信息用电压信息代替 振幅 dB 电压值 V 3 3音频信息处理 3 3 2声音数字化过程采样 计算机每单位时间在模拟音频的连续波上获得它的幅度值 量化 用电压值描述这些幅度值 编码 将电压值转化为计算机可识别的二进制数值 模拟信号 数字信号 A DADC D ADAC 3 3音频信息处理 数字音频 数字音频 在计算机内 所有的信息均以数字表示 各种命令是不同的数字 各种幅度的物理量也是不同的数字 音频信号也用一系列数字表示 称之为数字音频 数字音频的特点是保真度好 动态范围大 数字音频的文件格式 WAVMicrosoft公司的波形音频文件格式 MIDMIDI文件格式 VOCCreative公司的波形音频文件格式 SNDNeXT计算机的波形音频文件格式 AIFApple计算机的波形音频文件格式 RMIMicrosoft公司的MIDI文件格式 它可以包括图片 标记和文本 采样 模拟声音在时间上是连续的 而数字音频是一个数字序列 在时间上只能是断续的 因此当把模拟声音变成数字声音时 需要每隔一个时间间隔在模拟声音波形上取一个幅度值 称之为采样 采样的时间间隔称为采样周期 常用的音频采样率有 8kHz 11 025kHz 22 05kHz 16kHz 37 8kHz 44 1kHz 48kHz 量化 在数字音频技术中 把采样得到的表示声音强弱的模拟电压用数字表示 模拟电压的幅值仍然是连续的 而用数字表示音频幅度时 只能把无穷多个电压幅度用有限个数字表示 即把某一幅度范围内的电压用一个数字表示 这称之为量化 音频编码的分类 1 基于音频数据的统计特性进行编码 其典型技术是波形编码 2 基于音频的声学参数 进行参数编码 可进一步降低数据率 其目标是使重建音频保持原音频的特性 3 基于人的听觉特性进行编码 从人的听觉系统出发 利用掩蔽效应 设计心理声学模型 从而实现更高效率的数字音频的压缩 其中以MPEG标准中的高频编码和DoldyAC 3最有影响 示意 3 3音频信息处理 3 3 3声音数字化过程 3 3 4声音数字化三要素 数据量 采样频率 量化位数 声道数 8 字节 秒 3 3 5声音数字化计算公式 3 4数字音频压缩 3 4 1压缩的两种形式 信息的压缩 信息是可以压缩的 声音 图像和视频的数字化信息量一般都比较大 所以都要采用压缩技术 MP3是音乐信息压缩标准 JPG是静态图像信息的压缩标准 MPEG和RM是视频信息的压缩标准 这些标准都有很高的压缩比 压缩分无损压缩和有损压缩 无损压缩 解压后能够完全还原为原来的数据 有损压缩 解压后还原的数据没有原来的精确 质量有所损失 但在可接受的范围内 主要用于音频和视频数据的压缩 图形和图像的冗余表现在三个方面 空间冗余 时序冗余和光谱冗余 多媒体信息可以大幅度地被压缩 VCD就是一种采用MPEG 1标准来压缩的图像信息 其理论压缩比是200 1 一般实际实现的是50 1 声音文件的压缩 有损 mp3 ogg wma等无损 ape flac wv等 音频三要素 一个乐音 包括必备的三要素 音高 音色和响度 若把一个乐音放在运动的旋律中 它还应具备时值 持续时间 这些要素的理想配合是产生优美动听的旋律的必要条件 音高 音高指声波的基频 基频越低 给人的感觉越低沉 音阶与频率的对应关系音色 声音的音质 由声音的频谱决定的 各阶谐波的比例不同 随时间衰减的程度不同 音色就不同 响度 响度是对声音强度的衡量 它是听判乐音的基础 3 4 2数字音频压缩常见概念 比特率 Bitrate 在用特定音频压缩编码方式压缩信息时 单位时间内所需的二进制数值 以bps为单位 常见的比特率有 4kbps 可识别的话语所需要的最小比特率8kbps 电话话音音质32kbps MW广播音质96kbps FM广播音质128kbps CD音质 3 4 2数字音频压缩常见概念 CBR ConstantBitrate 用固定大小的比特率来压缩音频的方式 而不论该段音频中有些是静音 有些音量过大 一般用于流媒体方式播放的 互联网上的音频文件压缩多用这种方式 VBR VariableBitrate 可变比特率 根据需要来调节比特率 在整个文件中码率将不会固定不变 就像在CBR中固定不变一样 音频中较复杂的部分将会使用更高的码率以获得更佳的听觉感受 而其它部分则获得较少的码率 3 5 1WAV文件又称波形文件 WAV是Microsoft IBM共同开发的PC波形文件 WAV文件来源于对声音模拟波形的采样 并以不同的量化位数把这些采样点的值转换成二进制数 然后存入磁盘 就产生了波形文件 Wav文件直接反映了一个声音在每个时刻的大小值 WAV文件使用三个参数来表示声音 采样位数 采样频率和声道数 WAV文件支持MSADPCM CCITTALAW等多种压缩算法 支持多种音频位数 采样频率和声道 标准格式的WAV文件和CD格式一样 也是44 1K的采样频率 速率88K 秒 16位量化位数特点 声音层次丰富 还原音质好 因未经压缩 文件数据量很大 不便于交流和传播 3 5数字音频的文件格式 3 5 2MPEG音频文件这里的音频文件格式指的是MPEG标准中的音频部分 也就是MPEG音频层 根据压缩质量和编码处理的不同分为3层 分别对应 mp1 mp2 mp3 这3种声音文件 MPEG音频文件的压缩是一种有损压缩 MPEG3音频编码具有10 1 12 1的高压缩率 同时基本保持低音频部分不失真 但是牺牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸 相同长度的音乐文件 用 mp3格式来储存 一般只有 wav文件的1 10 而音质要次于CD格式或WAV格式的声音文件 3 5 3MP3 MPEGAudiolayer3 是一种按MPEG标准的音频压缩技术制作的音频文件 其压缩率为12 1 特点 利用了知觉编码技术 即人耳的特性 削减了音乐中人耳听不到的成分 同时尽可能的维持原来的声音质量 使得这种格式的音乐在高压缩比下 还有优美的音质 3 5 4WMA文件WMA WindowsMediaAudio 是WindowsMedia格式中的一个子集 音频格式 特点 压缩率比较高 可达到18 1 比MP3的压缩率都更大 WMA的内容提供商可以加入防复制保护 可限制播放时间和播放次数甚至播放的机器等 WMA支持音频流 stream 技术 适合在网络上在线播放 3 5 5MIDI文件MusicalInstrumentDigitalInterface 乐器数字接口 的缩写 它是由世界上主要电子乐器制造厂商建立起来的一个通信标准 以规定计算机音乐程序 电子合成器和其它电子设备之间交换信息与控制信号的方法 MIDI文件中包含音符定时和多达16个通道的乐器定义 每个音符包括键通道号持续时间音量和力度等信息 所以MIDI文件记录的不是乐曲本身 而是一些描述乐曲演奏过程中的指令 因此其数据量小 特点 数据量很小 缺乏重现自然音或语音的能力 主要用于原始乐器作品 留下歌曲的业余表演 游戏音轨及电子贺卡等 3 5 6RealAudio文件现在Real主要有RA RealAudio RM RealMedia RAS RealAudioSecured 等几种文件格式 RealAudio采用 音频流 技术 可以随网络带宽的不同而改变声音的质量 在保证大多数人听到流畅声音的前提下 令带宽较富裕的听众获得较好的音质 特点 可以实时传输音频信息 尤其是在网速较慢的情况下 仍然可以较为流畅地传送数据 因此RealAudio主要适用于网络上的在线播放 3 5 7APE文件APE是目前流行的数字音乐文件格式之一 与MP3这类有损压缩方式不同 APE是一种无损压缩技术 也就是说当你将从音频CD上读取的音频数据文件压缩成APE格式后 你还可以再将APE格式的文件还原 而还原后的音频文件与压缩前的一模一样 没有任何损失 所以被誉为 无损音频压缩格式 先安装Winamp 再安装APE编码器Monkey sAudioV3 98和CDex1 50 这样 安装APE编码器的时候会自动安装上Winamp的APE播放插件 才能用Winamp播放APE 3 5 8OGG文件OGG是一种先进的有损的音频压缩技术 正式名称是OGGVorbis 是一种免费的开源音频格式 OGG编码格式远比90年代开发成功的MP3先进 它可以在相对较低的数据速率下实现比MP3更好的音质 此外 OGGVorbis支持VBR 可变比特率 和ABR 平均比特率 两种编码方式 OGG还具有比特率缩放功能 可以不用重新编码便可调节文件的比特率 OGG格式可以对所有声道进行编码 支持多声道模式 而不像MP3只能编码双声道 多声道音乐会带来更多临场感 欣赏电影和交响乐时更有优势 而且未来人们对音质要求不断提高 OGG的优势将更加明显 3 5 9其他格式 CMF CreativeMusicalat Creative公司的专用音乐格式 和MIDI差不多 只是音色 效果上有些特色 专用于FM声卡 但其兼容性也很差 CDAudio 音乐CD 扩展名CDA 唱片采用的格式 又叫 红皮书 格式 记录的是波形流 绝对的纯正 但缺点是无法编辑 文件长度太大 一张CD大约74分钟 AIF文件 Apple计算机的音频文件格式 Windows的Convert工具同样可以把AIF格式的文件换成Microsoft的WAV格式的文件 VOC文件 Creative公司波形音频文件格式 也是声霸卡 soundblaster 使用的音频文件格式 每个VOC文件由文件头块 headerblock 和音频数据块 datablock 组成 文件头包含一个标识版本号和一个指向数据块起始的指针 数据块分成各种类型的子块 如声音数据静音标识ASCII码文件重复的结果重复以及终止标志 扩展块等 3 6声音素材的获取 自行录制网站下载CD DVD等文件获取Audition软件EAC抓轨 ExactAudioCopy超级解霸 豪杰解霸等 3 7语音识别技术 语音识别替代键盘 鼠标成为计算机主要的输入手段始于20世纪50年代 当时的AT TBell实验室实现了第一个可识别10英文数字的话音识别系统 Audry IBM公司的ViaVoice语音识别系统 现在已经达到了9 0版本 识别率可达到95 以上 3 7语音识别技术 倾听 实现大词汇量 非特定人连续语音的识别 能完全听懂并理解人的自然语言 诉说 TTS TextToSpeech 将文本信息转换成自然语言的技术 计算机能以清晰自然的声音 以各种语言 各种情绪来读任意的文本 3 8常用音频处理软件概况 数字音频作品的编辑创造主要包括对音频文件简单的编辑工作 如对波形文件进行删除 截取 添加等 还有特效的使用 如对多音轨的混合 声音渐入渐出 制作和消除噪声等 常见的处理软件有 Cooledit