作者:刘翰林
日期:2024-10-27
当我们从零开始介入音视频领域时,会发现有很多概念、协议进入视野,比如采样率、分辨率、比特率、h264、mp4、rtmp、rtp等等,在没有理解这些概念所在音视频数据处理的阶段时,容易给人造成混淆和迷惑。 本文从概念上进行一些初步的分类介绍,帮助理解概念。
媒体数据一般的处理过程以下示意图表示:
数据采集的目标是将模拟信号转变为数字信号,之后再可以通过数字信号还原人类感知近似的模拟信号。
如下为音频数据采样示例:
x轴密度代表采样的频率,y轴代表声音的振幅。
在人耳可见的音频范围内(20Hz~20kHz),采样频率越高,表达振幅(位深)的数字范围越大,音频的质量也会越高。
香农定理指出,为了防止在对信号进行数字采样时丢失任何信息,必须以至少两倍于最高预期信号频率的速率进行采样。
常见的音频采样频率/位深为:44.1kHz/16位,按左右声道计算,比特率为:44,100 x 16 x 2 = 1,411,200 位每秒(1.4Mbps)
一下为视频数据采样示例:
视频数据在空间上,以图像的分辨率作为采集精度,在时间上以帧率作为采集精度。
下面列出了几种常见的视频分辨率:
| 分辨率名称 | 像素数(宽 × 高) | 使用场景 |
|---|---|---|
| 480p (SD) | 854 × 480 | 标清视频,通常用于DVD、旧版电视、移动设备播放 |
| 720p (HD) | 1280 × 720 | 高清视频,广泛应用于YouTube、流媒体服务、电视广播 |
| 1080p (Full HD) | 1920 × 1080 | 全高清视频,常用于高清电视、蓝光光盘、流媒体 |
| 1440p (2K) | 2560 × 1440 | 高于1080p的分辨率,广泛用于高端显示器、视频制作 |
| 2160p (4K UHD) | 3840 × 2160 | 超高清,常用于4K电视、流媒体、数字电影院、视频编辑 |
| 4320p (8K UHD) | 7680 × 4320 | 超高清,未来趋势,主要用于高端电视和影院播放 |
| 2K | 2048 × 1080 | 影院标准分辨率,常用于数字电影制作与播放 |
| 5K | 5120 × 2880 | 专业显示器、高端图形设计、视频编辑 |
| 16K | 15360 × 8640 | 极高分辨率,用于特殊场景,如大型显示屏或专业视频制作 |
常用的视频帧率:
| 编码格式 | 维护主体 | 优点 | 主要应用 |
|---|---|---|---|
| H.264/AVC | ITU-T VCEG 和 MPEG | 高压缩效率,支持多种分辨率 | 流媒体、视频会议、蓝光光盘 |
| H.265/HEVC | ITU-T VCEG | 更高压缩效率,支持高达8K分辨率 | 4K/8K流媒体、超高清电视 |
| VP8 | 开源,无专利费用 | WebM视频、早期YouTube视频 | |
| VP9 | 更高压缩效率,开源 | YouTube、Chrome、网页视频 | |
| AV1 | AOMedia | 开源,超高压缩效率 | YouTube、Netflix、网页视频 |
| MPEG-2 | MPEG | 简单实现,低解码要求 | DVD光盘、标准清晰度电视广播 |
| MPEG-4 Part 2 | MPEG | 比MPEG-2有更高压缩效率 | 旧版DivX、Xvid编码 |
| ProRes | Apple | 高质量,适合后期制作 | 专业视频编辑、电影制作 |
| CineForm | GoPro(原CineForm公司) | 多分辨率支持,适合后期制作 | 电影制作、编辑工作流 |
| VC-1 | Microsoft | 类似H.264的压缩效率 | 蓝光光盘、网络视频 |
| H.266/VVC | ITU-T VCEG 和 MPEG | 进一步提高压缩效率,支持超高清内容 | 8K视频、HDR内容 |
| 编解码格式 | 维护主体 | 优点 | 主要应用 |
|---|---|---|---|
| MP3 | Fraunhofer IIS | 高压缩率,广泛兼容 | 音乐流媒体、便携式音频播放器 |
| AAC (Advanced Audio Coding) | MPEG | 压缩效率高于MP3,支持多声道音频 | Apple Music、YouTube、数字广播 |
| FLAC (Free Lossless Audio Codec) | Xiph.org Foundation | 无损压缩,保留原始音质 | 高质量音频存储、音乐爱好者 |
| ALAC (Apple Lossless Audio Codec) | Apple | 无损压缩,兼容Apple设备 | Apple设备上的高质量音频 |
| WMA (Windows Media Audio) | Microsoft | 支持有损和无损版本,压缩灵活 | Windows设备上的音频 |
| Opus | IETF | 低延迟,高音质,适合各种比特率 | VoIP、实时通信、流媒体 |
| Vorbis | Xiph.org Foundation | 开源,高于MP3的压缩效率 | 开源应用、游戏音频、网络流媒体 |
| AMR (Adaptive Multi-Rate Audio Codec) | 3GPP | 低比特率语音压缩,适合语音传输 | 电话语音、VoIP |
| DTS (Digital Theater Systems) | DTS, Inc. | 支持多声道,影院级音效 | 家庭影院、蓝光光盘 |
| Dolby Digital (AC-3) | Dolby Laboratories | 支持环绕声,影院音效 | 电影音轨、家庭影院 |
| 容器格式 | 维护主体 | 特点 | 主要应用 |
|---|---|---|---|
| MP4 (MPEG-4 Part 14) | MPEG | 支持多种编码格式,如H.264、AAC | 流媒体、视频播放、网络视频 |
| MKV (Matroska) | Matroska组织 | 开源,支持多种视频和音频编解码器 | 高清视频、网络视频存储 |
| AVI (Audio Video Interleave) | Microsoft | 支持多种编解码器,兼容性高 | Windows平台视频播放和存储 |
| MOV (QuickTime File Format) | Apple | 支持高质量视频,兼容性好 | Mac系统和视频编辑 |
| FLV (Flash Video Format) | Adobe | 适合网络传输和流媒体播放 | 早期网络视频流媒体 |
| WebM | 开源,专为网络视频优化 | YouTube、HTML5视频 | |
| WMV (Windows Media Video) | Microsoft | 支持WMV编码,专有格式 | Windows视频播放 |
| 3GP | 3GPP | 优化移动设备,文件体积小 | 手机视频传输和存储 |
| OGG | Xiph.org Foundation | 开源,支持多种编解码器(如Theora) | 开源项目、浏览器视频 |
| MPEG-2 TS (Transport Stream) | MPEG | 适合广播和流媒体传输 | 电视广播、直播流媒体 |
| ASF (Advanced Systems Format) | Microsoft | 支持多种数据流,常用于网络传输 | 流媒体播放和录制 |
| 容器格式 | 维护主体 | 特点 | 主要应用 |
|---|---|---|---|
| WAV (Waveform Audio File Format) | Microsoft 和 IBM | 支持无压缩音频(通常为PCM),高音质 | 专业音频录制、编辑、音频CD |
| AIFF (Audio Interchange File Format) | Apple | 类似WAV,支持无压缩音频 | Mac系统的音频存储和编辑 |
| MP4 (MPEG-4 Part 14) | MPEG | 支持多种音频编码,如AAC | 流媒体、音乐文件 |
| OGG | Xiph.org Foundation | 开源,支持多种编码(如Vorbis、Opus) | 游戏音频、开源项目 |
| FLAC | Xiph.org Foundation | 封装无损压缩音频 | 高质量音乐存储 |
| M4A | Apple | 基于MP4,用于封装AAC或ALAC | iTunes、Apple设备上的音乐 |
| CAF (Core Audio Format) | Apple | 支持超大文件和多种音频格式 | 专业音频录制、编辑 |
| RealAudio | RealNetworks | 支持流媒体传输,适合实时播放 | 早期网络广播、流媒体 |
| AU | Sun Microsystems | 简单,早期音频格式 | Unix系统音频数据存储 |
以下是常用的音视频传输协议的表格,涵盖了不同协议的特点和主要应用场景。
| 协议名称 | 维护主体/组织 | 特点 | 主要应用 |
|---|---|---|---|
| RTMP (Real-Time Messaging Protocol) | Adobe / 开源 | 低延迟,高效流媒体传输,支持音视频和数据流 | 直播流媒体、视频会议、网络直播 |
| HLS (HTTP Live Streaming) | Apple | 基于HTTP,支持自适应码率流媒体传输,分段传输 | iOS设备和浏览器流媒体、直播、点播 |
| DASH (Dynamic Adaptive Streaming over HTTP) | MPEG | 自适应流媒体协议,支持多种格式和设备 | 4K流媒体、在线视频平台(如Netflix) |
| RTSP (Real-Time Streaming Protocol) | IETF | 提供实时音视频流控制,低延迟 | IP摄像头监控、视频点播、实时视频流 |
| WebRTC (Web Real-Time Communication) | W3C / IETF | 支持浏览器间实时通信,低延迟,点对点传输 | 视频会议、在线客服、P2P视频通话 |
| SRT (Secure Reliable Transport) | Haivision | 安全、可靠的低延迟传输,适应丢包和网络波动 | 远程视频传输、广播电视、直播 |
| GB28181 | 中国国家标准化管理委员会 | 专为视频监控系统设计,支持音视频流的实时传输 | 视频监控、安防监控、城市监控系统 |
说明:
https://www.headphonesty.com/2019/07/sample-rate-bit-depth-bit-rate/ https://www.researchgate.net/figure/Spatial-and-temporal-sampling-of-a-video-sequence-70_fig11_334190984