【直播】常见概念及其关系


作者:刘翰林

日期:2024-10-27

1. 背景

当我们从零开始介入音视频领域时,会发现有很多概念、协议进入视野,比如采样率、分辨率、比特率、h264、mp4、rtmp、rtp等等,在没有理解这些概念所在音视频数据处理的阶段时,容易给人造成混淆和迷惑。 本文从概念上进行一些初步的分类介绍,帮助理解概念。

2. 音视频数据处理流程及概念

媒体数据一般的处理过程以下示意图表示:

webrtc system

3. 数据采集

数据采集的目标是将模拟信号转变为数字信号,之后再可以通过数字信号还原人类感知近似的模拟信号。

3.1 音频采样

如下为音频数据采样示例:

audio sample

x轴密度代表采样的频率,y轴代表声音的振幅。

在人耳可见的音频范围内(20Hz~20kHz),采样频率越高,表达振幅(位深)的数字范围越大,音频的质量也会越高。

香农定理指出,为了防止在对信号进行数字采样时丢失任何信息,必须以至少两倍于最高预期信号频率的速率进行采样。

常见的音频采样频率/位深为:44.1kHz/16位,按左右声道计算,比特率为:44,100 x 16 x 2 = 1,411,200 位每秒(1.4Mbps)

3.2 视频采样

一下为视频数据采样示例:

audio sample

视频数据在空间上,以图像的分辨率作为采集精度,在时间上以帧率作为采集精度。

下面列出了几种常见的视频分辨率:

分辨率名称像素数(宽 × 高)使用场景
480p (SD)854 × 480标清视频,通常用于DVD、旧版电视、移动设备播放
720p (HD)1280 × 720高清视频,广泛应用于YouTube、流媒体服务、电视广播
1080p (Full HD)1920 × 1080全高清视频,常用于高清电视、蓝光光盘、流媒体
1440p (2K)2560 × 1440高于1080p的分辨率,广泛用于高端显示器、视频制作
2160p (4K UHD)3840 × 2160超高清,常用于4K电视、流媒体、数字电影院、视频编辑
4320p (8K UHD)7680 × 4320超高清,未来趋势,主要用于高端电视和影院播放
2K2048 × 1080影院标准分辨率,常用于数字电影制作与播放
5K5120 × 2880专业显示器、高端图形设计、视频编辑
16K15360 × 8640极高分辨率,用于特殊场景,如大型显示屏或专业视频制作

常用的视频帧率:

4. 编码格式

4.1 视频编码格式

编码格式维护主体优点主要应用
H.264/AVCITU-T VCEG 和 MPEG高压缩效率,支持多种分辨率流媒体、视频会议、蓝光光盘
H.265/HEVCITU-T VCEG更高压缩效率,支持高达8K分辨率4K/8K流媒体、超高清电视
VP8Google开源,无专利费用WebM视频、早期YouTube视频
VP9Google更高压缩效率,开源YouTube、Chrome、网页视频
AV1AOMedia开源,超高压缩效率YouTube、Netflix、网页视频
MPEG-2MPEG简单实现,低解码要求DVD光盘、标准清晰度电视广播
MPEG-4 Part 2MPEG比MPEG-2有更高压缩效率旧版DivX、Xvid编码
ProResApple高质量,适合后期制作专业视频编辑、电影制作
CineFormGoPro(原CineForm公司)多分辨率支持,适合后期制作电影制作、编辑工作流
VC-1Microsoft类似H.264的压缩效率蓝光光盘、网络视频
H.266/VVCITU-T VCEG 和 MPEG进一步提高压缩效率,支持超高清内容8K视频、HDR内容

4.2 音频编码格式表格

编解码格式维护主体优点主要应用
MP3Fraunhofer IIS高压缩率,广泛兼容音乐流媒体、便携式音频播放器
AAC (Advanced Audio Coding)MPEG压缩效率高于MP3,支持多声道音频Apple Music、YouTube、数字广播
FLAC (Free Lossless Audio Codec)Xiph.org Foundation无损压缩,保留原始音质高质量音频存储、音乐爱好者
ALAC (Apple Lossless Audio Codec)Apple无损压缩,兼容Apple设备Apple设备上的高质量音频
WMA (Windows Media Audio)Microsoft支持有损和无损版本,压缩灵活Windows设备上的音频
OpusIETF低延迟,高音质,适合各种比特率VoIP、实时通信、流媒体
VorbisXiph.org Foundation开源,高于MP3的压缩效率开源应用、游戏音频、网络流媒体
AMR (Adaptive Multi-Rate Audio Codec)3GPP低比特率语音压缩,适合语音传输电话语音、VoIP
DTS (Digital Theater Systems)DTS, Inc.支持多声道,影院级音效家庭影院、蓝光光盘
Dolby Digital (AC-3)Dolby Laboratories支持环绕声,影院音效电影音轨、家庭影院

5. 容器格式

5.1 视频容器格式

容器格式维护主体特点主要应用
MP4 (MPEG-4 Part 14)MPEG支持多种编码格式,如H.264、AAC流媒体、视频播放、网络视频
MKV (Matroska)Matroska组织开源,支持多种视频和音频编解码器高清视频、网络视频存储
AVI (Audio Video Interleave)Microsoft支持多种编解码器,兼容性高Windows平台视频播放和存储
MOV (QuickTime File Format)Apple支持高质量视频,兼容性好Mac系统和视频编辑
FLV (Flash Video Format)Adobe适合网络传输和流媒体播放早期网络视频流媒体
WebMGoogle开源,专为网络视频优化YouTube、HTML5视频
WMV (Windows Media Video)Microsoft支持WMV编码,专有格式Windows视频播放
3GP3GPP优化移动设备,文件体积小手机视频传输和存储
OGGXiph.org Foundation开源,支持多种编解码器(如Theora)开源项目、浏览器视频
MPEG-2 TS (Transport Stream)MPEG适合广播和流媒体传输电视广播、直播流媒体
ASF (Advanced Systems Format)Microsoft支持多种数据流,常用于网络传输流媒体播放和录制

5.2 音频容器格式

容器格式维护主体特点主要应用
WAV (Waveform Audio File Format)Microsoft 和 IBM支持无压缩音频(通常为PCM),高音质专业音频录制、编辑、音频CD
AIFF (Audio Interchange File Format)Apple类似WAV,支持无压缩音频Mac系统的音频存储和编辑
MP4 (MPEG-4 Part 14)MPEG支持多种音频编码,如AAC流媒体、音乐文件
OGGXiph.org Foundation开源,支持多种编码(如Vorbis、Opus)游戏音频、开源项目
FLACXiph.org Foundation封装无损压缩音频高质量音乐存储
M4AApple基于MP4,用于封装AAC或ALACiTunes、Apple设备上的音乐
CAF (Core Audio Format)Apple支持超大文件和多种音频格式专业音频录制、编辑
RealAudioRealNetworks支持流媒体传输,适合实时播放早期网络广播、流媒体
AUSun Microsystems简单,早期音频格式Unix系统音频数据存储

6. 音视频传输

以下是常用的音视频传输协议的表格,涵盖了不同协议的特点和主要应用场景。

协议名称维护主体/组织特点主要应用
RTMP (Real-Time Messaging Protocol)Adobe / 开源低延迟,高效流媒体传输,支持音视频和数据流直播流媒体、视频会议、网络直播
HLS (HTTP Live Streaming)Apple基于HTTP,支持自适应码率流媒体传输,分段传输iOS设备和浏览器流媒体、直播、点播
DASH (Dynamic Adaptive Streaming over HTTP)MPEG自适应流媒体协议,支持多种格式和设备4K流媒体、在线视频平台(如Netflix)
RTSP (Real-Time Streaming Protocol)IETF提供实时音视频流控制,低延迟IP摄像头监控、视频点播、实时视频流
WebRTC (Web Real-Time Communication)W3C / IETF支持浏览器间实时通信,低延迟,点对点传输视频会议、在线客服、P2P视频通话
SRT (Secure Reliable Transport)Haivision安全、可靠的低延迟传输,适应丢包和网络波动远程视频传输、广播电视、直播
GB28181中国国家标准化管理委员会专为视频监控系统设计,支持音视频流的实时传输视频监控、安防监控、城市监控系统

说明:

7. 参考

https://www.headphonesty.com/2019/07/sample-rate-bit-depth-bit-rate/ https://www.researchgate.net/figure/Spatial-and-temporal-sampling-of-a-video-sequence-70_fig11_334190984