数字音频技术知识点及声卡驱动

关于pcm
pcm是pulse code modulation的缩写，它是对波形最直接的编码方式。它在音频中的地位可能和bmp在图片中的地位有点类似吧。
sampling rate：从模拟信号到数字信号，即从连续信号到离散信号的转换都是通过离散采样完成的，sampling rate就是每秒种采样的个数。根据香农采样定理，要保证信号不失真，sampling rate要大于信号最高频率的两倍。我们知道人的耳朵能听到的频率范围是20hz – 20khz，所以sampling rate达到40k就够了，再多了也只是浪费。但是有时为了节省带宽和存储资源，可以降低sampling rate而损失声音的质量，所以我们常常见到小于40k采样率的声音数据。
sample size：用来量化一个采样的幅度，一般为8 bits、16 bits和24 bits。8 bits只有早期的声卡支持，而24 bits只有专业的声卡才支持，我们用的一般都是16 bits的。
number of channels：声音通道个数，单声道为一个，立体声为两个，还有更多的（如8个声道的7.1格式）。一般来说，每个声道都来源于一个独立的mic，所以声道多效果会更好（更真实），当然代价也更大。
frame： frame是指包含了所有通道的一次采样数据，比如对于16bits的双声道来说，一个frame的大小为4个字节（2 * 16）。
一、数字音频音频信号是一种连续变化的模拟信号，但计算机只能处理和记录二进制的数字信号，由自然音源得到的音频信号必须经过一定的变换，成为数字音频信号之后，才能送到计算机中作进一步的处理。
数字音频系统通过将声波的波型转换成一系列二进制数据，来实现对原始声音的重现，实现这一步骤的设备常被称为模/数转换器（a/d）。a/d转换器以每秒钟上万次的速率对声波进行采样，每个采样点都记录下了原始模拟声波在某一时刻的状态，通常称之为样本（sample），而每一秒钟所采样的数目则称为采样频率，通过将一串连续的样本连接起来，就可以在计算机中描述一段声音了。对于采样过程中的每一个样本来说，数字音频系统会分配一定存储位来记录声波的振幅，一般称之为采样分辩率或者采样精度，采样精度越高，声音还原时就会越细腻。
数字音频涉及到的概念非常多，对于在linux下进行音频编程的程序员来说，最重要的是理解声音数字化的两个关键步骤：采样和量化。采样就是每隔一定时间就读一次声音信号的幅度，而量化则是将采样得到的声音信号幅度转换为数字值，从本质上讲，采样是时间上的数字化，而量化则是幅度上的数字化。下面介绍几个在进行音频编程时经常需要用到的技术指标：
采样频率
采样频率是指将模拟声音波形进行数字化时，每秒钟抽取声波幅度样本的次数。采样频率的选择应该遵循奈奎斯特（harry nyquist）采样理论：如果对某一模拟信号进行采样，则采样后可还原的最高信号频率只有采样频率的一半，或者说只要采样频率高于输入信号最高频率的两倍，就能从采样信号系列重构原始信号。正常人听觉的频率范围大约在20hz~20khz之间，根据奈奎斯特采样理论，为了保证声音不失真，采样频率应该在40khz左右。常用的音频采样频率有8khz、11.025khz、22.05khz、16khz、37.8khz、44.1khz、48khz等，如果采用更高的采样频率，还可以达到dvd的音质。其中，8khz为电话的采样频率。
量化位数
量化位数是对模拟音频信号的幅度进行数字化，它决定了模拟信号数字化以后的动态范围，常用的有8位、12位和16位。量化位越高，信号的动态范围越大，数字化后的音频信号就越可能接近原始信号，但所需要的存贮空间也越大。
声道数
声道数是反映音频数字化质量的另一个重要因素，它有单声道和双声道之分。双声道又称为立体声，在硬件中有两条线路，音质和音色都要优于单声道，但数字化后占据的存储空间的大小要比单声道多一倍。
二、声卡驱动出于对安全性方面的考虑，linux下的应用程序无法直接对声卡这类硬件设备进行操作，而是必须通过内核提供的驱动程序才能完成。在linux上进行音频编程的本质就是要借助于驱动程序，来完成对声卡的各种操作。
对硬件的控制涉及到寄存器中各个比特位的操作，通常这是与设备直接相关并且对时序的要求非常严格，如果这些工作都交由应用程序员来负责，那么对声卡的编程将变得异常复杂而困难起来，驱动程序的作用正是要屏蔽硬件的这些底层细节，从而简化应用程序的编写。目前linux下常用的声卡驱动程序主要有两种：oss和alsa。
最早出现在linux上的音频编程接口是oss（open sound system），它由一套完整的内核驱动程序模块组成，可以为绝大多数声卡提供统一的编程接口。oss出现的历史相对较长，这些内核模块中的一部分（oss/free）是与linux内核源码共同免费发布的，另外一些则以二进制的形式由4front technologies公司提供。由于得到了商业公司的鼎力支持，oss已经成为在linux下进行音频编程的事实标准，支持oss的应用程序能够在绝大多数声卡上工作良好。
虽然oss已经非常成熟，但它毕竟是一个没有完全开放源代码的商业产品，alsa（advancedlinux sound architecture）恰好弥补了这一空白，它是在linux下进行音频编程时另一个可供选择的声卡驱动程序。alsa除了像oss那样提供了一组内核驱动程序模块之外，还专门为简化应用程序的编写提供了相应的函数库，与oss提供的基于ioctl的原始编程接口相比，alsa函数库使用起来要更加方便一些。alsa的主要特点有：
支持多种声卡设备
模块化的内核驱动程序
支持smp和多线程
提供应用开发函数库
兼容oss应用程序
alsa和oss最大的不同之处在于alsa是由志愿者维护的自由项目，而oss则是由公司提供的商业产品，因此在对硬件的适应程度上oss要优于alsa，它能够支持的声卡种类更多。alsa虽然不及oss运用得广泛，但却具有更加友好的编程接口，并且完全兼容于oss，对应用程序员来讲无疑是一个更佳的选择。

PCB印制板电路设计的一般性原则介绍
AMD发布首款CDNA架构GPU：7680流处理器
3月工业产出规模接近去年同期水平，规模以上工业增加值下降1.1%
“物联地带·渝”在南岸区正式揭牌成立
一加3T实际体验怎么样？让真实用户告诉你
数字音频技术知识点及声卡驱动
GPT-4 驱动的新Copilot编码助手
一氧化碳报警器帮助警告一氧化碳中毒
上海特斯拉超级工厂即将向欧洲出口Model 3
无线充电系统电屏蔽对空间磁场的影响
为人工智能计算提供神经形态芯片的案例
中国信息通信研究院发布信息通信业（ICT）十大趋势
2017年半导体产业的机遇与挑战
一条SQL更新语句的执行流程1
Rydberg使用原子量子传感器成功演示世界上第一个远程无线电通信
关于边缘计算的五个实用案例与优势
中国工程院网站公布了2019年工程院院士增选有效候选人名单，企业家当选院士引争议
尽可能地降低 SiC FET 的电磁干扰和开关损耗
Lexar雷克沙发布高性能移动固态硬盘——Professional SL100 Pro
三大运营商在5G时代将会作出哪些调整