电影空间的声学建模——Pyroomacoustics（1）

在现今的电影声音工作中，ADR和Foley，以及外部的SFX与实际空间匹配问题相当重要。在实际工作中，来自数字混响的声音通常密度不足，缺乏随机变化，而来自卷积混响的声音往往因为卷积素材不能完美符合影片实际房间而带来真实性的差异。随着计算能力的的提升，我们有越来越多方法以房间空间建模来力求还原房间的完整声学响应。在接下来的几篇文章中，我将介绍几种声学空间建模方法及其常用库，希望启发各位探索更多将理论技术与电影声音相结合的方法。

一、用几何学方法建模声音

1.简介

几何方法是目前最常用的声学建模方法种类，其核心方法其实很简单，将声波视为沿直线传播的射线，完全忽略声音的波动性，此处我们以Pyroomacoustics库中Hybird模式所使用的两种几何学方法——镜面声源法和射线追踪法为例详细介绍。

2.镜面声源法（Image Source Method, ISM）

镜面声源法（Image Source Method, ISM）是建筑声学和计算声学中最为经典的技术之一。它的核心思想是：将声波在墙面上的反射，转化为一个位于墙壁背后的“虚假声源”对麦克风的直达。

这种方法能够极其精确地模拟早期反射（Early Reflections），因为这些反射波在空间中具有明确的相位和方向性。

我们在初中都学过光学方法，声学镜像法与其理论完全相同，当声源S发出的声波撞击到无限大的平面（墙壁）时，根据反射定律（入射角等于反射角），声波会折返。

在数学处理上，我们可以忽略墙壁，而在墙壁的对称位置放置一个虚声源 S' 。对于麦克风 M 来说，接收到来自墙面的反射声，在时间延迟和路径长度上，等同于接收到一个来自 S' 的直达声。此时：

路径长度：反射路径的长度等于 S' 到 M 的直线距离。

时间延迟：延迟时间 t = d / c，其中 d 是距离，c 是声速。

能量衰减：除了距离造成的自由空间衰减 1/d ，还要乘以墙面的反射系数 β（通常与材料的吸收率有关）。

在实际房间当中，声源不止会反射一次，此时ISM采用递归方法进行多次反射计算：

一阶反射：声源对房间 6 面墙分别做镜像，生成 6 个一阶虚声源。

二阶反射：将这 6 个一阶虚声源再对其他墙壁做镜像，生成二阶虚声源（代表声波经过两次碰撞后到达麦克风）。

高阶反射：以此类推。在 n 阶反射下，虚声源的数量会呈指数级增长。

其数学推导公式如下

对于第 $i$ 个虚声源，它对麦克风处 RIR 的贡献可以表示为：

$$h_i(t) = \frac{\prod \beta_{k}}{4\pi d_i} \delta(t - d_i/c)$$

其中：

δ是狄拉克函数，代表瞬时冲击。

∏βk是声波在其路径上经过的所有墙面的反射系数之积。

di是虚声源到麦克风的欧氏距离。

4. ISM 法的优缺点

特点	说明
优点：精确性	能够完美还原反射波的相位信息，对麦克风阵列处理（如波束成形）至关重要。
优点：确定性	只要房间几何固定，结果是唯一的，不像射线追踪法存在随机噪声。
缺点：计算量	随着阶数增加，声源数量爆炸式增长（$O(n^d)$），不适合模拟超长混响。
缺点：物理局限	默认声波是高频近似（射线），无法直接处理声波的衍射（绕过障碍物）现象。

5.Pyroomacoutics中简单调用ISM方法进行声学模拟

import pyroomacoustics as pra
import numpy as np
import matplotlib.pyplot as plt

# 1. 定义房间参数 (单位: 米)
# 这是一个 7m x 5m x 3m 的矩形房间
room_dim = [7, 5, 3]

# 2. 设置墙面吸收系数 (Absorption)
# 吸收系数越大，反射越弱。如果要完全靠 ISM 模拟，需要定义反射系数
# 这里我们设置混响时间 RT60 = 0.5s，让库自动计算吸收系数
rt60 = 0.5
e_res, absorption = pra.inverse_sabine(rt60, room_dim)

# 3. 创建房间对象
# max_order 是 ISM 的关键参数：决定了追踪多少次反射
room = pra.ShoeBox(
    room_dim, 
    fs=48000, 
    absorption=absorption, 
    max_order=15  # 增加此值会增加计算量，但 RIR 会更长更精细
)

# 4. 添加声源 (Source)
# 坐标为 [x, y, z]
source_pos = [2, 2.5, 1.5]
room.add_source(source_pos)

# 5. 添加麦克风阵列 (Microphone)
# 这里在 [4.5, 2, 1.2] 处放置一个麦克风
mic_pos = np.array([[4.5], [2.0], [1.2]])
room.add_microphone_array(pra.MicrophoneArray(mic_pos, room.fs))

# 6. 运行 ISM 模拟计算 RIR
# compute_rir() 会在底层执行镜面声源法
room.compute_rir()

# 7. 提取并可视化 RIR
# rir 是一个列表，包含了每个声源到每个麦克风的冲激响应
rir = room.rir[0][0]  # 第0个麦克风，第0个声源

plt.figure(figsize=(10, 4))
plt.plot(np.arange(len(rir)) / room.fs, rir)
plt.title("Room Impulse Response (ISM Method)")
plt.xlabel("Time [s]")
plt.ylabel("Amplitude")
plt.grid(True)
plt.show()

import pyroomacoustics as pra
import numpy as np
import matplotlib.pyplot as plt

# 1. 定义房间参数 (单位: 米)
# 这是一个 7m x 5m x 3m 的矩形房间
room_dim = [7, 5, 3]

# 2. 设置墙面吸收系数 (Absorption)
# 吸收系数越大，反射越弱。如果要完全靠 ISM 模拟，需要定义反射系数
# 这里我们设置混响时间 RT60 = 0.5s，让库自动计算吸收系数
rt60 = 0.5
e_res, absorption = pra.inverse_sabine(rt60, room_dim)

# 3. 创建房间对象
# max_order 是 ISM 的关键参数：决定了追踪多少次反射
room = pra.ShoeBox(
    room_dim, 
    fs=48000, 
    absorption=absorption, 
    max_order=15  # 增加此值会增加计算量，但 RIR 会更长更精细
)

# 4. 添加声源 (Source)
# 坐标为 [x, y, z]
source_pos = [2, 2.5, 1.5]
room.add_source(source_pos)

# 5. 添加麦克风阵列 (Microphone)
# 这里在 [4.5, 2, 1.2] 处放置一个麦克风
mic_pos = np.array([[4.5], [2.0], [1.2]])
room.add_microphone_array(pra.MicrophoneArray(mic_pos, room.fs))

# 6. 运行 ISM 模拟计算 RIR
# compute_rir() 会在底层执行镜面声源法
room.compute_rir()

# 7. 提取并可视化 RIR
# rir 是一个列表，包含了每个声源到每个麦克风的冲激响应
rir = room.rir[0][0]  # 第0个麦克风，第0个声源

plt.figure(figsize=(10, 4))
plt.plot(np.arange(len(rir)) / room.fs, rir)
plt.title("Room Impulse Response (ISM Method)")
plt.xlabel("Time [s]")
plt.ylabel("Amplitude")
plt.grid(True)
plt.show()

这里我们展示了一个使用Pyroomacoutics进行简单ISM房间声学模拟的简短代码，各位读者可以自行尝试。然而，为了获取完整的混响尾音，我们需要高阶的镜像，此时纯ISM方法带来的是计算量的暴增，对于一个 3D 矩形房间，总的虚声源数量（包括原始声源）可以用以下公式估算：

$$N_{total} \approx \frac{(2 \cdot \text{order} + 1)^3}{3} \times \text{常数修正}$$

计算得出，当我们开启15阶ISM时，在普通六面体房间中最终计算镜像源数约为4991个，显然，当模拟更加复杂的房间时，镜像源数量将成长到一个不可控的地步。为此，Pyroomacoutics库中提供了一种Hybird方法，利用射线追踪法追踪混响尾音，我们将在下篇文章中详细介绍。

TALabs 三轮声学实验室

TALabs 三轮声学实验室

liuzhelin@tricycle-acoustica.org.cn