是揭示人类智能本质的关键。随着脑机接口(BCI)等技术的迅速发展,我们有了从大脑活动中解码自然语言的可能。这一研究方向不仅对认知科学和神经科学领域的发展至关重要,也为因神经退行性疾病和创伤而失去语言能力的人提供了新的希望。该方向的发展将极大地拓展我们对人类大脑处理语言的理解,并可能开启全新的沟通方式。

从大脑活动中解码自然语言的最大需求出现在那些因锥体束或下运动神经元的急性或退行性损伤而导致运动和语言障碍的患者中。当运动和语言障碍特别严重,如在锁定综合征(LIS)中,患者可能完全失去运动控制,从而无法独立发起或维持交流,仅限于用眨眼或眼球运动等轻微动作回答简单问题。BCI技术提供了大脑与外界之间的桥梁,读取人脑产生的信号并将它们转换成所需的认知任务,使得那些由于运动障碍而不能说话的人可以仅通过他们的脑信号进行交流,而无需移动任何身体部分。

在协助这类患者交流上,很多BCI范式已经取得了重大进展,包括P300、稳态视觉诱发电位(SSVEP)和运动想象(MI)等。P300和SSVEP利用外部刺激,如闪烁的屏幕或听觉蜂鸣声,以诱发有区分性的大脑模式。基于运动想象的系统则识别人脑自发的运动意图,无需外部刺激的辅助。然而,这些范式通常只能通过意念打字的形式输出文本,无法替代口头交流的速度和灵活性。在日常对话中,每分钟交流的平均单词数通常能达到意念打字速度的7倍。因此,从大脑活动中解码自然语言,更具体而言是从言语或想象言语时的大脑活动解码自然语言,相比之前的BCI范式具有明显的速度优势,同时也允许患者用更少的努力进行沟通。

为获取大脑在言语或想象言语过程中产生的信号,已经有多种神经影像学方法被应用。这些方法主要包括脑电图(EEG)、脑磁图(MEG)、功能性磁共振成像(fMRI)等非侵入性方法,以及皮质脑电图(ECoG)等侵入性方法。侵入性方法能提供足够的时空分辨率,同时具有较高的信噪比(SNR),但更高的医疗风险限制了它们在临床和日常使用中的普及。这使得基于非侵入性方法的大脑活动解码也得到了关注和广泛研究。

皮质脑电图(ECoG)是一种侵入性的神经记录技术,它通过在大脑硬脑膜下空间植入电极阵列来测量大脑皮层表面的电活动。这些电极通常是由铂铱制成的圆盘形电极,嵌入在柔软的硅胶片中。ECoG记录的信号具有很高的时空分辨率,可以提供关于大脑活动的精确信息。由于其准确性和较高的信噪比,ECoG在临床神经科学中有着广泛的应用,特别是识别药物难治性癫痫患者的癫痫发作源头,以及确定对大脑功能至关重要的皮质区域,以便在切除手术期间保留这些区域。ECoG的一个主要优点是它能够在皮层表面覆盖较广的区域,同时提供足够的空间分辨率,这对于研究广泛分布的神经网络,如语言和运动控制网络,具有重要的价值和意义。

脑电图(EEG)是一种广泛使用的非侵入性神经记录技术,通过在头皮上放置电极来测量大脑活动产生的电信号。EEG主要用于监测和研究大脑的电生理活动,特别是用于诊断和研究癫痫、睡眠障碍、大脑损伤以及各种神经系统疾病。作为一种非侵入性方法,EEG有着较高的时间分辨率,能够捕捉大脑电活动的快速变化,提供亚毫秒级的时间信息,这对于研究大脑如何在短时间内处理信息非常有用。然而EEG的空间分辨率相对较低,难以精确定位大脑内特定区域的电活动,限制了其在精确脑映射方面的应用。EEG的另一个局限性在于信噪比(SNR)较低。信号中的目标成分难以从背景活动中识别出来,这些背景活动可能来自于肌肉或器官活动、眼球运动或眨眼。尽管存在上述问题,鉴于EEG的非侵入性、便携性和低成本,EEG仍然是神经科学、临床神经学和脑机接口研究中极其重要的工具。

脑磁图(MEG)是一种非侵入性神经成像技术,通过记录大脑神经元活动引发的磁场变化来测量大脑活动。在细胞层面上,大脑中的单个神经元具有电化学特性,导致带电离子通过细胞流动。这种缓慢的离子电流流动的净效果会产生电磁场。虽然单个神经元产生的场强度可以忽略不计,但特定区域内大量神经元共同激活时,会在头部外产生可测量的磁场。大脑产生的这些神经磁信号非常微弱,因此MEG扫描仪需要使用超导传感器,并置于磁屏蔽室中进行测量。MEG能够提供精度达到亚毫秒级的大脑活动时序特征,并提供比EEG更准确的神经活动空间定位。尽管MEG的使用条件相对严格,但其时空分辨率上的优势使其成为了神经科学和临床研究领域中极为重要的技术手段。

fMRI(功能磁共振成像)的原理是利用BOLD(血氧水平依赖性)对比来检测大脑中的活动变化。BOLD对比利用了血液中氧合血红蛋白和脱氧血红蛋白在磁性质上的差异。当大脑的某一部分活跃时,它需要更多的氧来支持其功能。为了满足这一需求,血流会增加以带来更多的氧合血红蛋白。氧合血红蛋白和脱氧血红蛋白在磁性上有所不同:氧合血红蛋白是磁性中性的,而脱氧血红蛋白是磁性的。因此,当一个区域的血流增加时,该区域的BOLD信号也会增加。

fMRI具有较高的空间分辨率和较低的时间分辨率。fMRI一次扫描可以测量约100,000个体素,而MEG的传感器通常在300个以下。然而,一个神经活动的脉冲可能导致BOLD在大约10秒内上升和下降;对于自然说出的英语,每次扫描采集的大脑图像可能受到超过20个单词的影响。这意味着大脑活动的解码是一个不适定问题。尽管这为解码连续语言提出了挑战,仍然有一些工作在该方向做出了探索和尝试。

下面将介绍几篇最近几年从大脑活动中解码自然语言的相关工作。目前比较主流的方法是从大脑活动端到端地解码文本。这些工作通常采用编码器—解码器的模型结构,将脑信号映射到连续文本。随着预训练语言模型的出现,前沿工作逐渐将其应用于大脑活动解码,通常作为解码器,和随机初始化的编码器共同训练。也有工作尝试使用非端到端的方式对大脑活动进行解码。在解码文本之外,还有工作研究将脑信号对齐到预训练模型生成的高质量表征,从而将脑信号映射到预训练模型输出构成的良好向量空间中。

在这篇工作之前,大多数从大脑活动中解码自然语言的工作通常局限于孤立的音素或单音节词。解码连续文本的工作相对较少,且效果不佳。文章将问题建模为机器翻译问题,脑信号视为源语言,对应的连续文本视作目标语言,从而将机器翻译领域的模型方法迁移到大脑活动解码这一任务上。

文章设计了一个简单的编码器—解码器结构的神经网。

分类: 资料下载

0 条评论

发表回复

Avatar placeholder

您的电子邮箱地址不会被公开。 必填项已用 * 标注