“读心术”已成真？脑机接口如何助力人类走向“超人类”？_开云综合官网地址_开云官方网站

当地时间9月19号，马斯克的脑机接口公司Neuralink在其官网发布了

在经历了多年临床试验申请后，美国食品药品监督管理局（FDA）终于于今年五月批准了Neuralink的器械临床试验申请（investigational device exemption，IDE），即将开展的名为PRIME的临床研究。此次研究旨在评估Neuralink全植入式无线脑机接口植入物与手术机器人的安全性，并评估脑机接口的性能表现，以帮助瘫痪患者通过大脑控制外部设备。

那么什么是脑机接口？其存在哪些技术难点和发展趋势？又有哪些应用呢？

顾名思义，脑机接口是用于连接大脑与外部设备的一套系统，它通过将脑信号转换为控制指令，操控外部设备行使功能。这一概念的提出发生于科学家对大脑工作原理的理解过程中：

英国生理学家Richard Caton在兔子和猴子的脑组织表面记录到了电信号；

德裔美籍神经学家E. Fetz实现了利用单神经元的信号控制仪表，这能够说是最早的脑机接口雏形；

基于信号采集过程要不要进行手术可以分为侵入式（invasive）和非侵入式（noninvasive）脑机接口。

诸如Blackrock的Utah阵列电极和Neuralink的Thread都有必要进行开颅手术，将电极植入到大脑皮层中采集神经元的动作电位，因此称为侵入式。

而通过脑电帽、近红外头带和功能性核磁共振这些无创方式采集信号便称为非侵入式。

侵入式通常采集尖峰电位（spike）和场电位（LFP）信号；非侵入一般采集头皮脑电（EEG）信号；皮层脑电（ECoG）信号则介于两者之间。

侵入式和非侵入式所采集到的信号质量差异就像是，在演唱会的第一排和场馆之外的差距，前者有着巨大的时空分辨率优势。

基于脑机接口功能可大致分为运动、感觉和认知三个类型，例如助力瘫痪病人恢复上下肢运动，针对失明失聪者的感觉恢复，以及检测注意力和情感的脑机接口。

基于信号产生诱因分为内源性和外源性两种。内源性信号是由被试自发产生的，比如运动想象（motor imagine）；外源性信号是指由外部刺激诱发的脑信，比如当我们看到固定频闪的图像时，大脑视觉皮层也会产生相应频率的振荡信号，这种信号依赖于外部频闪的激发，因此称为外源性信号。

此外，基于大脑与机器间的信息流向还可大致分为单向和双向脑机接口。单向脑机接口仅实现从大脑解码到外设控制的单向信息传递，而双向或反向脑机接口还会通过电刺激将外部设备感受到的信号反馈给大脑，因此也称之为写入式脑机接口。

大多数脑机接口系统都可以归纳为信号采集、信号解码和外设控制三个部分，而其中最关键的就是解码部分。解码的基础是神经元的选择性（selectivity）。

想象大脑中有一个神经元很喜欢苹果而讨厌香蕉，当我们正真看到苹果时它会卖力的高喊“我要！我要！”，看到香蕉时则沉默不语，我们大家可以很简单的通过它的神经元活动强弱实现苹果与香蕉的二分类判别解码。

这就是对脑机接口原理的简单描述，事实上早在1986年，Georgopoulos实验室就已经基于猕猴运动皮层神经元的方向偏好性实现了对猕猴手动的解码[2]。

可能有人会疑惑，既然脑机接口的解码原理如此简单，目前又已经实现了通过脑机接口控制电脑、机械臂、轮椅、打字等等这些功能，为什么马斯克的临床试验如此非常关注？为什么脑机接口还没有走进寻常生活？

目前脑机接口所取得的成果基本都是在实验室环境中，在特定场景和任务下，在个别患者上的结果。无论从安全性、准确性、易用性、通用性和成本等诸多角度，距离称为商品还非常遥远。

比如，侵入式电极会引起大脑内炎症反应，无法经常使用；记录大量的神经信号可以明显提高脑机接口表现，但需要芯片有更强大的解决能力；神经信号的变异性强，同时属于小样本数据，解码器训练十分困难。

脑机接口是一个交叉学科，需要整合神经科学、材料学、数学、机器学习、人工智能、集成电路等多方面的共同努力才能创造出完善的产品，这也是Neuralink为人称道的原因之一。

年初来自大阪大学的Shinji Nishimoto的研究团队发表的一项工作被CVPR 2023（IEEE国际计算机视觉与模式识别会议）接收，该工作实现了通过Stable Diffusion将大脑活动重建为高分辨率的图像[3]。

被试看到的图像（第一行）与通过Stable Diffusion生成的图像（第二行）｜图源：参考文献3

扫扫核磁就不难得知人脑内的图像，是否很神奇！仿佛读心术和窥探梦境都不在遥远。其实，这是脑机接口解码思路和AI结合的出色范例。

Stable Diffusion是基于潜在扩散模型（Latent Diffusion Model）的图片生成模型，它能够最终靠图片或文字生成图片或对图像进行修改。

Stable Diffusion通过训练自编码器模型得到编码器ε和解码器D，利用编码器可以将图片X降维到潜在表征空间z, 文本信息通过编码器τ得到语义表征c，再同经过扩散过程的zr一同得到zc，最后通过解码器D生成图像X。

由此不难发现，LDM模型是由“图片/文字→潜在表征→图片”的过程，而fMRI信号的采集是被试看到图片时大脑的活动，也就是“图片→大脑→fMRI”的过程。

Nishimoto等人通过简单的线性模型构建fMRI和潜在表征对相同图片的映射，利用大脑视觉通路的初级区域与高级区域分别解码得到图像表征z和语义表征c，作为输入，使得模型生成与被试看到的图像类似的图片。

在解码器训练中，被试往往难以完成大量任务，所以训练集样本通常较小；但AI模型能够最终靠大数据进行训练以获得优秀的生成能力；将两者结合，可以某些特定的程度上解决脑机接口面临的小样本训练以及泛化的问题。

侵入式脑机接口很重要的一个应用场景，便是帮助瘫痪患者控制机械臂重获运动能力。但控制机械臂还远远不够，患者还需要感受到机械臂。

运动控制包含前馈和反馈两部分，不加修正的快速完成目标运动是前馈，基于感觉不断修正运动是反馈。比如闭上眼，脱离视觉反馈，我们也可以凭借记忆拿起桌上的杯子，但如果没有触觉反馈，我们很难稳定地握住杯子。

2021年一篇发表在《Science》期刊上的研究工作就实现了向大脑写入机械手的触觉信息，从而使患者更灵巧地控制机械手[4]。

Collinger 等人通过植入在患者运动皮层的阵列电极解码运动意图控制机械手，同时机械手的触觉传感器感受到的信息编码为不同模式的微电流刺激，通过植入在感觉皮层的电极反馈给患者大脑。这一触觉反馈的加入使得患者在上肢运动能力评估（ARAT）中取得更好的成绩。

脑机接口并非天方夜谭，也不是横空出世的新概念，而是已经经过了几十年的实验室研究，实现了诸多功能的一项技术。希望在不远的将来它能够在一定程度上帮助更多的患者更好地生活。