Meta 公布黑科技:戴上腕带即可隔空打字,引领神经接口 AR 革命
每一个全新的计算平台都在改变我们与设备互动的方式。鼠标的问世为主导PC世界的图形用户界面(GUIs)奠定了基础,而智能手机直到触摸屏的出现才真正发挥了影响力。
同样的规律同样适用于可穿戴设备和增强现实(AR),想象一下,在晨跑时只需轻轻一触指尖就能拍照,或者用几乎察觉不到的手部动作来导航菜单。
增强现实时代改变人机交互方式
在Connect 2024大会上,Meta展示了EMG腕带与Orion增强现实眼镜的产品原型。这两者结合在一起,就像科幻电影中才可能出现的“隔空打字”场景一样,似乎即将成为现实。
戴上这样的腕带,你可以让双手自然放在身体两侧,同时进行鼠标的滑动、点击和滚动等操作,无缝地控制数字内容。
未来将涌现出许多其他应用场景,包括在增强现实中操作物体,或者类似在键盘上输入文字 —— 甚至更快地输入完整信息,几乎没有什么负担。
在不久前的NeurIPS 2024的“数据集和基础”小组会议上,Meta发布了两个数据集 —— emg2qwerty和emg2pose,展示了如何在硬件层面上仅依靠腕带就能产生比细微手势更多的输入数据。
原文地址:https://arxiv.org/abs/2410.20081
原文地址:https://arxiv.org/abs/2412.02725v1
用于空中打字的emg2qwerty数据集
表面肌电图(sEMG)是在皮肤表面测量由肌肉产生的电势,它能够检测到由单个运动神经元引起的活动,同时是非侵入性的。
具体来说,对于单个的脊髓运动神经元,其细胞体位于脊髓中,向肌纤维中投射一条长轴突,每条肌纤维只被一个运动神经元支配。
脊髓运动神经元放电时,就会触发它支配的所有肌纤维收缩,同时放大了来自神经元的电脉冲。正是这些来自肌纤维的电信号,可被皮肤上的sEMG传感器检测到。
基于腕带的打字系统旨在解决可穿戴设备的文本输入问题,实现无需物理键盘的触摸输入。
仅使用手腕上检测到的肌肉电信号,系统可以自动解码并映射到虚拟现实计算机键盘上。
这表示,未来用户可以在没有物理键盘的情况下,无论是在桌面上、大腿上还是厨房桌上输入字母,快捷键输入完整信息,几乎不费力。
一个关于提示“the quick brown fox”的表面肌电图(sEMG)记录示例,显示左右腕带上32通道的表面肌电图信号和按键时间;垂直线表示按键开始,每个电极通道的信号经过高通滤波
emg2qwerty数据集包含从两只手腕获得的高分辨率sEMG信号,与QWERTY键盘的实际按键同步。这一数据集总共记录了108名参与者在346小时内完成的广泛单词和句子提示,总共超过520万次按键。
如何通过表面肌电图数据准确检测用户按下了哪个键?为了解决这一核心问题,Meta开发了一种受自动语音识别(ASR)领域灵感的方法。
该方法模拟了给定连续多通道时间序列下预测离散字符输出序列的任务。为了在emg2qwerty上构建强有力的基准,Meta尝试了新颖的网络架构、不同的训练损失以及对表面肌电图数据独特领域特征的关注。
研究结果显示,在100名用户规模上,尽管存在生理、解剖、行为、带宽和传感器放置的差异,用户之间的泛化效果仍然存在。
通过对个人用户约半小时的打字数据进行个性化模型训练,进一步提高了性能。通过整合语言模型来优化结果,字符错误率降至10%以下 —— 这被认为是使文本模型可用的关键阈值。
随着数据集的增加,类似语言模型中的Scaling Law将生效,从而使对用户输入的预测变得更准确。
emg2pose的姿势估计:完全预测用户的手部布局
另一个名为emg2pose的数据集,旨在解决肌电信号与手部运动之间的映射问题,这对人机交互、康复工程和虚拟现实等领域具有重要意义。
该数据集包含来自193名参与者的370小时sEMG和手部姿势数据,采集了29个不同动作组中的数据,包括握拳、一数到五等多种动作。
数据集包含25253个HDF5文件,总计431GB。每个文件都包含了时间对齐的2kHz表面肌电图数据和单手在一个阶段的关节角度。
手部姿势标签是通过高分辨率动作捕捉阵列生成的。完整数据集包含超过8000万手部姿势标签,其等效规模已经可以与最大的计算机视觉数据集相匹敌。
emg2pose数据集的主要特点在于高频率表面肌电图记录(2kHz)与精确动作捕捉数据的结合,为手部微小运动提供了深入的见解。
此外,数据集包含丰富的元数据,如用户标识、会话、阶段、手部侧向、是否移动等,有助于进行多样化的分析和实验。数据集还提供了训练、测试和验证的数据划分,支持多种泛化类型的研究,包括跨用户、跨阶段以及跨用户和阶段的泛化。
在基准测试中,emg2pose还提供了具有竞争力的基线和具有挑战性的任务,这些任务评估了在排除用户、传感器放置和手势姿态方面的物理世界泛化场景。
该研究还介绍了一种新的最先进模型,用于从表面肌电图进行姿势估计的vemg2pose模型,通过整合对姿势速度的预测来重建手势姿态。
研究人员将emg2pose以及另外两种当代基线用于sEMG的姿势估计,并分析了它们在泛化条件下的性能。结果显示:emg2pose模型在对不同用户的数据集进行预测时,仅显示1厘米的误差,从而实现了在广泛运动范围内高度准确的追踪。
emg2pose不仅提高了动作识别的准确性,还为手势控制、康复治疗等领域提供了可能性。
在医疗康复领域,通过分析患者的sEMG信号,可以实时监测和评估手部功能的恢复情况,为制定个性化康复方案提供科学依据;
在人机交互领域,该数据集支持开发更自然、更准确的手势控制系统,提升用户体验;
除此之外,emg2pose还可应用于虚拟现实和增强现实技术,实现更真实的手部动作捕捉和互动。
广告声明:文中包含可能为外部链接(包括但不限于超链接、二维码、口令等形式),仅用于传达更多信息,节省查找时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。