Meta 公布黑科技:戴上腕带即可隔空打字,引领神经接口 AR 革命

珠江路在线   2024年12月13日  【 转载 】传奇单职业论坛 

  本文标签:Meta,AR

每一个新的计算平台都带来了我们与 设施互动 模式的范式改变 。鼠标的 创造为今日主导 PC 世界的图形消费者界面(GUIs)铺平了 路径,而智能手机直到触摸屏的浮现才开始真正 获得影响力 。

同样的 规定也 实用于可穿戴 设施和 AR, 设想一下,在晨跑时 只有 微微一触指尖就能拍照,或者用 几乎 发觉不到的手部动作来导航菜单 。

AR 时代改造人机交互

在 Connect 2024 大会上,Meta 展示了 EMG 腕带与 Orion 加强 事实眼镜的产品原型 。这两大神器叠加在一同,科幻电影中才会浮现的「隔空打字」场景兴许马上实现 。

Orion AR 眼镜

Meta 推出的肌电图腕带Meta 推出的肌电图腕带

戴上这样一个腕带,你让双手 舒服地放在身侧,同时进行鼠标的滑动、点击和滚动等操作,无缝操纵数字内容 。

将来还将有许多 其余 利用场景,包含在 加强 事实中操纵物体,或者像在键盘上打字一样 —— 甚至更快, 快捷输入 完全信息, 几乎无需 费劲 。

在近日的 NeurIPS 2024 的「数据集和基」子会场中,Meta 公布了两个数据集 ——emg2qwerty 和 emg2pose, 展示在硬件层面仅仅 依附腕带的状况下,如何产生比 细微手势更 丰盛的输入数据集 。

原文地址:https://arxiv.org/abs/2410.20081

原文地址:https://arxiv.org/abs/2412.02725v1

用于隔空打字的数据集 emg2qwerty

表面肌电图(sEMG)是在皮肤表面测量由肌肉产生的电势,它 能够检测到由单个运动神经元引起的 运动,同时是非侵入性的 。

具体来说,关于单个的脊髓运动神经元,其细胞体位于脊髓中,向肌纤维中投射一条长轴突,每条肌纤维只被一个运动神经元 操纵 。

脊髓运动神经元放电时,就会触发它 操纵的全部肌纤维收缩,同时放大了来自神经元的电脉冲 。正是这些来自肌纤维的电信号,可被皮肤上的 sEMG 传感器检测到 。

用于数据收集的表面肌电图探究
设施(sEMG-RD)及其腕围电极
搁置的示
用意用于数据收集的表面肌电图探究 设施(sEMG-RD)及其腕围电极 搁置的示 用意

基于腕带的打字系统旨在解决可穿戴 设施的文本输入问题,实现无需物理键盘的触摸打字 。

仅 使用 目标上检测到的肌肉电信号,系统将可自动解码并对应至 虚构 事实中投影的计算机键盘按键 。

这 象征着,消费者 将来 能够在没有物理键盘的状况下,无论在桌子上、腿上还是厨房桌子上打字,都能如同在实际键盘上一样输入 。

一个针对 揭示「the quick?brown fox」的表面肌电图(sEMG)记录示例,显示左右腕带上 32 通道的表面肌电图信号和按键 工夫;垂直线 示意按键开始,每个电极通道的信号 通过高通滤波

emg2qwerty 数据集包含从两只 目标猎取的高分辩率 sEMG 信号,与 QWERTY 键盘的 实在按键同步 。该数据集总计包含 108 名 参加者 实现的、涵盖 宽泛单字和句子打字 揭示的 346 小时记录,共计超过 520 万次按键 。

emg2qwerty 数据集分割的可视化 。每一列代表一个消费者,每一个方块代表一个会话,方块的高度
示意其
延续
工夫emg2qwerty 数据集分割的可视化 。每一列代表一个消费者,每一个方块代表一个会话,方块的高度 示意其 延续 工夫

如何仅通过表面肌电图数据中检测到消费者按了哪个键呢?为了解决这个核心问题,Meta 开发了受自动语音 鉴别(ASR)领域启示的 步骤 。

该 步骤同样 模仿了给定延续多通道 工夫序列下,预测离散字符输出序列的 使命 。为了给 emg2qwerty 构建 壮大的基线,Meta 尝试了 别致的网络架构、不同的训练损失以及语言模型的 使用,始终关注表面肌电图数据的独特领域 特色要求 。

探究发现,在 100 个消费者的规模上, 只管生理、解剖、行为、带 宽容小和传感器 搁置存在差别,消费者间的泛化 依然可浮现 。

当 使用大概半小时的个体消费者打字数据来个性化模型时,性能的进一步 晋升随之而来 。通过整合语言模型来优化 后果,可将字符 舛误率降至 10% 以下 —— 这个值被认为是一个使文本模型可用的 要害阈值 。

随着数据集的添加, 类似语言模型中的 Scaling Law 将会生效,从而使得对消费者输入的预测更加精确 。

emg2pose 姿势估量:可 彻底预测消费者的手部配置

另一个名为 emg2pose 的数据集,旨在解决肌电信号与手部运动中间的映射问题,这关于人机交互、 痊愈工程和 虚构 事实等领域 存在重要 意思 。

该数据集包含来自 193 名 参加者的 370 小时 sEMG 和手部 姿势数据,从 29 个不同的行为组中采集,包含拳头、从一数到五等很多动作 。

数据集包含 25253 个 HDF5 文件, 总计达到 431GB 。每个文件包含 工夫对齐的 2kHz 表面肌电图数据和单手在单一阶段的关节角度 。

手部 姿势标签是通过高分辩率动作 捉拿阵列生成的 。 完全数据集包含超过 8000 万个 姿势标签,其等效规模已经 能够与最大的计算机视觉数据集比肩 。

emg2pose 数据集构成:a) sEMG-RD 腕带和动作 捉拿标记(白色圆点)设置 b)?数据集分解;i)消费者被 揭示执行一系列动作类型(手势),如上下计数,同时记录 sEMG 和 姿势 ii)?特定手势类型的组合构成一个阶段

emg2pose 数据集的重要特色在于其高频率的表面肌电图记录(2kHz)与精确的动作 捉拿数据相 联合,提供了对手部 细微运动的 深刻洞察 。

此外,数据集包含 详尽的元数据,如消费者 ID、会话、阶段、手部侧向、是不是移动等,便于进行多样化的 综合和 试验 。数据集还提供了训练、测试和验证的划分, 支撑多种泛化类型的探究,包含跨消费者、跨阶段以及跨消费者和阶段的泛化 。

在基准测试中,emg2pose 还提供了 存在竞争力的基线和 存在 挑战性的 使命,这些 使命评估了在排除消费者、传感器 搁置和手势 姿势方面的物理世界泛化场景 。

该探究还介绍了一种新的最先进模型,用于从表面肌电图进行 姿势估量的 vemg2pose 模型,通过整合对 姿势速度的预测来重建手势 姿势 。

探究人员将 emg2pose 以及另外两种当代基线用于 sEMG 的 姿势估量,并 综合了它们在泛化条件下的性能 。 后果显示:emg2pose 模型在对不同消费者的数据集进行预测时,仅显示 1 厘米误差,从而在 宽泛的运动 规模内实现了高保真跟踪 。

在不同采集阶段及不同消费者间,基于 vemg2pose 预测的泛化
威力在不同采集阶段及不同消费者间,基于 vemg2pose 预测的泛化 威力

emg2pose 不只 晋升了动作 鉴别的精确性,还为手势操纵、 痊愈 医治等有潜在的 利用可能 。

  • 在医疗 痊愈领域,通过 综合患者的 sEMG 信号, 能够实时监测和评估手部 性能的 复原状况,为个性化 痊愈 方案的 制订提供科学根据;

  • 在人机交互领域,该数据集 支撑开发更加自然和精准的手势操纵系统, 晋升消费者体验;

  • 此外,emg2pose 还可 利用于 虚构 事实和 加强 事实技术中,实现更加 真切的手部动作 捉拿和交互 。

免责声明:凡标注转载/编译字样内容并非本站原创,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。