Meta 公布黑科技:戴上腕带即可隔空打字,引领神经接口 AR 革命 |
珠江路在线
2024年12月13日
【
转载
】传奇单职业论坛
|
本文标签:Meta,AR |
每一个新的计算平台都带来了我们与 设施互动 模式的范式改变 。鼠标的 创造为今日主导 PC 世界的图形消费者界面(GUIs)铺平了 路径,而智能手机直到触摸屏的浮现才开始真正 获得影响力 。
同样的 规定也 实用于可穿戴 设施和 AR, 设想一下,在晨跑时 只有 微微一触指尖就能拍照,或者用 几乎 发觉不到的手部动作来导航菜单 。
AR 时代改造人机交互
在 Connect 2024 大会上,Meta 展示了 EMG 腕带与 Orion 加强 事实眼镜的产品原型 。这两大神器叠加在一同,科幻电影中才会浮现的「隔空打字」场景兴许马上实现 。
Orion AR 眼镜
戴上这样一个腕带,你让双手 舒服地放在身侧,同时进行鼠标的滑动、点击和滚动等操作,无缝操纵数字内容 。
将来还将有许多 其余 利用场景,包含在 加强 事实中操纵物体,或者像在键盘上打字一样 —— 甚至更快, 快捷输入 完全信息, 几乎无需 费劲 。
在近日的 NeurIPS 2024 的「数据集和基」子会场中,Meta 公布了两个数据集 ——emg2qwerty 和 emg2pose, 展示在硬件层面仅仅 依附腕带的状况下,如何产生比 细微手势更 丰盛的输入数据集 。
原文地址:https://arxiv.org/abs/2410.20081
原文地址:https://arxiv.org/abs/2412.02725v1
用于隔空打字的数据集 emg2qwerty
表面肌电图(sEMG)是在皮肤表面测量由肌肉产生的电势,它 能够检测到由单个运动神经元引起的 运动,同时是非侵入性的 。
具体来说,关于单个的脊髓运动神经元,其细胞体位于脊髓中,向肌纤维中投射一条长轴突,每条肌纤维只被一个运动神经元 操纵 。
脊髓运动神经元放电时,就会触发它 操纵的全部肌纤维收缩,同时放大了来自神经元的电脉冲 。正是这些来自肌纤维的电信号,可被皮肤上的 sEMG 传感器检测到 。
基于腕带的打字系统旨在解决可穿戴 设施的文本输入问题,实现无需物理键盘的触摸打字 。
仅 使用 目标上检测到的肌肉电信号,系统将可自动解码并对应至 虚构 事实中投影的计算机键盘按键 。
这 象征着,消费者 将来 能够在没有物理键盘的状况下,无论在桌子上、腿上还是厨房桌子上打字,都能如同在实际键盘上一样输入 。
一个针对 揭示「the quick?brown fox」的表面肌电图(sEMG)记录示例,显示左右腕带上 32 通道的表面肌电图信号和按键 工夫;垂直线 示意按键开始,每个电极通道的信号 通过高通滤波
emg2qwerty 数据集包含从两只 目标猎取的高分辩率 sEMG 信号,与 QWERTY 键盘的 实在按键同步 。该数据集总计包含 108 名 参加者 实现的、涵盖 宽泛单字和句子打字 揭示的 346 小时记录,共计超过 520 万次按键 。
如何仅通过表面肌电图数据中检测到消费者按了哪个键呢?为了解决这个核心问题,Meta 开发了受自动语音 鉴别(ASR)领域启示的 步骤 。
该 步骤同样 模仿了给定延续多通道 工夫序列下,预测离散字符输出序列的 使命 。为了给 emg2qwerty 构建 壮大的基线,Meta 尝试了 别致的网络架构、不同的训练损失以及语言模型的 使用,始终关注表面肌电图数据的独特领域 特色要求 。
探究发现,在 100 个消费者的规模上, 只管生理、解剖、行为、带 宽容小和传感器 搁置存在差别,消费者间的泛化 依然可浮现 。
当 使用大概半小时的个体消费者打字数据来个性化模型时,性能的进一步 晋升随之而来 。通过整合语言模型来优化 后果,可将字符 舛误率降至 10% 以下 —— 这个值被认为是一个使文本模型可用的 要害阈值 。
随着数据集的添加, 类似语言模型中的 Scaling Law 将会生效,从而使得对消费者输入的预测更加精确 。
emg2pose 姿势估量:可 彻底预测消费者的手部配置
另一个名为 emg2pose 的数据集,旨在解决肌电信号与手部运动中间的映射问题,这关于人机交互、 痊愈工程和 虚构 事实等领域 存在重要 意思 。
该数据集包含来自 193 名 参加者的 370 小时 sEMG 和手部 姿势数据,从 29 个不同的行为组中采集,包含拳头、从一数到五等很多动作 。
数据集包含 25253 个 HDF5 文件, 总计达到 431GB 。每个文件包含 工夫对齐的 2kHz 表面肌电图数据和单手在单一阶段的关节角度 。
手部 姿势标签是通过高分辩率动作 捉拿阵列生成的 。 完全数据集包含超过 8000 万个 姿势标签,其等效规模已经 能够与最大的计算机视觉数据集比肩 。
emg2pose 数据集构成:a) sEMG-RD 腕带和动作 捉拿标记(白色圆点)设置 b)?数据集分解;i)消费者被 揭示执行一系列动作类型(手势),如上下计数,同时记录 sEMG 和 姿势 ii)?特定手势类型的组合构成一个阶段
emg2pose 数据集的重要特色在于其高频率的表面肌电图记录(2kHz)与精确的动作 捉拿数据相 联合,提供了对手部 细微运动的 深刻洞察 。
此外,数据集包含 详尽的元数据,如消费者 ID、会话、阶段、手部侧向、是不是移动等,便于进行多样化的 综合和 试验 。数据集还提供了训练、测试和验证的划分, 支撑多种泛化类型的探究,包含跨消费者、跨阶段以及跨消费者和阶段的泛化 。
在基准测试中,emg2pose 还提供了 存在竞争力的基线和 存在 挑战性的 使命,这些 使命评估了在排除消费者、传感器 搁置和手势 姿势方面的物理世界泛化场景 。
该探究还介绍了一种新的最先进模型,用于从表面肌电图进行 姿势估量的 vemg2pose 模型,通过整合对 姿势速度的预测来重建手势 姿势 。
探究人员将 emg2pose 以及另外两种当代基线用于 sEMG 的 姿势估量,并 综合了它们在泛化条件下的性能 。 后果显示:emg2pose 模型在对不同消费者的数据集进行预测时,仅显示 1 厘米误差,从而在 宽泛的运动 规模内实现了高保真跟踪 。
emg2pose 不只 晋升了动作 鉴别的精确性,还为手势操纵、 痊愈 医治等有潜在的 利用可能 。
在医疗 痊愈领域,通过 综合患者的 sEMG 信号, 能够实时监测和评估手部 性能的 复原状况,为个性化 痊愈 方案的 制订提供科学根据;
在人机交互领域,该数据集 支撑开发更加自然和精准的手势操纵系统, 晋升消费者体验;
此外,emg2pose 还可 利用于 虚构 事实和 加强 事实技术中,实现更加 真切的手部动作 捉拿和交互 。