基于通义深度定制场景专属大模型雷鸟AR眼镜反应速度提升一倍 创新场景

发布日期: 2025-06-10

  本文摘自《云栖计谋参考》,这本刊物由阿里云与钛媒体拉拢筹划。宗旨是为了把各个行业先行者的技艺寻找、交易试验大白出来,与思虑同样题目的“数字先行者”联合探究、碰撞,祈望这些内容能让你有所引导。

  AR(Augmented Reality,巩固实际)眼镜,被以为是代替手机成为下一个超等终端的有力夺取者。这两年,伴跟着 Meta、苹果等巨头的入局和鼎力参加,加上供应链的成熟,AR 眼镜也被更众人所合切,成为这一波 XR(Extended Reality,扩体现实)高潮中的最大受益者。

  而正在同暂时期,AI 大模子的横空降生和神速迭代,成为第四次工业革命的引擎,厘革各行各业,立异着全新的贸易形式。

  2024 年下半年,不带显示的 AI 眼镜包括全豹科技行业,估计他日市集范畴超千亿美金。AI 眼镜的爆火,也让更众人深信,“下一个 iPhone 工夫,由 AI+AR 创造”。

  然而行为相接物理宇宙与数字宇宙的桥梁,AI+AR 不是做方便的 1+1 加法题,AR 的场景很丰富也很独特,对反映的速率以及交互的办法都有着更高的恳求。

  行为邦内第一梯队的 AR 眼镜公司,雷鸟立异平素正在做 AI 与 AR 的调和研发就业,并正在 AI 生态上参加了大宗的人力和物力,去寻找 AI+AR 的最佳调和办法。针对当下 AR 产物显现的 AI 体验不佳的题目,雷鸟立异与阿里云一同,寻找走出了一条智能化配合立异共赢之道。

  比拟较手机、PC 等古板终端,AR 兴盛的光阴并不长,近几年才将落地产物推向大家市集。而奉陪战略支撑和 AI 大模子的加快兴盛和落地,消费电子行业迎来了新一轮的兴盛机缘。

  来自机构统计的数据显示,2024 年上半年,邦内消费级 AR 兴办销量同比拉长 49%,反响出市集对 AR 的普遍承认。众家 AR 公司有劲人也不止一次正在公然场面显示,AR 眼镜会是 AI 的理念载体,正在空间推算时期中,将会体现出特殊的价格和潜力。

  IDC 见解以为,AI 正在硬件搭载上有许众选拔,手机、PC、AR 眼镜都是好的载体。然而关于 AR 这种轻量级硬件来说,AI 的参与会极大丰饶 AR 的行使场景,更加是正在糊口助手类的行使中,都市使得其操纵的便捷性、确切性取得明明擢升。

  中商财富钻探院也正在陈说中显示,正在 AR 兴办中,AI 技艺可能助助兴办更好地明确用户的妄念、作为和境遇,从而供给加倍本性化的体验。跟着干系技艺旅途的慢慢成熟,他日 AI+AR 眼镜希望跑通作用擢升类场景,向消费级放量,AI+AR眼镜希望正在短期杀青百万出货量,中期杀青万万出货量,AI+AR 眼镜他日希望成为下一个过亿的立异终端产物。

  雷鸟立异可能说是邦内 AR 财富的最早一批探道者,创立至今已有三年众的光阴,用了不到一年的光阴就做到了中邦消费级 AR 市集拥有率的第一名,正在对 AI+AR 的寻找上也是处于前哨,并众次正在公然场面证实公司正在 AI 与 AR 调和上的勤奋。

  雷鸟立异创始人兼 CEO 李高大以为,“AR 眼镜将付与 AI 与人类高度一律的感官本领,并使得 AI 真正成为人们的‘外脑’,巩固人们对视觉消息、音频消息的执掌本领。AI+AR 会是行业的一个很苛重的趋向。咱们深信,他日 2-3 年 AI 带来的最苛重的新硬件便是 AR 眼镜,下一个 iPhone 工夫由 AI+AR 来创造。”

  过去,AR 眼镜固然能同时大白数字与物理宇宙,但二者是阻隔的,没有交互,也没有联动性。正在 AI 兴盛的初期,其更众的是被行使正在少许软件优化等根基行使上,并没有直接串联起物理与数字宇宙。

  而这两年,AI 兴盛的速率越过任何史乘时代,功能也有了极大的擢升,主动性和行使的场景也更众、更长远。

  有了 AI 大模子的融入,AR 不光能大白实际与虚拟宇宙,更能借助 AI 与算法去接受和驱动数字宇宙,并与物理宇宙变成相接,与你正在实际中看到的场景举办交互,看你所看,听你所听,正在你面前,正在你耳边,重构咱们的视听宇宙。

  就像李高大说的那样,“AI+AR 的调和,不光可能杀青过去手机的场景,还可能成为极度好用的 AI 聪颖助手,更苛重的是,它们会杀青虚拟与实际的深度调和,带来全豹宇宙的数字化。”

  正在明晰了 AI+AR 的兴盛旅途后,2024 年有众家 AR 企业发端了产物与 AI 调和的落地以及新思虑。

  一个极度明明的信号是,正在年合这段光阴,行为承托 AR 眼镜的 AI 眼镜产物频发,不光有雷鸟立异如许的笔直厂商的参与,也有创业者以及大模子企业的入局。

  入局者浩繁,产物也许众,然而,真正能直击用户,连通数字宇宙和物理宇宙的很少。这里一个合节的题目正在于,AI 与 AR 的调和不是方便的去做加法,大模子的选拔以及场景化深度优化相当苛重。就相同是苹果的 Siri 一律,因为有许众场景的题目答复不了,以是被许众人弃用。

  李高大也指出,跟大模子对话也是一律,即使不行做到 80% 以上确实切率的话,那行家也就无须了。即使用 AR 眼镜来识别道牌或者采用,只要一半概率能识别出来,也很影响用户的心绪。用户正在产物体验上面,要的极度苛重的一个的东西便是确定性。就比如你发个微信讯息给对方,即使只要 50% 的概率能收到,那这个产物坚信没人要。

  “咱们须要占定的便是谁正在大模子上面会长远处于向导者名望,这也是选拔和阿里通义配合的起因之一。”

  个中,Qwen2.5 全系列模子正在 18T Tokens 数据进取行预操练,比拟 Qwen2,整个功能擢升 18% 以上,具有更众常识、更强编程和数学本领。视觉叙话模子 Qwen-VL-72B 具备自决操作手机和机械人的视觉智能体本领。大范畴音频叙话模子 Qwen-Audio,语音闲谈个人调和了语音识别和自然叙话明确,不须要众个模子举办接连,杀青了端到端大模子,可能识别音乐、心情、境遇声响等。

  AR 眼镜正在搭载了通义千问杰出的众模态识别本领之后,图像、文字、视频和音频等众种输入式样都可能被及时执掌。

  例如,用户正在道边看到了一栋兴办或者是不领悟的植物,通义借助 AR 眼镜的摄像头便可能识别用户看到的物体,对其举办先容。关于用户面前所看到的物理宇宙,通义也可能举办描写,不光可能助助用户长远明了目下所处的境遇,也能助助视障人群看到面前的宇宙。

  同时,AR 眼镜正在有了通义大模子的加持后,还可能杀青即时翻译,支撑中文与英语、日语、韩语、法语、德语、俄语等众邦叙话互译。即使用户身处不懂的邦度,也能从容与本地人举办交换,擢升疏通的作用。

  雷鸟立异选拔通义,尚有一个更苛重的起因,便是两边都戮力于杀青虚拟宇宙与实际宇宙的深度调和,甘心面向用户做深度的研发参加。换句话说,有许众款通用大模子都很突出,然而正在 AR 眼镜上的体验并不佳,合节就正在于大模子没有针对 AR 眼镜的需求做深度的定制和成家。

  李高大显示,“许众 AR 厂商做的仅仅便是把大模子接进来,这是不成的。现正在的通用大模子确实可能做许众事变,然而关于 AR 上涉及的场景,做的还不敷长远不敷好。咱们看好阿里云通义大模子的现正在和他日,而且两边也都有一个共鸣,那便是不行说正在 AR 眼镜上放一个通用大模子就行了,要针对 AR 的场景去做定制和适配,把它培育成一个很契合这个行使场景的大模子,让 AR 眼镜真正长远到用户的通常糊口之中。”

  2025 年 1 月 7 日 CES 时期,雷鸟立异正式宣告雷鸟 V3 AI 拍摄眼镜。这款新品上搭载了其与阿里云通义联合打制的业内首个特意面向智能眼镜的 AI 大模子。这必然制化模子不光能更好地明确眼镜场景下的用户需求,还能为 Agent 供给更精准的常识支撑和决定凭借,从根底上擢升了 AI 眼镜的交互体验。

  得益于此,雷鸟 V3 的 AI 均匀呼应速率为 1.3s,远超 Ray-BanMeta 及其他接入通用模子的 AI 眼镜;V3 的 AI 识别确切率高达 98%,可称为用户真正万能的百科助手。正在此根基上,雷鸟 V3 还将联贯上线 RayNeo 电台、寻找视界 2.0、手机知照 AI 总结播报、QQ 音乐点播、AI 音信播客、全场景灌音总结、支小宝扫码付出等丰饶性能,让 AI 真正办事于用户的通常糊口。

  之后,雷鸟立异安顿正在第二季度宣告的 AR 眼镜 X3 Pro,也将搭载与阿里云深度定制和调和后的通义大模子。

  正在产物研发时期,两边都参加了大宗的人力和物力,针对详细的场景去做操练和提问,对硬件端侧的模子举办优化,从而去成家 AR 场景下的需求。

  例如 AI 翻译,惯例的通用大模子更众的是依据采纳到的叙话消息去做简单的翻译,然而正在详细的场景连结上没有长远调和,会导致有时翻译的内容会显得很生疏。另外,速率是翻译很苛重的目标,即使仅仅是接入现有的通用大模子,整个的体验并不会很顺畅。

  为了擢升 AI 的体验,雷鸟立异和阿里通义做了众方面的操练就业。一方面,是做了速率上的擢升,比拟较于目下市情上通用大模子翻译,搭载了定制通义大模子的 RayNeo AI 的反映速率擢升起码一倍。

  另一方面,除了速率之外,通义还针对游览、点餐、购物等众个细分场景做了优化,借助 AR 眼镜去识别目下的境遇、对话人的神志、手势等众个消息源,更好地明确用户的操纵场景,从而给出更确切的翻译结果。

  视觉也是一律,AI+AR 要接受物理宇宙,要做到的第一点便是可能对实际宇宙的场景举办确切的反应。然而,物理宇宙是相当丰富的,例如道牌,有各样材质、巨细,分别光泽下反光的水平也纷歧律。为了升高识别确实切率,阿里云和雷鸟立异一同做了增量的操练,通过不停地搜罗操练和优化,擢升丰富场景下的识别确切率。

  此外,尚有 AR 眼镜的 AI 聪颖助手,也是一个众消息输入的场景,须要做一个新的分类模子,针对分别的指令做出低延迟质地高的呼应。

  当然,以上所说的只是个人场景,他日雷鸟立异和阿里通义还会针对更众的细分场景去做好底层的优化,从而真正杀青“接受数字宇宙,改动物理宇宙”。

  当下,AR 正处于繁荣兴盛的阶段,但仍处于上半场的初期。并且,AI+AR 是为数不众正在上半场就由中邦厂商深度参加乃至是主导的财富。

  雷鸟立异与阿里云正在 AI+AR 上的深度配合,会进一步加深用户对 AI 落地场景的感想和明确,激动 AR 走向大家市集,相接数字宇宙和物理宇宙。

  叙及与阿里云的配合,李高大显示,AI 正在新的场景下,正在物理宇宙的落地进入到了一个合节时代,阿里云所做的全部极度好也很有价格,咱们跟阿里云的配合也开创了这个行业的一个新形式。他日的准则也会被从头修树,那便是 AR 接入的大模子要可能做深度的定制化和从头操练,从而餍足场景化需求。

  只是,目前所做的场景寻找仍是不敷的,伴跟着技艺的擢升,以及 AR 正在更众场景的寻找,AI+AR 尚有进一步骤和的空间。例如正在对话翻译时,能否将字幕显示正在对方的嘴边?“戴上 AR 眼镜之后,每片面发言的工夫,嘴边都市显示一个对话框,就像是逛戏里的场景一律,能看到发言人的叙话,与全宇宙各地的人都能无阻拦交换。”李高大说道。

  他还以为,有了 AI 的加成,AR 眼镜他日不光可能明确文字、图片和视频,还能明确空间,从而可能做内幕调和的逛戏了,例如跑步的工夫搜罗金币。

  此外,跟着大模子落地不停深化,端侧行使成为趋向,手机、PC 已有 AI 大模子端侧行使的试验。日前,阿里云就将“通义千问”大模子安插正在联发科的 SoC 上,通过量化、参数剪枝和常识蒸馏等众种技艺要领减小模子体积。正在端云协同技艺的激动下,带来了低延迟、 隐私维护、离线本领、俭约带宽和及时执掌这五大上风。

  关于 AR 眼镜来说,因为体积、续航等方面的控制,目前端侧大模子的行使还正在寻找中,例如谨慎地选拔参数目,要归纳功耗与功能去做更众的钻探,这也是他日雷鸟立异和阿里云去联合团结治理的题目。一朝落地,AR 眼镜会更疾地响行使户的指令,端云协同技艺通过正在兴办端执掌敏锐数据,将大幅擢升 AR 眼镜用户的数据太平性和隐私性。

  场景正在变动,趋向和需求正在变动,但稳固的是数字宇宙与物理宇宙的加快调和。关于雷鸟立异和阿里云来说,AI+AR目前仍正在前半程,二者的调和还要不停的精进。