【国盛计算机】手机Agent的两种范式:API与GUI

  手机Agent,挪动交互范式的跃迁。自触控屏幕开启挪动互联网黄金时间今后,App被安排为一个个独立的孤岛,用户通过点击图标进入特定的使用境况,凭借视觉和手动点击来告竣劳动。跟着使用数目的增进和效力的堆叠,用户正在分别App间切换、寻找效力入口、手动搬运数据的本钱明显上升。跟着大模子的冲破性发扬,挪动交互范式正处于跃迁的前夕:从GUI交互向Agentic交互演进。用户只需通过自然措辞外达念做什么,手机Agent便担当将妄念转化为整体的实践步调并交付结果。怎么正在碎片化的挪动生态中让AI逾越使用围墙实践劳动,业界目前有两条分别的手艺途径:

  API范式:筑造规范化的语义接口,App开拓者主动适配并展现相应效力。Agent通过布局化的API挪用来指派App实践劳动,以苹果的Apple Intelligence及其App Intents框架为样板代外。

  GUI范式:运用众模态模子看懂屏幕上的UI元素,运用编制辅助任事模仿手指的点击与滑动。这一起线不依赖开拓者的配合,试图以通用的视觉才气“暴力”打通悉数使用。智谱AI的AutoGLM和字节跳动的豆包手机助手是这一起线的前卫。

  重点不同比拟,API Agent与GUI Agent各有所长。比拟了两种范式的手艺途径不同,GUI Agent的重点上风正在于通用性高,正在牢靠性、机能、隐私危险角度则是API Agent更胜一筹。1)通用性: GUI Agent的通用性明显更高,这是重点上风,不需求App 开拓者实行适配。外面上只须是人类也许操纵的 App,GUI-Agent 都能操纵。处理了使用笼罩率的题目,新效力或未展现效力的适配度也更高。2)牢靠性;GUI Agent的牢靠性还是较低。来历征求模子对杂乱界面的识别才气还达不到百分百;需求众步调模仿用户操作,举座劳动凋零率更高;UI 改版时容易失效。3)机能:API Agent 可能一次挪用告竣杂乱劳动,后端直接驱动实践恶果高。GUI Agent机能较低,告竣方便劳动能够需求众次截图剖判、视觉推理等杂乱算计,算力泯灭更大。截图上传到云端模子时,数据量寻常高于API传输参数,延迟也更高。4)隐私危险:API-Agent 的使用端后台可实行精美的数据和权限治理,权限畛域明确。GUI-Agent 的隐私危险较高。它需求读取屏幕内容,容易展现闲话记实、暗码、验证码等敏锐音讯。除了手艺题目,贸易阻力上咱们以为GUI Agent不原委授权,更容易受到使用厂商的抵触。

  贸易状态演变:三方博弈与生态重构。手机Agent的饱起意味着挪动互联网流量的从新洗牌,手机厂商、大模子厂商和使用厂商三方权力将伸开杂乱的博弈。手机厂商希望从硬件售卖进一步获取流量入口的价格,OS成为了用户妄念的第一授与者。相似于查找广告能够演形成一种新的竞价形式。大模子厂商的愿景是打制一个万能的App(如ChatGPT、豆包)。用户正在这个App里通过对话告竣悉数需求。把将其他App形成我方的后端数据库和东西。大模子厂商会踊跃寻求与二线手机厂商协作。字节跳动与中兴的协作即是样板案例。使用厂商,一方面能够与手机/模子厂商协作,怒放片面才气接口;另一方面,为爱护自己优点,也能够拒绝或限度Agent的接入。Agent的授权畛域是需求进一步划分的国法题目。App自己也正在Agent化,比方微信最终会推出一个AI智能体,淘宝也正在测验通过“问问”等效力正在App内告终自然措辞导购。咱们以为手机Agent的繁荣不会是API或GUI的单选题,看待高价格、涉及敏锐数据的操作(如付出、通信、重点营业流),API Agent有更高确凿凿度和隐私爱护。看待只读、音讯盘问类的需求,以及API尚未笼罩的使用,GUI Agent通过视觉明了的方法运转可能更灵敏通用。为领会决延迟和隐私题目,改日的手机处置器估计还将进一步优化视觉模子的推理才气,使GUI识别和决议正在端侧告竣,不再上传云端。

  API Agent:腾讯控股、阿里巴巴、谷歌算力:寒武纪、海光音讯、东阳光、神州数码、新易盛、中际旭创、中芯邦际、华虹半导体、胜宏科技、品高股份、鸿腾稹密、有方科技、协创数据、沪电股份、兴森科技、中科曙光、海潮音讯、东山稹密、云天励飞、伟仕佳杰、宏景科技、中芯邦际、奥飞数据、云赛智联、科华数据、禾盛新材、潍柴重机、金山云、浙数文明、青云、大位科技、玉柴邦际、亿田智能、弘信电子、圣阳股份、润泽科技、润筑股份、深桑达、优刻得、云从科技、太极股份、数据港、首都正在线。

  Agent:谷歌、阿里巴巴、腾讯控股、阜博集团、广立微、第四范式、360、汇量科技、金蝶邦际、拓尔思、合合音讯、税友股份、新致软件、金桥音讯、疾手、美图公司、鼎捷数智、慧辰股份、嘉和美康、海天瑞声、泛微搜集、朗新集团、润达医疗、壹网壹创、万兴科技、用友搜集、麦迪科技、宇信科技、京北方、中科金财、致远互联、汉得音讯、软通动力、光云科技、上海钢联、同花顺、信雅达、萤石搜集、迪安诊断、中科金财、恒生电子、星环科技、卫宁壮健、创业慧康、科大讯飞、万兴科技、创业黑马、迈富时、小商品城、金证股份、极点软件、朗新集团、晶泰控股、佳发培育、新大陆、新开普等。

  自触控屏幕开启挪动互联网黄金时间今后,图形用户界面(GUI)继续是人机交互的绝对主导。正在这一范式下,App被安排为一个个独立的孤岛,用户通过点击图标进入特定的使用境况,凭借视觉和手动点击来告竣劳动。这种以使用为核心的交互形式跟着使用数目的增进和效力的堆叠,用户正在分别App间切换、寻找效力入口、手动搬运数据的本钱明显上升。跟着大模子的冲破性发扬,挪动交互范式正处于跃迁的前夕:从GUI交互向Agentic交互演进。用户只需通过自然措辞外达念做什么,手机Agent便担当将妄念转化为整体的实践步调并交付结果。

  怎么正在封锁且碎片化的挪动操作编制中,让AI逾越使用围墙实践劳动?业界逐步瓦解出两条分别的手艺途径:

  API范式:筑造规范化的语义接口。操作编制或平台厂商界说一套通用的妄念接口(如“订票”、“发送音信”),App开拓者主动适配并展现相应效力。Agent通过布局化的API挪用来指派App实践劳动。这一起线以苹果的Apple Intelligence及其App Intents框架为样板代外,夸大生态的有序整合与隐私安然。

  GUI范式:模仿人类的感知与操作。运用众模态模子看懂屏幕上的UI元素,运用编制辅助任事模仿手指的点击与滑动。这一起线不依赖开拓者的配合,试图以通用的视觉才气“暴力”打通悉数使用。智谱AI的AutoGLM和字节跳动的豆包手机助手是这一起线的前卫。

  苹果等厂商试图正在使用之上修筑一层“语义互联网”,将App内的效力原子化,供AI调遣,这需求使用开拓者配合接入。

  苹果推出的Apple Intelligence其重点并非仅仅是一个更圆活的Siri,而是一套深度的编制级集成框架——App Intents(应故意图)。为了让 Siri 更好地明了开拓者的使用并告终更流通的对话式交互,开拓者需求采取与使用效力相立室的域和形式,开拓者通过使应故意图、使用实体或使用列举适应形式,确保 Apple Intelligence 也许明了使用的操作和内容。

  API范式的寻事正在于分别开拓者对统一个效力的界说能够千差万别。为领会决这个题目,苹果供给了众个助手架构(Assistant Schema),每个架构都对应分别的内容范围(比方浏览器、文档阅读器、文献治理等)。这些架构助助 Siri 遵照内容的类型供给定制化的反映。助手架构可能明了为一组规范化的“模板”,Apple 安排这些模板是为了助助 Siri 识别使用的整体效力。比方开拓者的使用是图片治理类的,那么操纵photos.openAsset如此的架构,可能让Siri明了要显示一张照片。

  本年10月谷歌正在安卓开拓者博客外现,开拓者可能运用新的Prompt API修筑我方的自界说天生式AI效力。本年蒲月的I/O大会上,谷歌推出了基于Gemini Nano模子的配置天生式人工智能API,通过方便的API简化了摘要、雠校和图片描摹等劳动,使常睹劳动变得更方便。

  GUI Agent最初需求“明了”屏幕。这要紧依赖于大模子的众模态明了才气,这方面才气上领先模子厂商接续冲破,近期谷歌颁发的Gemini 3 Pro的众模态明了才气就大幅发展: 模子也许处置和明了文本、图像、视频、音频以致代码等众种模态的数据,并正在这些杂乱数据之间实行推理,到达了亘古未有的细腻水准。Gemini 3 Pro正在Screen UnderStanding劳动方面发扬特别出众,正在ScreenShot-Pro评测基准得分72.7%,大幅领先Claude Sonnet 4.5(36.2%)和GPT 5.1(3.5%)。

  决议与计议:推理链与劳动拆解以及实践历程中的动态计议:明了屏幕后,Agent需求计议手脚。比方面临“助我点一杯拿铁”如此的指令,咱们以为Agent能够会将其拆解为子劳动序列:掀开App - 查找咖啡 - 采取规格- 下单,Agent每实践一步,都要动态瞻仰目今屏幕形态定夺下一步手脚,比方点击下单后,能够弹出一个优惠券,也能够提示售罄。案例:智谱AutoGLM

  2025年8月20日,北京AI公司“智谱 AI”发外,旧年颁发的环球首个可自立操作手机的智能体产物AutoGLM再次升级,推出AutoGLM2.0,并迈出更具史乘意旨的一步——初度面向公家所有怒放,无需邀请码即可操纵。此次颁发的AutoGLM2.0被定位为“实践型助手”。 正在生涯场景中,用户一句话即可让AutoGLM操作抖音、小红书、美团、京东等40余款使用,告竣点餐、订票、查房、预定等任事。正在办公场景中,它也能跨使用实践完备流程,从检索材料到撰写文稿,再到天生视频、PPT或播客,并直接告竣颁发。

  2025年12月1日,字节颁发豆包手机助手预览版。这是一个面向手机厂商的编制级任事,它将豆包大模子深度融入操作编制,让用户只需动嘴(或动一下手指),就能指派手机去实践那些正本需重点击几十次屏幕的繁琐操作。效力征求跨平台比价点外卖、搜小红书做攻略等。豆包手机助手的主力研发团队,是字节担当 AI 硬件的 Ocean,它附属于字节 AI 产物大部分 Flow,要紧成员来自字节众年来先后收购的少许硬件产物团队,如锤子手机、VR 头显 PICO、智能耳机 Ola Dance 等,以及近年到场字节的手机、硬件从业者。这款豆包与中兴协作的手机已正在豆包手机助手官网及中兴商城上架,售价 3499 元。这款手机只是豆包手机助手的 “打样”。字节正和众家手机厂商道协作。

  正在与中兴努比亚(Nubia Z60 Ultra)的协作中,豆包助手被整合进编制底层。通过长按侧边键叫醒,豆包可能直接获取编制底层的屏幕缓冲区数据,无需通过Accessibility任事的截屏接口,大大低浸了延迟。

  豆包手机助手激发了被操作App的抗拒。据上观报道,12月3日,众位网友正在社交平台上反应,搭载豆包助手的努比亚M153工程机登录微信时,页面弹出“登录境况特殊,需转换配置从新登录”的告诫。片面用户转换账号后虽能偶然登录,但传输闲话记实时再次被强制下线。更症结的是,若通过豆包助手操作微信效力(如发送音信),编制直接提示“劳动凋零”,并标注“测验室效力暂不维持微信操作”。其它,12月3日上午,又有片面操纵“豆包AI手机”的用户反应,因操纵豆包手机助手操作微信,微信账号被封禁了。午时12时足下,被封禁的微信延续被解封,可能平常登岸,但无法操纵豆包助手实行微信上的自愿化操作。另据网友正在社交媒体上反应,我方正在操纵豆包AI手机助手的时间遭到了农行、筑行等APP内的强弹窗指示,恳求紧闭豆包AI手机助手后再实行操纵。

  遵照以上对API Agent和GUI Agent手艺途径的剖判,咱们比拟了两种范式的不同,GUI Agent的重点上风正在于通用性高,正在牢靠性、机能、隐私危险角度则是API Agent更胜一筹。除了手艺题目,贸易阻力上咱们以为GUI Agent更容易受到使用厂商的抵触。

  手机Agent的饱起意味着挪动互联网流量的从新洗牌,手机厂商、大模子厂商和使用厂商三方权力将伸开杂乱的博弈。手机厂商:从硬件售卖到获取流量入口的价格

  正在App时间,用户掀开手机直接点击App,OS只是一层启动器。正在Agent时间,用户直接告诉OS“我要打车”,OS定夺唤起哪个App。OS成为了妄念的第一授与者。相似于查找广告。当用户外达订栈房妄念时,携程、飞猪、美团谁排正在第一位?这能够演形成一种新的竞价形式。

  大模子等厂商的愿景是打制一个万能的App(如ChatGPT、豆包)。用户正在这个App里通过对话告竣悉数需求。可能明了为念把将其他App形成我方的后端数据库和东西。

  合纵连横:为了得回编制级权限,大模子厂商踊跃寻求与二线手机厂商协作。字节跳动与中兴的协作即是样板案例。使用厂商:数据护城河的庇护战

  看待App厂商,一方面能够与手机/模子厂商协作,怒放片面才气接口;另一方面,为爱护自己优点,也能够拒绝或限度Agent的接入。

  对外经济营业大学法学院熏陶、数字经济与国法改进探索核心主任许可先容了爆发正在美邦的Perplexity案。该案中,被告Perplexity是一家AI公司,其通过亚马逊付费会员账号助助用户购物,被亚马逊指控违法并给自己变成贸易亏损。Perplexity则成睹我方是“用户授权的代劳人”,以为亚马逊的指控是一种霸凌。许可指出,该案重点争议响应了一种国法逆境:AI助手声称是用户权益延迟,但平台以为其行径捣鬼了贸易生态和安然程序。“正在许众情状下,用户权柄安静台权柄都需求商酌,需求双重授权乃至众重授权。”许可说。

  App自己也正在Agent化。正在腾讯2025年第三季度财报电话会上,腾讯总裁刘炽平披露微信AI化计谋,真切外现“微信最终会推出一个AI智能体”,让用户正在生态内即可告竣从需求明了到任事交付的全流程。淘宝也正在测验通过“问问”等效力,正在App内告终自然措辞导购。

  预计改日,咱们以为手机Agent的繁荣不会是API或GUI的单选题,而是两者的调和。看待高价格、涉及敏锐数据的操作(如付出、通信、重点营业流),APIAgent有更高确凿凿度和隐私爱护。看待只读、音讯盘问类的需求,以及API尚未笼罩的使用,GUI Agent通过视觉明了的方法运转可能更灵敏通用。为领会决延迟和隐私题目,改日的手机处置器估计还将进一步优化视觉模子的推理才气,使GUI识别和决议正在端侧告竣,不再上传云端。

  API Agent:腾讯控股、阿里巴巴、谷歌。算力:寒武纪、海光音讯、东阳光、神州数码、新易盛、中际旭创、中芯邦际、华虹半导体、胜宏科技、品高股份、鸿腾稹密、有方科技、协创数据、沪电股份、兴森科技、中科曙光、海潮音讯、东山稹密、云天励飞、伟仕佳杰、宏景科技、中芯邦际、奥飞数据、云赛智联、科华数据、禾盛新材、潍柴重机、金山云、浙数文明、青云、大位科技、玉柴邦际、亿田智能、弘信电子、圣阳股份、润泽科技、润筑股份、深桑达、优刻得、云从科技、太极股份、数据港、首都正在线。

  Agent:谷歌、阿里巴巴、腾讯控股、阜博集团、广立微、第四范式、360、汇量科技、金蝶邦际、拓尔思、合合音讯、税友股份、新致软件、金桥音讯、疾手、美图公司、鼎捷数智、慧辰股份、嘉和美康、海天瑞声、泛微搜集、朗新集团、润达医疗、壹网壹创、万兴科技、用友搜集、麦迪科技、宇信科技、京北方、中科金财、致远互联、汉得音讯、软通动力、光云科技、上海钢联、同花顺、信雅达、萤石搜集、迪安诊断、中科金财、恒生电子、星环科技、卫宁壮健、创业慧康、科大讯飞、万兴科技、创业黑马、迈富时、小商品城、金证股份、极点软件、朗新集团、晶泰控股、佳发培育、新大陆、新开普等。

  行业比赛加剧危险:若干系企业加疾手艺迭代和使用组织,举座行业比赛水准加剧,将会对目前行业内企业的增进出现威逼。

  卓殊声明:《证券期货投资者相宜性治理法子》于2017年7月1日起正式奉行。通过微信花式制制的本材料仅面向邦盛证券客户中的专业投资者。请勿对本材料实行任何花式的转发。若您非邦盛证券客户中的专业投资者,为担保任事质地、把握投资危险,请撤除合怀,请勿订阅、承受或操纵本材料中的任何音讯。因本订阅号难以树立拜候权限,若给您变成未便,烦请睹谅!感动您予以的明了和配合。

  要紧声明:本订阅号是邦盛证券算计机团队设立的。本订阅号不是邦盛算计机团队探索告诉的颁发平台。本订阅号所载的音讯仅面向专业投资机构,仅供正在新媒体配景下探索看法的实时互换。本订阅号所载的音讯均摘编自邦盛证券探索所仍然颁发的探索告诉或者系对已颁发告诉的后续解读,若因对告诉的摘编而出现歧义,应以报密告布当日的完备内容为准。本材料仅代外报密告布当日的剖断,干系的剖判主张及推求可正在不发出通告的情况下做出更改,读者参考时还须实时跟踪后续最新的探索发扬。

  本材料不组成对整体证券正在整体价位、整体时点、整体商场发扬的剖断或投资提议,不也许等同于辅导整体投资的操作性主张,浅显的个体投资者若操纵本材料,有能够会因缺乏解读任事而对告诉中的症结假设、评级、方向价等内容产心理解上的歧义,进而变成投资亏损。是以个体投资者还须寻求专业投资参谋的辅导。本材料仅供参考之用,授与人不应纯真凭借本材料的音讯而庖代自己的独立剖断,应自立作出投资决议并自行经受投资危险。