公告:为给大家更好的使用体验,同城网今日将系统升级,页面可能会出现不稳定状态,由此给您带来的不便,敬请谅解!
升级时间:2016-7-24 11:00 -- 2016-7-24 15:00

澳洲同城网

查看: 7597|回复: 0
打印 上一主题 下一主题

自己玩不转?苹果找“搭子”,地主家也搞不定AI了?(组图)

[复制链接]

32万

主题

19

金豆

25万

积分

网站编辑

Rank: 8Rank: 8

性别
保密
积分
256690
金豆
19
鲜花
0
主题
320719
帖子
320720
注册时间
2019-12-26
跳转到指定楼层
楼主
发表于 2024-4-11 16:30:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式 来自: INNA

马上注册,结交更多同城好友,享用更多功能!

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
最近,苹果遇到的事儿挺多的,不过都不是什么好事。 首先是在3月底,美国司法部挥舞着反垄断的大棒,给苹果来了一记重击,指控它搞封闭生态系统,限制竞争对手。 这事儿一出,苹果股价那是“嗖”的一声, 市值缩水了934亿美元,折合人民币约6724亿, 简直比A股的过山车还刺激!


紧接着,外界又有传闻称,苹果竟然还悄咪咪地跟谷歌和百度勾搭上了,打算在今年发布的iPhone16、Mac系统和ios18中,使用谷歌的双子座作为英文AI, 使用百度的文心一言作为中文AI,把两家的AI技术整合到Siri里。 当然这只是一条传闻啦。 不过,这两桩看似不相关的事,其实背后都绕不开同一个主题——那就是AI。


在2024年,哪个科技巨头敢说自己离得了AI?苹果也不例外,但让库克有些发愁的是,面对汹涌而来的AI大势,苹果自身在AI方面的进展,却不怎么明朗,甚至到现在连自家大模型都没真正弄出来。 于是才有了苹果破天荒地打算让别家的AI,进入自家的封闭系统的传闻。 尽管这事儿目前还真假未定,但苹果在AI方面滞后的情况,却让库克不得不深思,倘若这次的生成式AI,真的会带来一场手机领域的颠覆性变革,那苹果的处境就危险了。


到了那时,即使没有司法部的制裁,苹果自家的封闭生态,也迟早会在其他AI的围攻下逐渐崩解。——因为用户不会接受一个没有好AI的手机。 那么,手机与AI的结合,到底有没有人们想象中的那么重要呢? 噱头or变革? 讲真,关于手机AI这件事,其实很多大厂都已经开始了布局。 例如三星发布Galaxy S24系列产品引入“Galaxy AI”;小米的澎湃OS融入AI大模型能力,OPPO发布“首款端侧应用70亿参数AI大模型手机”——OPPO Find X7 Ultra;荣耀在Magic6系列新机上置入自研70亿参数AI大模型——“魔法大模型”。 然而,这一系列火热表象的背后,却是手机AI雷声大雨点小的情况,现阶段,似乎很少有用户将手机AI当成换机的动力。 究其原因,还是 目前手机AI能干的事儿,实在太少了 ——而且干得往往还不如云端AI好。 现在的各种手机AI,新增的功能无非就是图像生成,照片消除,以及文档摘要,语音通话总结,语音翻译等等。


但这些功能,实际上不用内置的大模型,第三方App联网的云端AI也能完成…… 而那些内置于手机的AI,由于端侧硬件的限制,往往参数很小,发挥不了与云端AI等效的性能。 就比如语音翻译功能,手机端侧的AI可能可以快那么两秒钟,但翻译出来的话狗屁不通,那还不如等一下联网翻译呢。 所以,一个直击灵魂的问题来了: 手机AI存在的意义,究竟是什么?


关于这个问题,最近苹果披露的一篇技术论文,似乎提供了某种可能的答案。 在这篇名为《ReALM: Reference Resolution As Language Modeling》的论文中,苹果不但发布了自家的最新模型ReALM,而且还提出了一种新颖的思路: 让AI将屏幕上的东西都转化成文字,然后让语言模型去理解。


具体来说,ReALM在运作过程中,会先通过视觉技术识别屏幕上的各种元素,例如按钮、图标、文本框等。之后,再对这些实体进行编码,记录每个元素的确切位置和它们的关系。 最后,AI会将这些实体和位置信息,转换成详细的文本描述,并输入语言模型,让其学会解析用户的指令。 例如,你现在在手机上用微信聊天,AI就能把聊天框里所有的记录、文件,和它们在屏幕上的位置都记下来,转化成一段话,比如“聊天框中部有个连接,是一篇关于自动驾驶的文章”。


换句话说,有了这个技术, 你无论在屏幕上干什么,甚至在想什么,都逃不过AI的法眼。 并且,因为AI有了和你“同时观看”屏幕的能力,所以在交互的时候,即使有些指令说得模糊,或者不太清晰,AI也能理解你在指的是什么。 比如你跟AI说,“刚才视频的那个东西是什么?”,AI就能知道“那个”是指的是苹果还是香蕉,这就是所谓的 “实体参考解析” 。


根据论文,研究者将来还打算探索更精细的空间编码技术,比如用一种更高级的方法来“画”屏幕,就像用网格一样标出每个东西在哪儿。 在此基础上,研究者还想让模型拥有记忆,“记住”和用户在一段时间内的交互历史,并结合这些“记忆”来解析当前的查询。 那诸如此类的功能,将来应用在手机上,究竟能发挥怎样的功效呢? 一种可能的答案,就是用来针对某些 信息密集型APP 在使用过程中的 复杂查询 。 手机AI的三个阶段 什么是信息密集型APP?简单来说,就是那种用起来会生成、处理或者显示一大堆信息的应用程序。 例如某些社交媒体APP,像微博、微信那样的,每天得有几百万人在上面发状态,有数不清的文章、动态要看,回不完的消息在显示。


再就是某些电商APP,比如淘宝、京东,上面有成千上万的商品信息,每个商品都有自己的图片、价格、评价、销量等等。 针对这些APP,简单的摘要、总结,或是图片识别等功能,显然是不够用了,因为在使用这些APP进行信息筛选的过程中,人们常常会遇到那些 不是一两句话就能说清楚的问题, 或者是那种 需要绕几个弯才能搞明白的请求。


举例来说,假设你在视频APP上看了一部科幻电影,觉得特效特别棒,于是就问:“这部电影的特效用的是什么技术?” 又或者,有时你想起在微信上看过的一篇公众号文章,觉得其中有一句话很有意思,但想不起文章名了,只能大概地说:“我想找一篇关于问界汽车的文章,里面好像提到了自动驾驶”。 这样的需求,就叫做“复杂查询”。 如果说,现阶段各类手机AI所具有的总结、摘要,以及AI照片消除等功能,是 AI在手机上较为初级的第一阶段, 那么这种针对密集信息进行复杂查询的AI,则代表了将来 AI在手机上进阶的第二阶段。 而这第二个阶段,也在某种程度上解释了,为什么AI大模型非得内置在手机系统里,因为 只有一个内置在系统中的AI,才能进行跨应用,跨平台的功能调用, 从而让AI的触手伸向每一个APP。 但如果只是做到了这点,其实还不足以完全颠覆各大互联网巨头打造的APP孤岛,因为各个APP,实际上也可以通过在应用内置AI的方式,在一定程度上实现这样的复杂查询(实际上,某些APP,例如B站,已经开始尝试那么做了)。 真正对当前手机生态造成颠覆性影响的,或许是 手机AI的第三个阶段 ,也就是AI在手机上通过AI智能体(Agent)技术实现各种自动化操作,并初步建立起一种 轻量级人 机融合 的阶段。 举两个简单的例子,比如我们卖飞机票订酒店,很多时候携程、飞猪等等平台里面的价格都是不一样的,能不能让手机上的AI智能体跨平台总结三个合适的选项让我做最终决定? 或者说,我一觉醒来,微信里面诸位大佬发了好几百条朋友圈,我没时间一一去看,能不能让我的手机自己去帮我看,如果朋友分享的是好事,就鼓励互动一番? 做到这些的前提就是手机要足够了解我。 也这就需要通过前面提到的类似ReALM的技术,让手机AI可以在伴随用户的过程中,通过观察屏幕上的各种操作,分析和总结出一个人使用手机时既定的行为模式,之后再结合机器学习算法, 建立起每个用户的个人大脑/思维模型。


之后,再将这样的模型,与Agent技术结合,从而在手机上实现一种更为自动化、个性化的操作。 这也是当前的大模型,走向手机、PC,以及所有个人化终端最大的意义之一。 人机融合 与马斯克的脑机接口有点类似,手机AI与个人思维、习惯的结合,本质上也是 让手机作为人体一种延伸出来的“器官”或“义体”, 去实现人类现有的思维和肉体难以实现的操作。 例如同时写好几份报告、文章,还能同时刷视频,逛淘宝啥的。 那具体怎么才能实现这点?前面提到的 Agent技术 就成了关键。 今年2月,由北京交通大学和阿里的研究人员共同发布的一项研究成果,就揭示了将来在手机上实现这种全自动操作的可能。


简单来说,在这个研究里,这个叫做 Mobile-Agent 的智能体助手,用了一种特别的“视力检查”技术,能认出屏幕上的字啊、图标啊这些东西,有点类似于前面苹果的ReALM技术。 但比苹果的技术更进一步的是,这个智能体在识别屏幕的基础上,还具备了 自主规划的能力。 在测试中,用户想让它在Youtube上找金州勇士队当家球星,小球时代的开创者,两届MVP得主斯蒂芬·库里的视频,并在下面发表个评论,它还真的就在 全程无人为控制 的情况下完成了这些操作,而且没有任何错误。


同样地,即使是面对某些操作多App 的要求,它也能得心应手。 例如用户让它查询今天的比赛结果,然后根据结果写一个新闻。Mobile-Agent接到任务后,先在浏览器App里找到了比赛的比分,接着,它退出了浏览器,打开了记事本App。最后,它把比分写了下来,还按照新闻的样子给整理了一下。


而Mobile-Agent之所以能实现这种多APP、多任务的操作,靠的正是 自我规划与自我反思 的能力。 在Mobile-Agent做事的过程中,在做完第一步后,它就会看一下当前手机屏幕的截图,看显示的是不是所需的APP界面,如果是的话,它就知道上一步做对了,然后继续规划并执行下一步操作。 如果不是,它就会“反思”一下,重新修正操作,根据不断变化的截图,调整下一步的操作,直至最终完成任务。


这种自动化的流程,倘若与前面苹果的ReALM技术相结合,那么AI在观看并学习了用户操作习惯、行为后,就能基于个人习惯,更熟练地进行各种多APP、多任务的复杂操作。 例如对于某个经常需要写稿的编辑来说,AI在观看了他对手机的使用习惯后,便可以知道,他经常上的是哪些网站,看的是哪些公众号、视频。 进一步地,AI会根据这样的轨迹和习惯,建立起一个大致的思维/习惯模型,在他需要写稿时,从不同的APP搜集文章、视频,与他进行交流。最后再将交流的成果凝练,输入进其常用的文档工具。 当这样轻量级人机融合进一步演化,并延伸到其他领域时,人类智能的提升和优化,以及对生产力的影响,也将进入一个新的阶段。 例如在复杂工业环境中,手机上的多模态感知,能让AI实时规划和指导作业流程; 在医疗领域,集成生物传感器、医疗影像分析等AI能力,手机等终端能够全面感知和分析人体健康状况; 甚至在军事领域,这种人机融合的能力,在战场上还能加深各种智能化装备与士兵的契合度,出现一种类似“贾维斯”的存在。 意义与影响 如果要论手机AI带来的最直接的影响,那恐怕就是将 现在愈发萎靡的手机市场给盘活了。 去年,在华为Mate60系列的引领下,全球智能手机市场似乎有了复苏的迹象。但国际数据公司IDC却揭示了这种复苏背后的“危机”。 IDC数据显示,2023年全球智能机出货量同比 下降3.2%至11.7亿部,为十年来最低, 当年中国智能机出货量约2.71亿台,同比下降5%,也创下近10年以来最低出货量。而苹果虽在去年以20%的市场份额稳居第一,但 新机激活量同比出现—10.6%的下滑。


由于同质化和性能过剩问题,很多人觉得没有必要频繁更换新机。因此,消费者平均四年零三个月才会考虑换新机。 事实上如果没了销量,也就没必要研发先进制程的芯片了,到时候没人买,也没有海外市场可以占领,研发也没啥意义了。 而如果手机AI真的给人带来了颠覆性的体验,到时势必会刺激新一轮的换机潮,而相应的芯片需求也将水涨船高, 因此手机AI便和端侧芯片形成了一种相互促进的关系。 而第二点较为重要的影响,就是通过手机AI,相应的厂商能够 扩大AI数据积累。 具体来说,通过联邦计算的方式,AI会先利用手机本地的用户交互数据,对模型在设备端进行训练,这时只有模型的参数在更新,原始数据不会离开手机(这也解决了隐私问题)。 而分别在大量手机上训练出许多模型后,服务器会收集并聚合它们的参数,得到一个全局模型。全局模型再下发给各设备,重复上述训练聚合流程,形成迭代优化。 在此情况下,谁率先占领了手机AI的市场,谁就能让 数以亿计的手机用户成为自己海量的“数据源”, 从而为训练更强大的AI模型提供宝贵的资源。


虽然云端大模型(闭源),也能实现这样的“数据飞轮”,但效果却不会像本地化了的手机AI这样直接,原因就在于本地化部署使得数据采集更加直接,中间环节更少。 最后一点颇为重要的影响是,通过这一个个海量分布的手机AI, 端侧小模型将有可能对云端大模型形成一种“农村包围城市”的态势。 具体来说,手机上有大量不同的应用场景,如拍照、打车、购物、办公等等,每个场景都有特定的AI需求。这些细分场景,难以用通用的云端大模型高效覆盖,因为需要针对性地训练和优化。 而端侧的小模型,则可以专门为每个应用场景量身定制,随着越来越多的应用场景"嵌入"端侧专用AI模型,就逐渐形成了一个覆盖手机各领域的完整AI生态系统。 用户在使用手机时,基本上所有AI需求都可在端侧得到满足,无需调用云端服务。 这样一来,云端大模型在手机场景的发展空间就会被逐步蚕食和压缩。 在这样的态势下,端侧小模型,最终将很可能将占据那些 无处不在、渗透性较高的生活场景 (相当于“农村”)。 而云端大模型,则将占据那些更加集中、通用,且对算力要求更高的场景(相当于“城市”),例如对长文档,长视频的总结、分析等任务。 各方进展 从技术上来说,决定手机AI将来发展的,主要有三大关键技术,分别是: 端侧芯片、小模型技术、Agent技术。 就目前来看,在端侧芯片方面,表现较为突出的主要有 高通、联发科和苹果, 虽然从制程技术、CPU架构这两个关键指标来看,三者看上去都不分伯仲(都是4nm),然而具体在端侧大模型的部署方面,胜出的还是 联发科的天玑9300。 其不仅支持在手机端运行最大 330亿参数的大模型, 而且能够在1秒内生成图像,以及以每秒20 Tokens的速度生成文本。 在此之前,大部分的手机厂商,都很难做到在手机端部署超过100亿参数的大模型。


而天玑9300其之所以能做到这点,最重要的,就是采用了 硬件生成式AI引擎和全大核CPU架构 这两个关键技术。 用大白话解释,前者是一种将AI引擎直接集成在芯片中的技术,而后者则是将所有的 CPU核心都设计成高性能的大核心, 这样CPU就都能够处理复杂的任务,而且处理速度很快。 但是,仅仅在硬件方面下功夫,还不足以在手机AI方面独占鳌头,毕竟端侧芯片的性能上限,再怎么也不可能和PC端的高性能GPU相提并论。这就决定了塞进手机里的大模型,参数终归不可能超越PC。 所以,想要在手机AI上取得突破,另一个需要发力的方向,就是 小模型技术。 而这门技术的关键,就在于将模型变小,塞进手机(或其他终端)的同时,还能让模型保持不错的性能。 而在这方面,目前实力较为靠前的企业,当属 微软 和国内的 面壁智能 。 早在今年2月,微软就宣布收购了在小模型方面颇有建树的欧洲公司Mistral,而后者的过人之处,正是“四两拨千斤”,通过参数更小的模型,取得比大参数模型更好的效果。 其主要的代表作,就是参数只有70亿的Mixtral 8x7B。在许多基准测试中,Mistral 8x7B的性能已经达到甚至 超越了规模是其25倍的Llama2 70B。 而微软自己推出的Phi-2,虽然规模更小 (仅27亿参数) ,但得益于“教科书质量”数据的训练,目前已在基准测试中超过了更大的模型,如70亿参数的Mistral和130亿参数的Llama2。 这性能,这大小,看起来已经“压缩”得很极致了,可国内的面壁智能,在今年2月直接来了个王炸, 用20亿参数的MiniCPM, 就实现了参数是自己数倍,甚至数十倍模型相媲美的性能,例如Llama2-13B(130亿)、Falcon-40B(400亿)等。


最厉害的是,MiniCPM不仅能在手机上流畅运行,推理成本还低到令人发指—— 170万tokens仅1块钱! 如此一来,在小模型方面,国内已经做到了与国际巨头并驾齐驱,甚至略微反超的水平。 而将模型变小,除了能更好地将它“塞进”手机之外,更重要的一点,就是小模型比大模型更容易被灵活调度和部署,而这 也是在手机上实现Agent技术的关键。 因为所谓的Agent技术,实际上就是让多个AI分工协作,实现自动化流程的一种技术,而大模型虽性能更强,但却结构复杂,像个不易驯服的大象,而小模型虽小,但胜在结构简单,输出和行为更易于控制。


这就好像训练十几只分别精通不同任务的猴子,要比训练一个什么活都会干的大象要容易多了。 之前提到,AI Agent在手机上的应用,是实现各种自动化操作,带来颠覆性体验的关键。而在这方面,上面提到的面壁智能,可以说取得了独占鳌头的优势。 其凭借自身Agent技术打造的项目 ChatDev, 甚至得到了斯坦福大学教授、 AI科学家吴恩达 的盛赞。


吴恩达讲解ChatDev ChatDev就是让一群AI智能体扮演不同角色,合伙开发一个软件项目。 人类开个头,说做啥软件。设计师AI就给出创意界面设计;程序员AI写代码;测试员AI检查Bug。他们会像真人团队似的,反反复复讨论优化,最后呈现一个能运行的软件。 要是这种技术用在手机AI上,是能实现各种 复杂操作 的关键。


因为越是复杂操作,需要分工的环节就越多。比如你去开个会,用手机拍了视频,想剪辑加字幕、校对、配图片标题什么的,再发到某APP上。这么多环节,每一步都得有专门的“岗位”和“角色”在干活。 现在的一些Agent应用,比如AutoGPT,虽然“自动”、“高效”了,但处理不了这么多不同“角色”之间如何合作的问题。 面壁智能的ChatDev之所以牛逼,不仅仅在于它让多个AI智能体分工合作,而是在于它如何让这些智能体 高效、协调 地工作。 结语 倘若手机AI的“ChatGPT”时刻真的来了,那么有两种后果,是很可能会出现的。 其一就是软件和服务的主导权将改变。 与当前由谷歌、苹果等主导软件和服务不同,未来AI手机,很可能由AI公司或专门的AI应用公司主导生态系统。相较于“半路出家”的手机厂商来说,起步更早,投入也更专一的AI企业,例如OpenAI、面壁智能等,无疑能提供更好的端侧大模型。 到了那时,手机市场,乃至其他移动硬件市场的主导权,很可能就会变天了。苹果这种起步较晚,且处于 “两线作战” (既要顾AI,又要顾硬件)的企业,能不能守住自身的封闭生态,会是个很大的未知数。 其二,则是“算力枷锁”的打破。 前面提到,随着手机AI的成熟,端侧小模型将有可能对云端大模型形成一种 “农村包围城市” 的态势。而在更大的国际尺度上,这种态势会呈现出更复杂的形态。 因为相较于对算力要求颇大的云端AI而言,手机上的端侧AI,对芯片、硬件的需求,实在是小巫见大巫了。 基于这一前提,加上华为在芯片领域撕开的缺口,以及中国庞大的移动用户体量,倘若手机AI将来真的盘活了,那相当于 中国部分地规避掉了美国在AI算力方面的封锁。 更进一步地,这样对算力依赖较低的特点,还会让端侧小模型在发展中国家和新兴市场进一步普及。 如果说,端侧大模型,让人们看到了AI有多强大,而手机AI这样的端侧模型,则将让人看到,AI究竟可以惠及多少普通人。
免责声明
澳洲同城网是一个免费的公共信息平台,网站内容由网友自由发布,发布者拥有所发布信息的版权同时承担相应责任; 若所发布信息侵犯了您的权利,请反馈给澳洲同城网,我们核实后将进行相应处理!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则




外汇平台
金牌家政
汽车网



















wuliu
你想了解我们吗?
联系我们
关注我们
官方微博 官方Facebook 官方Twitter
微信关注
官方微信公众号 官方微信服务号
官方公众号 客服微信
快速回复 返回顶部 返回列表