AI大模型会变傻吗?

这事或正在发生!

顶级科学期刊《自然》发表的最新研究给似乎将变得无所不能的大模型判了“死缓”,将这种糟糕情况描述为“大模型崩溃”。

1722493931576.png

《自然》杂志最新一期封面,图源:Nature

除了变傻,大模型还面临发展路线分歧。一条倾向于把通用大模型做到尽可能完善,然后自上而下实现产业、商业场景全覆盖;一条则是扎根产业,从实际应用中自下而上催生成熟的产业大模型,为通用大模型的完善积累“智慧”。

有意思的是,根据《全球数字经济白皮书(2024)》统计,目前全球的基础大模型有1328个,美国最多,中国第二。而产业大模型,中国表现了极大的热忱。更有意思的是,美国企业多倾向第一条路线,而中国开发者则越来越扎堆第二条路线。很难说两条路线谁更具优势。不过对《自然》的最新警告,很可能不会出现在走第二条路线的中国开发者身上。

1722494010285.png

人们期待AI大模型引领人类开启新纪元的愿望有多热切,“大模型崩溃”带来的打击就有多强烈。

下一次大模型泡沫说不定就是被它引爆的。这种事在互联网与资本的蜜月期也屡见不鲜。

如果训练大模型时,只用AI生成的内容,会导致大模型出现不可逆的缺陷。一些在第一代数据中出现的低频词,在以后的迭代中出现的频率会更低,而一些常见词汇出现的频率则逐渐增加。久而久之,模型逐渐无法正确模拟真实世界的复杂性。错误被层层累积、逐渐放大,最终导致“模型崩溃”。

很像生物学中“近亲繁殖”导致后代缺陷的过程。

如何规避“模型崩溃”陷阱,让大模型更好的成长呢?

接地气是选择之一。事实上,许多中国大模型开发者就是这么做的。

比如京东推出的言犀大模型,以及基于大模型产生的京医千询、京点点、小哥智能终端助手等一系列智能体应用。

1722494029228.png

截至目前,京东大模型落地超过100个场景,支持了23万+商家,2万+京东采销,1万+研发人员;不但涵盖零售、供应链等核心领域,还能兼顾办公自动化、法务、风控、合同审核、数据分析的解决方案,并拓展到了健康领域。

京东大模型开发最大特色就是从实践中来到实践中去,大模型在京东基本实现了祛魅,即使是普通的业务人员都能自己定制、拿来就用。

能用、好用的大模型,缘于京东对供应链的深耕。

回溯历史,供应链可谓历次产业革命的集大成者。诸多巨型企业、经济学家、管理学家、还有产业研究者早早就把供应链整体协同优化,视为企业更上层楼的关键。

举个简单的例子,一辆汽车的零部件通常超过3万件,核心工厂很难生产全部零部件,会把大部分零部件交给上下游企业生产。但汽车装配对零部件供货时间要求极高,协同不好就会影响交货。

所以,最早的产业互联网就是由美国汽车四巨头联手缔造。

而京东产业大模型的横空出世,似乎有一点历史宿命的意味。

供应链是产业中数据最集中、协同最复杂的场景,通过数据实现管理优化即可提升供应链效率,通过落地大模型能够快速释放供应链效能,相比其它场景能最快发挥智能的优势。

京东有一个公式,大模型的价值=算法×算力×数据×产业厚度的平方。第四个乘数,正好呼应了我们前文中提到的第二条路线的特质,能极大弥补AI生成数据的先天不足,从而为大模型的成长提供了一个更平衡、更全面的路径。

1722494204796.png

图源:数字基础设施技术趋势白皮书(2023)

大模型诞生到现在,人们早已不再满足于其强大的自然语言(含图形)理解、语言生成和语音识别等能力,在聊天、娱乐等通识属性较强的场景上的表现,更寄希望于实际用起来产业落地,商业落地。

正如中国工程院院士邬贺铨所说的:对话、写诗、作画绝不是大模型的全部。我们需要将大模型切实投入到城市发展、金融科技、生物医药、工业制造、科学研究等领域,也需要专业的企业和组织加速其在实体产业落地,为产业刚需带来实实在在的价值,真正意义大规模服务社会。


京东就走在这条路上。京东集团技术委员会主席、京东云事业部总裁曹鹏认为“通用大模型靠算力堆出来,企业大模型靠业务跑出来”, 并表示“京东供应链是大模型应用的超级孵化器。”

2024京东云峰会上,京东云展示了京东言犀大模型落地行业的领先技术与最新实践,并重磅发布京东云企业大模型服务、言犀智能体平台、智能编程助手JoyCoder、言犀数字人3.0等八大产品。

当大模型遇上供应链,产业互联网的历史一幕也许会在京东身上重现?

1722494496927.png

京东言犀大模型的成长,还能让我们可以对世界工厂的全面刷新畅想一番。

中国拥有联合国工业名录门类划分中的39个大类、191个中类、525个小类的全部门类。构成这个庞大工业体系的是40万家企业,其中超过90%的企业是中小微企业。

1722494228078.png

图源:钛媒体

都知道数智化是方向,但常规的研发者不会去钻研不同产业的技术诀窍,以至于基础大模型让很多中小企业觉得高不可攀,彼此之间谁仿佛都觉得对方离自己还远着呢。

京东云为产业缔造了一个全新的关键容易上手的系统,还是相对繁杂偏偏还离不开的供应链方面。

从生产到流通,从原料供应、仓储,到运输、分销,以及最终的消费者,传统供应链的节点繁复,交织成的网络结构复杂,流通环节也总是层层障碍。

京东云本身就扎根于供应链,加上之前的积淀,在零售、物流、仓储、金融、健康、工业等产业拥有深入实践,还参与了城市、政务、金融、制造、工业、航空、交通、园区、能源等产业。

京东云很多年前就确定了数智供应链的目标。其核心理念是产业联结、数智创新和生态融合,通过数智供应链建设,企业能够从产业链全局优化效率,以数智技术驱动数实融合,同时联结更多生态伙伴,实现更高效的数字化转型。

大模型的落地,让数智供应链再次蜕变,线性链条连接“孤岛”,交织成一个复杂网络,进而实现有限的自主呼应,有点类似藤曼缠绕的雨林结构,如今这个系统又有了高级统御的智慧。

AI智能体(AI Agent)被视为过往技术发展的集大成者,在工业界已得到共识,能够广泛适配各类应用场景。AI智能体以大型语言模型(LLM)作为核心控制器构建,可以构建出强大的问题解决器。

1722494284219.png

言犀智能体平台

京东云言犀智能体平台是新一代一站式 AI Agent 开发平台,目前已接入数十个大模型,它几乎就是一个为使用而生的平台。无论用户是否有编程基础,从解决简单的问答到处理复杂逻辑的业务问题,都可以在平台上低成本快速搭建基于 AI 模型的各类快捷应用。

比如外贸供应链的报关场景,会产生大量报关码(HS code),需要人工寻找到每个code,还要手动输入商品描述。京东云言犀智能体平台通过workflow反向RAG,描绘商品,找到对应code。另外还有智能体低代码开发的应用构件,输入一段描述的自然语言,就可以基于Agent生成应用。

还有外贸中的订单履约场景,过去需要通过客服问询,京东云通过言犀智能体平台调用API,就能查到订单履约到哪了;通过Agent调用对应的foundation,就能查到物流订单到哪了。而且拆单状态、履约情况、合同审核等场景在国际贸易时不能只用中文,还需要多种语言,基于AgentAIG就能轻松实现多语言问答。

通用大模型要做到这一步,往往会出现开发冗余、货不对板或者成本高企,而针对性强的产业大模型却能够同时对齐了成本、效率、体验三方面要求。

对业务场景的理解与触达,对产业数据的积淀与运用,是京东言犀大模型保持精度的重要前提。实际上,言犀大模型数据就是由70%的通用数据与30%供应链场景生长的原生数据构成。

你能想象京东的小哥都在自如实现与大模型的对接吗?

1722494329924.png


多场景智能助手 特定角色提供专业服务

小哥的岗前培训,比如具体到服务过程中如何处理异常?哪些违禁品不能邮寄?以及耗材等问题……

过去他们需要记住大量专业知识,过程长,还容易出错,现在京东云基于言犀大模型为小哥量身订制了终端智能助手,这位“助手”能牢记从揽收、派送、站内、辅助、客户服务等143项标准作业动作,到货物处理规程、安全操作标准、KA客户等915个服务要求都能回答。

对于物流、派送地址等常规操作,小哥甚至只需要动动嘴,小哥助手就能优化流程,给出优化方案。

如今物流的小哥终端智能助手已服务近35万京东自有配送员。

京东集团副总裁何晓冬将这比作培养一个人,“如果一个人高中毕业后直接出去打工,似乎也行,但专业性会差一点。要是能读完四年本科再出去工作,就既有通识能力又有足够的专业知识,这是产业大模型应该具备的能力”。

至此,京东供应链与大模型,形成了一对奇特耦合且螺旋上升关系:一方面,大模型的出现为供应链的深化、优化、数智化提供了新的增长点;另一方面,京东供应链的复杂场景产生的真实数据可以训练大模型,让大模型在供应链上先跑起来;进而,不断成长的大模型又将赋能供应链,激发更大的改变。

这种结构像极了DNA,不断延伸延展,孕育无限可能。也在述说着,更适合企业的大模型真的可以一边跑一边训出来。

1722494348992.png

DNA结构,图源:University of Minnesota Libraries

1722494372177.png

种一棵树最好的时间是十年前,其次是现在。

京东云对大模型深耕落地产业的理解,不是种树,而是种森林。

这种“森林思维”很契合大模型的养成。

以往我们发展大模型,尤其是通用大模型,缺芯片导致算力不足,算法也有差距也就罢了,连原本应该最丰富的数据,也因为数据标准化等诸多问题,而变得无法用于大模型的训练。

甚为可惜。

不过,京东云做产业大模型的历程展示了一条因地制宜的发展国产大模型的新的路径。

和生产场景无限接近,加上互联网企业的基因,让京东云在特定的领域积累了大量优质的数据,这些数据对于产业、垂类大模型是再优质不过的养料。

多年以前,面对复杂的消费和零售价值链,刘强东将每个环节总结成“十节甘蔗”,随后京东选择渗透进入更多的甘蔗节数——将业务延伸至仓储、配送、售后、营销之外的生产、研发等供应链其他环节。

如今吃透每个环节,让京东的产业大模型在应对具体的场景时就仿佛含着金钥匙出生。

中国企业有望证实大模型第二条商业路径的合理性。

如今,全球通用大模型竞争白热化,对高端GPU的追求,堆爆了英伟达的股价,让其一度超越苹果、微软,登顶全球最大市值企业,也同时让大多数渴望大模型引发传统产业嬗变的企业开始望洋兴叹。

因为它们既不好用,更加用不起。

国际通行的评判大模型的标准是算力、算法、数据。以京东云为代表的一部分中国企业则以自己与产业的高度融合,提出了大模型产业落地“新三要素”:场景、产品、算力。

复杂的交互智能场景及其产生的动态数据、从单一算法竞争到形成可以牵引成体系算法创新与突破的产品和能支撑这样的场景与系统的新型算力。

1722494391367.png

基本理念是基座大模型靠堆卡训练,企业大模型靠人用出来。

本次2024京东云峰会,京东云发布三大智能平台、五大领先技术产品,从基础设施到Agent应用,构建全场景的大模型服务能力,持续推动大模型落地产业:

· 京东云企业大模型服务,支持一站式打造企业专属大模型,将垂直领域知识注入到模型的同时,不损失模型的通用能力,且更加经济适用;

· 言犀AI开发计算平台2.0,内置20余种开源模型和丰富的数据集,提供100余种算法和工具链,提供低门槛、高性价比的大模型开发服务;

· 京东云大模型安全可信平台,涵盖超过200种特有的红蓝对抗攻击手法,覆盖监管合规要求的全部31类风险类型,风险分析准确率高达95%以上;

· 京东云云舰AI算力云,支持多地域分布式算力的统一调度,提供高性价比的算力供给;

· 新一代分布式存储云海3.0,支持千亿级参数AI大模型,4K随机写IOPS达到1000万级,平均延迟在100微秒级,极致性能更好地支持大模型落地应用。

真正适合企业的越来越多的大模型应用,正在京东供应链上生长出来。在内部业务中根据实际需求找到大模型落地的场景后,京东云已能对外输出能力。

今年京东618期间,京东云言犀数字人在5000+品牌稳定开播,在汽车、跨境美妆、珠宝首饰、3C数码、家电家居、医疗健康等多品类播间带动闲时转化率提升超30%,直播累计时长超40万小时,累计观看人次超1亿,互动频次500万+次。

京东云言犀数字人依托全新升级的3.0版本,以超100个性化角色、超50行业特定属性场景,表现超过行业80%的主播。除电商直播场景外,言犀数字人还在文旅、金融、智能服务、政务咨询等更广泛的场景应用落地,与亿级用户智能交互,带来下一代交互体验。

健康大模型京医千询成为基于行业内首个实物与服务相联通、知识与数据相融合的医疗大模型。免费智能医生“康康”结合京东健康亿级医患会话和丰富的实物、服务、内容等供应链资源,提供专业咨询服务;专属个人医助支持病情收集、诊断推荐、治疗方案推荐、病情解释、智能病历等功能,全流程辅助医生提升问诊效率。如今京东健康皮肤医院基于大模型的AI辅诊准确率超过95%。

“道生一,一生二,二生三,三生万物。”《道德经》认为天地万物的始基与母源在于“道”。在供应链和大模型的“宇宙”中,京东云寻到了“道”。

1722494409323.png

2017年京东战略会上,刘强东高喊“技术、技术、技术”的战略。7年过去了,京东云在大模型产业应用实践中,成为这家企业战略远见与定力的力证。

什么是新质生产力?

什么是最优的产业转型升级路径?

在新技术激荡的时代,其实就是用新技术把你熟悉的一切从头到脚重新做一遍。

当大模型落地离我们越来越近,京东云再次选择把大模型做实,把供应链做透。

其实脚踏实地,与仰望星空并不冲突。京东云能让大模型与有史以来最庞大的世界工厂的融合得多一点,更顺滑一点,那样的情景都足以令人心潮澎湃。