轻量级的模型亦有其存在的市场空间。

  文|《中国企业家》记者 赵东山

  2022年11月底,基于GPT-3.5的ChatGPT刚出来的时候,小米集团AI实验室主任、自然语言处理(NLP)首席科学家王斌给ChatGPT抛出一个问题:证明一下勾股定理。

  最终,ChatGPT给出了一个基于数学归纳法的证明过程。王斌发现,虽然这个证明过程是错误的,但是整个证明的逻辑看上去似乎非常合理。后来才意识到这是大模型的“幻觉”现象,但从某个角度上看ChatGPT的这个证明思路非常新奇。

  不断使用后,ChatGPT的强大能力和奇思妙想超乎王斌的想象。身为一名AI从业者,他感到一个新的智能时代即将来临,而自己无法再置身事外。2023年4月,由王斌牵头负责,小米技术委员会AI实验室大模型团队负责人栾剑带队,在小米内部正式成立了一支自研大模型团队。而在这之前的数月,小米就开始做自研的相关准备工作。

  小米集团创始人、董事长兼CEO雷军亲自推动了自研大模型团队的建立,并全程高度参与了小米大模型的自研,他会亲自查看团队的周报、月报甚至日报,关注大模型进展。至于投入,雷军也表示:“全力支持,投入不设上限。”

  经过半年多时间的努力,小米目前已训练出13亿和60亿参数规模的语言大模型,并在集团内开源赋能各业务。它们在小米澎湃OS系统和人工智能助手小爱同学的部分场景已经得到应用,更大参数规模的大模型也在紧锣密鼓地开发中。

  不同于百度的文心一言、科大讯飞星火等通用大模型,小米自研大模型更强调跟产品的结合和场景的驱动。

  “我们不会纯从技术角度考虑,也不会以比赛为目标。我们不搞军备竞赛,我们做大模型的出发点并不是成为中国的OpenAI。我们一开始就考虑大模型跟公司的场景怎么结合。”王斌告诉《中国企业家》。

  小米内部认为,轻量级模型亦有其存在的市场空间,且在某些特定任务上相比千亿大模型亦能具备一定的优势。这是端侧大模型的特殊要求,也是一家智能设备厂商入局大模型的必经之路。

  与市面上大多数自研大模型的公司一样,小米同样选择了从小参数到大参数的渐进式开发过程。通过小参数模型摸清底层的逻辑,蹚好路上要经历的坑,再加大投入追求更大参数模型的训练。

  小米为什么要自研大模型?小米如何自研大模型的?又如何将大模型放到智能手机等设备里?小米用大模型来做什么?大模型对小米全球6亿多MIUI月活用户来说意味着什么?跟未来的人车家全生态又有哪些关联?近日,王斌接受了《中国企业家》的专访,对此进行了一一解答。

  以下为小米集团AI实验室主任、自然语言处理(NLP)首席科学家王斌自述(在不改变原意下做了删减):

  态度:不搞军备竞赛

  基于GPT-3.5的ChatGPT是2022年11月30日发布的,其实第二天小米内部就有好多人注册了账号在用,我们当时就觉得这肯定是一个跨时代的事件,做过多年AI的我们都深刻感受到,ChatGPT的很多结果超出了我们的预期。

  在用的过程中我们也不断总结。后来我们觉得这不只是做AI的人关注的事情,可能对所有的行业、部门都会产生影响。大模型一定是未来的趋势,它会极大地改变我们的产品和业务。

  当时我们就做了一些内部布道的工作,向全公司发起推广,在总经理例会上以及各种场合去宣传,呼吁大家都要用大模型,甚至在公司内部也建立了大模型的机器人,把ChatGPT接过来,我们在公司内部还整理了很多文档,指导大家怎么使用。

  我们内部还成立了一个讨论组,共享一些使用经验,猜一猜这个技术可能在哪个地方带来颠覆。但当时还仅限于一个技术层面的探讨,刚开始还没有决定要做。等到春节左右,有人觉得至少要动手去做了,这个风暴来了,我们做技术的肯定不能置身事外,如果不入局就会在竞争当中处于不利的位置,于是我们也开始做一些准备工作。

  等当面跟雷总(雷军)汇报时,他马上拍板说,“你们赶紧做。”所以,我们大模型团队成立正式官宣是4月份,但实际上早就已经开始筹备了,随后我们就全力拥抱深入其中去做相关的研发。

  当真正决定自研的时候,我们是从这几个方面考虑的。

  第一,小米是一个应用场景非常多的公司,在这些场景里怎么通过大模型,提高产品体验,提高公司内部的运营效率,完善从感知到认知再到决策的智能体验,是我们考虑的事情。小米跟做通用大模型的公司定位不太一样,他们是做完给别人用,但我们更多要考虑小米的场景。从小爱同学到未来的汽车再到操作系统和机器人,都是能和大模型结合的重要场景。

  第二,正是因为小米有场景的驱动,所以我们在做大模型的时候不会纯技术考量,也不是要去比赛,或做个中国的OpenAI,我们不搞军备竞赛,这不是我们做大模型的出发点,我们一开始就得考虑大模型跟公司的场景怎么结合。

  第三,小米是一家技术立业的公司,公司的技术研发投入很大,有很多自己的技术创新,同时也对业界出现的新技术保持高度敏感。对于有希望的新技术,你至少要跟上,再想办法和场景高度融合,做出自己的优势和特色。

  雷总对大模型业务参与非常多,我们团队有几个专门讨论大模型的群聊,雷总就在群里。有信息及时在群里共享,有问题直接在群里解释汇报。我们的周报、月报甚至日报他也会直接看。他对技术的敏感度非常高,也非常看好大模型,所以他时刻都在关注我们的进展,这也使我们有些压力。但关于投入,雷总大力支持,不设上限。

  落地:从小到大逐步迭代

  确定好自己的定位,我们的路线比较清楚:一边研发探索,一边结合小米的场景。我们确信,不是要用一个大模型覆盖所有业务场景,所以跟业内很多公司一样,我们采取了从小到大渐进式开发的过程。

  我们的第一个模型是13亿的小规模模型。一开始选择参数规模比较小的模型,是因为想避免大的犯错,因为越大模型的训练,其成本也越高。我们选择先用小规模模型做一些蹚坑的工作,把其中经历的一些问题都解决了,再做大参数规模的模型。其实训练更大的模型通常都会遇到一些新的问题,但是至少一些老的问题能够先解决,这是一个比较务实的做法。

  自研大模型首要的挑战,就是如何快速找到对的人,又组合成紧密的团队,大家分工明确地共同为一个目标努力。

  小米对人工智能的投入比较早,在2016年AlphaGo出来之后,雷总就开始大力投入AI,最开始是视觉团队,后来逐渐拓展到AI的各个领域。整个公司我们有3000多人在做AI相关的研发工作,我们团队也有非常丰富的AI工程化经验。

  我们AI实验室之前有一个人机对话团队,做过28亿的对话模型,虽然它是只用于对话的专用模型,但内部测试的效果非常不错。另外,我们还有非常专业的数据处理团队和AI训练优化团队。我们就直接把这些有基础的人,抽调过来直接组成了一支新的团队,直接上手就开始做自研大模型了。

  小米AI实验室在视觉、声学语音、NLP、知识图谱、机器学习等方向,都有技术积累,从算法预研到工程落地具备很强的闭环能力。比如,手机、汽车、音箱、可穿戴等很多智能硬件上的很多AI算法,我们从头到尾都做过,所以这支抽调而成的团队同时具备算法、数据、工程、产品、测试等大模型建设需要的能力,冷启动时间非常短,很快就能进入快车道。

  具体地,我们在组建队伍的时候,NLP团队是最直接相关的,原来的对话大模型也出自该团队。我们还把知识图谱构建的团队抽调一部分过来完成大模型的数据工作,他们对数据的敏感性,对数据的理解,对数据的工具和算法的掌握,都非常强;大模型的工程组,我们是从机器学习的架构团队调过来的,此前他们专门做系统优化的工作,比如怎么有效调用GPU,怎么去做分布式机器学习训练,经验都非常丰富。

  13亿的模型训练完了之后,我们会跟开源开放的模型做一些对比,虽然跟千亿的模型相比还是有各方面的差距,但是经过微调后在某些任务上还是有一些优势的。我也多次表达过13亿的模型有它自己的生存的空间,我们更关注和场景的适配。目前这个模型已经在小爱同学中上线了。实际的数据表明,在特定场景下,13亿的模型不仅效率上优于更大的模型,效果上也毫不逊色。

  截至目前,小米已经有13亿、60亿两个参数规模的大模型在集团内开源。这几个模型随着输入数据的不断更新,也都在不断迭代。我们还有更大的模型正在紧锣密鼓地开发中,希望能给用户带来更好的体验。

  挑战:如何把大模型放到设备里?

  小米的设备非常多,我们希望把很多功能能做到汽车、手机、智能音箱或其他设备上。总而言之,我们一直以来都有强烈的端侧需求,大模型来了也不例外。当然,把大模型做到端侧挑战还是非常大的。

  第一,这里似乎有个悖论。模型太大了端侧根本就放不进去跑不起来,但是模型太小了可能效果又不行。这就很考验团队对模型的理解,包括怎么对大模型做量化、蒸馏、压缩,还要保证模型的效果,还要满足硬件的各种约束,甚至包括硬件产品的理解,都要求有很强的认知能力。

  第二,对于硬件端包括芯片端,也提出新的要求和挑战。一方面,现有的硬件框架下可能对大模型的支持并不完善。另一方面,需求的驱动要求我们在现有条件下就要将大模型在端侧跑通。这里面的挑战非常大,需要一个综合的解决方案。

  端侧大模型确实有不少好处。一个最显而易见的好处是可以充分保护用户的隐私,用户和大模型的交互数据不会上传。再比如说,一种最极端的情况就是在没有网络的情况下,端侧大模型带来的用户体验差异会非常明显,云上的大模型没网是无法工作的,但端侧就可以。与此同时,一部分应用如果通过云侧要传输的数据量比较大,在实时性上可能就不如在端侧强,端侧响应可能会更及时。此外,如果云侧的需求量特别大之后,要维持成本肯定需要用户付费,这也是很常见的商业模式。但是如果集成到端上,用户的成本可能就没有那么高,用户也就更愿意用。

  虽然大模型端侧落地的挑战很大,但是好在我们在端侧落地方面有长时间的积累。比如我们视觉团队做过很多手机拍照的算法,都是要求在端侧实现的。手机拍照现在分辨率越来越高,要对图像进行处理,处理效率要高,用户感觉不到卡顿,而且还不能发热,这些都是一系列的严格条件,我们有长期的技术落地经验。

  此外,在语音和语言处理上,小米也有一些端侧的经验,比如原来在比较小的设备上实现了全离线的机器翻译,参数也达到亿级了,后来离线的机器翻译模型也被放到小米旗舰机上。

  目前,小米和芯片公司也在合作,共同推动端侧大模型的落地。

  未来:多模态

  经历过语言大模型的开发,我们其实已经把底层的坑都蹚过了,我们有能力去做更大参数的模型,但具体要不要做千亿或者万亿的大模型,更多还是从投入产出比的角度去考虑,也看跟场景的结合还有没有需求,如果我们已经把很多场景处理得非常好,我们就不需要投更大的成本去做,我们不以军备竞赛为目标,这个不是我们的目标。

  人车家全生态是小米全新升级的未来战略,未来的智能生活中包含很多的场景,大模型可能越来越会成为一个基础设施的东西,来支撑上面的智能服务。大模型对上下文的理解,对情景的理解都更深了,不管它在手机上还是其他设备上,都能够随时随地了解你所在的场景,给用户提供下一步的可能性。

  小米的优势是多设备场景的综合感知,因此小米大模型输入的不只是文字,而是它感知到的环境和场景。我相信未来的多模态大模型肯定不只是视觉的,声音的,还会有其他模态,这也正好符合小米人车家万物互联的场景,我们输入了更多的信息,也会帮用户更好地理解这个环境,做后面的事情,比如对机器人的控制,对车的控制,甚至是分布式联动,去满足用户的想象。

  大模型也成为一个数据接收中心,它接收的信息远比现有的学术界的研究还要多,当然这个信息融合还有难度,但是小米可以在各种设备去输出,它们之间都是相通的。小米澎湃OS已经把互联互通做好了,我们能够借用多种设备的联动,协同感知,协同决策,做一些更有意思的事情,帮用户生活体验更好,更方便。

  大模型火了,安全隐私问题也成为大家关注的话题。小米刚成立不久,就成立了安全隐私委员会,因为小米是一个手机设备厂商,对安全隐私非常关注,小米所有的项目都要经过隐私委员会的审批才能够立项,在训练和应用大模型的过程中,我们会严格按照安全隐私保护的相关法律法规来进行处理。

  关于未来,小米内部相信大模型肯定会不断向前发展,在多模态模型还没有出来之前,我们就立项了多模态大模型,在今年年初还通过北京市自然科学基金-小米创新联合基金设立了《面向图文理解和生成的多模态大模型构建与评价》的课题,我们相信这一定是未来重要的发展方向。

  当然,基于大模型,目前还没有出现杀手级的应用,这需要一个尝试、探索的过程,接下来一定会出现一系列的应用让大模型落地。此外,端云结合的框架也一定是未来的趋势。小米愿意置身其中,并积极探索。