深圳商报·读创客户端记者肖晗

  记者2月19日从深圳数据交易所获悉,其已于近日成功完成国产人工智能大模型DeepSeek的本地化部署,开启在自主可控AI大模型深度赋能数据要素交易场景的探索之路。

  据介绍,深圳数据交易所此次部署融合了Deepseek - R1模型与基于RAG方案构建的专属私有知识库。基于Deepseek出色的自然语言理解和处理能力,结合知识库,提升了生成内容的准确性与丰富性,同时在处理高时效性任务和保障数据安全方面发挥了积极作用 。

  深圳数据交易所相关负责人表示,数字经济时代,数据要素的高效流通与合规应用是激活产业价值的重要因素。深数所部署的DeepSeek大模型,凭借其千亿级参数规模、多模态处理能力和高效的推理性能,将为数据交易全链条赋予更多核心能力,并进一步为生态伙伴赋能,实现数据流通更加高效、安全。

  例如,可借助自然语言处理技术,精准解析数据需求,实现数据产品与市场需求的快速匹配;可助力合规预审,基于海量法律法规库构建智能合规系统,能够自动化识别数据风险点;此外,可通过深度分析数据质量、应用场景及市场供需情况,生成动态定价模型。

  随着DeepSeek的深入应用,深数所加速推进三大战略:在可信流通网络方面,建设覆盖数据登记、评估、交易、结算的全流程智能监管体系;在跨境流动试点方面,探索粤港澳大湾区数据跨境流动的AI合规解决方案;在产业创新生态方面,联合头部企业打造能源、医疗、金融等垂直领域的大模型应用场景。

  值得关注的是,当下,通用人工智能技术(AGI)的发展需要更加高质量、大规模的数据集,以提升模型效果和泛化能力,训练数据集的数据点数量有望呈现指数级增长。根据Statista发布的数据,全球人工智能市场规模预计从2022年的1423亿美元增长至2030年的18475亿美元。与此同时,Precedence Research的预测数据显示,用于人工智能训练的数据集市场规模将从2022年的20.9亿美元增长至2032年的接近100亿美元。

  在此背景下,在借力大模型促进数据交易同时,深圳数据交易所持续提升在人工智能领域的的服务能力,赋能产业发展。据透露,深数所已发布全国首个人工智能产品专区,推出开放算料联盟和开源数据集,汇聚40家语料服务商和1500余项垂直行业多模态算料集,总规模超过1000T,涵盖金融、政务、科研、文化、自动驾驶等不同领域,包含7类数据模态,覆盖“数据要素×”等12个领域。