AI大模型“无米下锅”?合成数据多重优势凸显,硅谷巨头正加速布局

访客|
120

来源:

编辑:邱思雨

5月19日,北京拟组织实施“北京市通用人工智能产业创新伙伴计划”,谋划建设国家级数据训练基地。

北京提出,在谋划建设国家级数据训练基地的过程中,要开发涵盖文本、图像、视频等多模态的高质量数据集,助力国家级数据训练基地建设。支持发展基于AIGC技术的合成数据新产业。

回溯到今年3月初,中国证监会科技监管局局长姚前曾在《中国金融》杂志撰文称,建议重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。

被多次点名强调的合成数据,究竟是何方神圣?

顾名思义,合成数据(synthetic data)是通过计算机技术人工生成的数据,而不是由真实事件产生的数据。但合成数据具备“可用性”,能够在数学上或统计学上反映原始数据的属性,因此可以作为原始数据的替代品来训练、测试并验证大模型。

在训练大模型的过程中,除了需要庞大的数据量以外,数据的质量同样至关重要。例如,ChatGPT的训练使用了45TB的数据、近1万亿个单词。据姚前分析推测,ChatGPT等大模型的训练数据主要来自于维基百科、书籍、期刊、Reddit社交新闻站点等。总体来看,数据来源严重依赖于现有的互联网公开文本数据。

但互联网文本数据有限,GPT-3的参数量已达到千亿级别,如果下一代大模型的参数达到万亿级别以上的话,数据短缺问题恐成为训练的瓶颈。在此背景下,合成数据的重要性日益凸显。

▌合成数据:更高效率、更低成本、更高质量

正如上文所述,“更高效率、更低成本、更高质量”是目前合成数据的优势所在。市场调研机构Gartner预测,到2024年,人工智能和数据分析项目中的数据预计有60%将来自合成数据。具体来看:

“更高效率”:合成数据能够在相对较短的时间内大量生成,且能够精确地复制原始数据集的统计特征,但又与原始数据不存在任何关联,便于在更大范围内分享和使用;

“更低成本”:合成数据服务商AI.Reverie指出,人工标注一张图片可能需要6美元,但人工合成的话只需要6美分;

“更高质量”:合成数据能够补充边缘案例,可以通过深度学习算法合成原始数据中没有的罕见样本,保障了数据的多样化。

除此以外,在AIGC时代,数据的隐私性、保密性、安全性等问题尤为重要。例如,医疗行业的数据通常会包括患者个人健康信息等;金融行业则涉及到历史交易信息等敏感数据。

利用合成数据训练AI大模型则能够有效规避用户隐私问题。在上述案例中,通过合成数据集,医疗机构能够在不提供患者隐私信息的条件下训练相关模型完成药物研发工作;金融机构则能够在不提供敏感的历史交易信息前提下,通过合成数据集训练量化交易模型提升获利能力,也可以用来训练客服机器人以改善服务体验。

《麻省理工科技评论》(MIT Technology Review)将大模型合成数据列为2022年十大突破性技术之一,称其有望解决人工智能领域的“数据鸿沟”问题。

▌先行应用于计算机视觉 巨头已争相布局

具体到产业应用层面,合成数据先行应用于计算机视觉领域,例如自动驾驶、机器人、安防等应用场景。这些场景下的AI大模型都需要大量图像、视频数据来训练,但获取原始数据却相对较难。

以自动驾驶领域为例,实际驾驶场景路况复杂、变量较多,且极端天气下获取真实路况数据可能存在困难或危险,因此难以完全依赖于真车现场数据。但是,通过合成数据集模拟各种驾驶场景,就能够在保障人员和设备安全的条件下,提升自动驾驶能力。

目前,合成数据应用正迅速向金融、医疗、零售、工业等诸多产业领域拓展。摩根大通于2021年9月提出通过合成数据来加快金融领域的AI研究和模型开发,以解决欺诈检测和反洗钱等问题,并改善服务体验;美国运通也同样正在尝试创建合成数据来训练、优化其用于欺诈检测的AI模型。

微软、谷歌、英伟达等硅谷巨头均在加速布局合成数据领域的相关业务。

英伟达自动驾驶仿真平台DRIVE Sim通过Replicator合成数据工具来缩小仿真数据与真实数据之间差异并提高场景泛化能力;

谷歌利用AI生成的医疗记录来帮助预测保险诈骗;

微软开发了可以生成合成和聚合数据集的开源工具Synthetic Data Showcase,并创建了合成人脸数据库。

Meta于2021年11月收购了合成数据创业公司AI.Reverie。

国内方面,据《科创板日报》不完全统计,A股上市公司中: