提高数据数量、安全和多样性,对提升大模型性能,推动产业落地至关重要。记者从2024Incluison·外滩大会上了解到,蚂蚁数科发布新一代数据标注产品,向企业客户提供AI 驱动的全流程数据服务。
传统数据标注以人工为主,进入大模型时代,企业面对数据指数级增长及非结构化的包围,其标注成本和效率往往达不到平衡。据了解,蚂蚁数科具备领先的 AI 算法,在标注产品中配置了模块化服务和算法调度能力,能够在高效匹配“人和任务”的前提下降低标注的复杂度,帮助用户解决通用大模型、多模态大模型和行业垂类大模型的数据标注需求。据悉,该产品可以覆盖多行业场景文本、图像、音频、视频标注需求。
实测数据显示,在同类结构和同等规模数据量下,使用蚂蚁数科 AI 标注产品后的标注效率提升了40%以上。这背后不仅有技术,针对产业高复杂度数据需求,专家验证必不可少。记者了解到,蚂蚁数科配备近万人的人工标注团队,垂直专业领域和高阶标注人才占比超过90%,以此提升AI数据服务的专业性。
数据是AI领域公认的三大支柱之一,也是大模型在产业落地所面临的主要矛盾。蚂蚁数科发布AI标注产品后,一只脚踏入了Scale AI 同一条赛道。后者在三个月前,完成了新一轮由 Accel 领投的近10亿美元融资,估值升至138亿美元。
与Scale AI 不同的是,蚂蚁数科还提供数据加工、合成服务。蚂蚁数科链接众多数据资源,积累了涵盖多模态、多领域、多场景的数据集,可以给到客户需要的“精标数据集”,帮助客户实现数据服务的“就地取材”。同时,在尚未充分挖掘的企业私域和垂直领域,蚂蚁数科具备领先的数据泛化算法能力,能够帮助企业针对性模拟生成交通、政务、金融等场景下的“拟合数据”,提升模型面对新数据时的表现能力。
随着基础大模型能力持续增强,高质量数据将成为每家企业人工智能战略必需品,新型数据管理和处理领域的公司正站在风口上。蚂蚁数科围绕集数据标注、加工、生成为一体的综合方案,将进一步提升数据丰富度,为企业用好大模型铺平道路。
据了解,蚂蚁数科已经形成ABC三大业务板块,服务产业数字化。A是指AI服务(AI+),以AI技术重构升级风控、营销等场景效率,助力企业在大模型时代建立竞争优势;B是指区块链服务(Blockchain+),通过科技构建产业信任,提升数字化协作效率,加速数据资产流通;C是指云服务(Cloud+),帮助企业迈入数字化「上云」阶段,打造更强大的科技引擎。