在工业、能源、金融、医疗这些行业中应用的AI,需求特征是参数精度高、训练数据需求量大。但问题也来了,一家传统企业去哪搞那么多数据,又哪来的算力进行长时间、需要复杂调参优化的模型训练呢?
面对这个问题,业界也有个办法。就是平台提供预训练模式,然而企业买回去进行二次加工,从而生成自己想要的AI能力。这个逻辑很容易理解,有点像买熟食回家再二次烹饪一下。家里人还是会夸你手艺好,谁又在乎前面98%的步骤都是在餐厅完成的呢?
在AI领域,这个用半成品再加工的逻辑被叫做迁移学习。其在大数据集训练的预训练模型上再完成小数据的迁移,最终在企业用户时间、人力成本的基础上,保证了模型的精度和使用效果。
大规模预训练模型的逻辑很早就被提出,但近两年在中国AI产业中开始不断得到重视,形成了解决AI工业化的核心思路之一。一般来说,云计算企业会提供NLP、机器视觉等主要品类的AI预训练模型,或者重要行业、重要工作场景中的预训练模型,供企业下载部署。一方面以此带动企业用云量,另一方面还可以衍生出更多的智能化解决方案服务。
预训练模型这个领域的竞争主要集中在两个方向,一是有效数据的参数规模和收敛精度,以此来决定模型在通用赛道上的能力指数;二是预训练模型的行业细分度,以此来决定与行业、任务场景的适配广度。
最典型的预训练模型应用场景,应该是工业巡检、质检等领域。这些领域的绝大部分数据精度要求都是一样的,就是识别能力的精准度。这个可以在云计算厂商进行大数据预训练。而厂商到底是要识别划痕还是识别污垢,就可以回到厂里进行迁移训练来搞定。
最后说说问题,预训练模型目前还更多属于云计算厂商提供的附加产品,不像基础AI算法一样有稳定的市场空间。究竟其前景如何还有待检验。另外预训练模型虽然比较受企业用户的欢迎,但商业模式还有待探索,给供应商带来的实际价值不太清晰。
结束语
当中国AI走到2021,工业级、产业级成为了三句不离口的关键词。但真正具备工业化特征的AI,其实就像齿轮、轴承、钢筋一样,是标准化、规模化、低成本的产物,而不是某种美好的智能魔法。
中国AI开始大面积拥抱工业化、流程化、标准化,也许将构成一个交叉点。这条赛道上的AI,不那么受资本关注,理论上更接近企业IT而非传统意义上的AI生态,至少一点也不极客,不够酷炫。
但这条路很重要,或者可以说是全球AI产业的一个拐点。尤其重要的是,中国AI的前景,不能一直被美国AI的上限所制约。行业知识图谱、自动机器学习这些东西其实都发源于美国,但在应用化、平台化和标准化上,美国AI并没有中国业界来的干脆有力度。