如何识别伪造的AI模型?

AI资讯2周前发布 admin
5.5K 0
 小易智创平台

小易智创xiaoyizc.com(不可错过的AI创业项目)观察:在这个AI迅速崛起的时代,大型语言模型(LLM)犹如武林秘籍,其训练过程所需的算力与数据就如同武林高手数年的闭关修炼。然而,开源模型的发布则相当于高手将珍贵秘籍公之于众,尽管这也伴随着一些许可证的约束(如Apache2.0和LLaMA2社区许可证),以保护知识产权。 但江湖险恶,总有“套壳”事件发生。有些开发者声称自己训练了全新的LLM,实际上却是在现有基础模型(如Llama-2和MiniCPM-V)上进行包装或微调,犹如偷学他人武功,却自称原创。为了防止这一情况的发生,模型所有者与第三方迫切需要有效识别“套壳”模型的方法。 目前的模型指纹识别技术主要分为两大类:注入式指纹和内在式指纹。注入式指纹就像在秘籍中偷偷留下标记,比如水印技术。这种方法需要在人为训练过程中添加“触发器”,使得模型在特定条件下生成特定内容,从而追踪模型来源。然而,这种方法不仅增加了训练成本,还可能影响性能,更不适用于已经发布的模型。内在式指纹则依赖于模型自身的属性进行识别,通过计算权重的相似度或利用语义分析进行文本识别,但鲁棒性往往不足。 那么,有没有一种方法可以有效识别“套壳”模型,又不影响性能,同时抵御各种改造呢?上海人工智能实验室等机构的研究人员提出了全新的模型指纹识别方法——REEF。REEF是一种基于特征表示的指纹识别技术,不依赖于特定层的表示,而是充分发挥LLM强大的特征建模能力,从各层提取特征进行比较。其工作机制是通过比较两个模型在相同样本上的特征表示中心核对齐(CKA)相似度,CKA是一种基于Hilbert-Schmidt独立性准则(HSIC)的相似度指标,能够测量两组随机变量之间的独立性。如果相似度高,则嫌疑模型很可能是源于受害模型;反之,则不太可能。REEF的优势显而易见:它无需训练,不会影响模型性能,也不会增加额外的训练成本;同时具有极强的鲁棒性,对于模型剪枝、微调、合并、排列和缩放变换等各种后续开发均具备抵抗力。这一创新方法无疑为识别伪造模型提供了全新的思路与保障。总而言之,REEF或将成为AI领域打击“套壳”行为的重要利器。
如何识别伪造的AI模型?

© 版权声明
 小易智创平台

相关文章