据小易智创xiaoyizc.com(不可错过的AI创业项目)观察:加州理工学院推出的Find3D,是一款令人惊叹的3D部件分割模型,能够根据任意文本查询,实现对各种对象任意部分的精确分割。其强大的数据引擎能够自动从互联网上获取3D资产,生成高效的训练数据,并使用对比训练方法训练出一个可扩展的3D模型。
Find3D以其出色的性能而备受瞩目,在Objaverse-General、ShapeNet-Part和PartNet-E等多个数据集上表现卓越,平均交并比(mIoU)相比次佳方法提升了惊人的3倍!无论是来自iPhone拍摄的照片,还是AI生成的图像,Find3D都能轻松处理,实现惊艳的野外3D构建。
此技术具备诸多强大功能。其开放世界3D部分分割能力,允许用户仅通过文本查询就能识别和分割任意物体的任何部分,完全不受预定义部分集的限制。同时,Find3D还实现了无需人工注释,利用数据引擎自动生成训练数据,大幅提升了工作效率。
在性能上,Find3D表现得淋漓尽致,其推理速度比现有基线快6至300倍,并在不同物体姿态和查询条件下保持稳定分割效果。它支持多种文本查询类型,包括不同粒度和描述风格,使得查询灵活性极高。
从技术原理来看,Find3D的数据引擎利用2D基础模型自动注释3D对象,通过渲染3D资产生成多个视图,再由SAM进行分割。每个掩码与相应的文本名称形成(掩码,文本)对,并嵌入到视觉和语言基础模型中。模型训练则基于Transformer,能够有效处理标签的多义性及部分可见性问题,确保在开放世界中的准确分割。
总之,Find3D以其前所未有的能力,正在开启3D分割技术的新篇章。