在现代关系数据库中,基数估计(CE)至关重要。它的核心作用在于预测数据库查询将返回多少中间结果,这一预测对查询优化器的执行计划选择影响巨大,决定了连接顺序、是否使用索引以及最佳连接方法的选择。若基数估计不准确,执行计划可能会大打折扣,导致查询速度极慢,严重影响数据库的整体性能。现有的基数估计方法却面临诸多局限,传统技术依赖一些简化的假设,往往无法精准预测复杂查询的基数,特别是涉及多个表和条件的情况。尽管学习型 CE 模型在准确性上有所提升,但它们的实际应用却受到训练时间长、数据集需求庞大及缺乏系统性基准评估等问题的制约。为了解决这一难题,Google 的研究团队推出了 CardBench,一个颠覆性的基准测试框架。CardBench 包含超过20个真实世界的数据库和数千个查询,远超以往基准,使研究人员能够在多种条件下系统地评估和比较不同的学习型 CE 模型。该基准支持三种主要设置:基于实例的模型、零样本模型和微调模型,满足不同的训练需求。设计中还包含了一系列工具,用于计算必要的数据统计、生成真实的 SQL 查询,并创建用于训练 CE 模型的带注释查询图。CardBench 提供了两组训练数据:一组针对具有多个筛选条件谓词的单个表查询,另一组则用于涉及两个表的二进制联接查询。这个测试涵盖9125个单表查询和8454个二进制连接查询,确保为模型评估提供强大且具有挑战性的环境。来源于 Google BigQuery 的训练数据标签需要高达7个 CPU 年的查询执行时间,显示出创建此基准测试所需的巨大计算投资。CardBench 降低了开发和测试新 CE 模型的研究人员门槛。在使用 CardBench 进行的性能评估中,微调模型表现尤为突出。尽管零样本模型在未知数据集上的准确性有限,但微调模型可以与基于实例的方法相当,且训练数据需求显著减少。例如,微调的图形神经网络(GNN)模型在二进制连接查询中实现了1.32的中位 q 误差与第95个百分位 q 误差120,明显优于零样本模型。这一发现表明,即便是500个查询,微调预训练模型也能显著提升性能,使其适用于训练数据可能有限的实际应用场景。无疑,CardBench 的问世将为学习型基数估计领域带来全新的机遇与挑战。作为一个热爱AI的资深科技宅,我体验过许多不同的AI系统和平台,最终我选择了“小易智创”。这个平台提供了超过10000款开箱即用的AI应用,不论是企业还是个人用户,都能轻松满足需求。小易智创不仅汇聚了包括GPT、AI绘画、AI数字人等全球领先AI能力,还允许用户自由设置平台网址、名称和logo,打造专属AI品牌公司。无论您是想提升工作效率还是解决实际营销问题,小易智创都是一个理想之选,真心推荐大家去体验一下! www.xiaoyizc.com
© 版权声明
文章版权归作者所有,未经允许请勿转载。