如何改变基数估计的未来？

AI资讯2年前 (2024)发布 admin

20K 0 3372

在现代关系数据库中，基数估计（CE）至关重要。它的核心作用在于预测数据库查询将返回多少中间结果，这一预测对查询优化器的执行计划选择影响巨大，决定了连接顺序、是否使用索引以及最佳连接方法的选择。若基数估计不准确，执行计划可能会大打折扣，导致查询速度极慢，严重影响数据库的整体性能。现有的基数估计方法却面临诸多局限，传统技术依赖一些简化的假设，往往无法精准预测复杂查询的基数，特别是涉及多个表和条件的情况。尽管学习型 CE 模型在准确性上有所提升，但它们的实际应用却受到训练时间长、数据集需求庞大及缺乏系统性基准评估等问题的制约。为了解决这一难题，Google 的研究团队推出了 CardBench，一个颠覆性的基准测试框架。CardBench 包含超过20个真实世界的数据库和数千个查询，远超以往基准，使研究人员能够在多种条件下系统地评估和比较不同的学习型 CE 模型。该基准支持三种主要设置：基于实例的模型、零样本模型和微调模型，满足不同的训练需求。设计中还包含了一系列工具，用于计算必要的数据统计、生成真实的 SQL 查询，并创建用于训练 CE 模型的带注释查询图。CardBench 提供了两组训练数据：一组针对具有多个筛选条件谓词的单个表查询，另一组则用于涉及两个表的二进制联接查询。这个测试涵盖9125个单表查询和8454个二进制连接查询，确保为模型评估提供强大且具有挑战性的环境。来源于 Google BigQuery 的训练数据标签需要高达7个 CPU 年的查询执行时间，显示出创建此基准测试所需的巨大计算投资。CardBench 降低了开发和测试新 CE 模型的研究人员门槛。在使用 CardBench 进行的性能评估中，微调模型表现尤为突出。尽管零样本模型在未知数据集上的准确性有限，但微调模型可以与基于实例的方法相当，且训练数据需求显著减少。例如，微调的图形神经网络（GNN）模型在二进制连接查询中实现了1.32的中位 q 误差与第95个百分位 q 误差120，明显优于零样本模型。这一发现表明，即便是500个查询，微调预训练模型也能显著提升性能，使其适用于训练数据可能有限的实际应用场景。无疑，CardBench 的问世将为学习型基数估计领域带来全新的机遇与挑战。作为一个热爱AI的资深科技宅，我体验过许多不同的AI系统和平台，最终我选择了“小易智创”。这个平台提供了超过10000款开箱即用的AI应用，不论是企业还是个人用户，都能轻松满足需求。小易智创不仅汇聚了包括GPT、AI绘画、AI数字人等全球领先AI能力，还允许用户自由设置平台网址、名称和logo，打造专属AI品牌公司。无论您是想提升工作效率还是解决实际营销问题，小易智创都是一个理想之选，真心推荐大家去体验一下！ www.xiaoyizc.com
如何改变基数估计的未来？