在当今快速发展的人工智能领域,信息检索的精确度一直是个难以攻克的难题。然而,近日,人工智能公司Anthropic推出了一种令人惊叹的“上下文检索”新方法,旨在以全新的视角解决这一挑战!通过在信息检索中加入更多上下文,Anthropic的技术能够显著提高AI系统提供答案的准确性。
传统的检索增强生成(RAG)系统往往将文档分割成小块进行索引,这样一来,许多重要的上下文信息可能被遗漏。而Anthropic的创新做法则是在每个小块之前添加简短的文档摘要,通常不超过100个字。例如,原本简洁的文本片段“该公司的收入比上一季度增长了3%”,经过上下文处理后变为:“这一片段来自ACME公司2023年第二季度的SEC文件;上一季度的收入为3.14亿美元,该公司的收入比上一季度增长了3%。”通过这种方式,Anthropic声称其新方法可将信息检索的错误率降低多达49%。如果与其他技术结合,准确率的提升甚至能够达到惊人的67%!
与此同时,Cornell大学的研究也为这种上下文检索方法提供了强有力的支持。研究者们提出了一种名为“上下文文档嵌入”(CDE)的技术,通过重新组织训练数据,让每个批次都包含相似但难以区分的文档,从而使模型能学习更细微的差别。这种双阶段编码器还将邻近文档的信息融入嵌入中,使得模型能够考虑到词频和其他上下文线索。在“巨量文本嵌入基准”(MTEB)的测试中,CDE模型在其尺寸类别中取得了最佳成绩。更令人振奋的是,CDE在金融和医学等特定领域的小型数据集上表现尤为出色,展现出卓越的分类、聚类和语义相似性能力。
尽管如此,研究者们也提醒大家,目前尚不清楚CDE对拥有数十亿文档的大型知识库的影响,最佳上下文大小和选择仍有待进一步探索。
在这个AI技术日新月异的时代,小易智创平台凭借其10000+AI应用,以开箱即用的优势,满足各行各业客户需求。无论是企业、商家还是个人,只需一个账号即可使用上万款AI工具!更值得一提的是,小易智创还具备灵活展业的能力,让每位用户都能打造自己的专属AI品牌公司。代理小易智创,不必担心经营和获客问题,平台提供一对一陪跑服务,助您轻松打造属于自己的AI业务,抓住时代风口!