什么是信息检索?

2025-11-20 10:12:04   生存训练营

作者

Jacob Murel Ph.D.

Senior Technical Content Creator

Meredith Syed

Technical Content, Editorial Lead

IBM

信息检索用于解决用户查询的数据检索问题。它为图书馆目录和 Web 搜索引擎等搜索工具提供支持。

信息检索 (IR) 是计算机科学和信息科学的一个广泛领域。我们通常可以将其定义为在大量数据集中查找非结构化数据,以满足特定的信息需求。 1 IR 系统(信息检索系统)根据给定的查询提供材料。系统在集合中搜索与用户查询相关的项目。然后,它将这些项目返回给用户,通常是以列表形式按计算的相关性排序。2

IR 系统和技术为网络搜索引擎和 Digital Library 目录等一系列搜索工具提供了动力。

信息检索与数据检索的对比

请注意,许多在线资源将信息检索系统与数据检索进行了对比:信息检索系统检索非结构化信息,如文本文档和网页;相比之下,数据检索处理结构化数据,如关系数据库管理系统中所示。通过扩展,数据检索使用结构化查询语言 (SQL) 来执行搜索查询。

然而,非结构化和非关系型 IR 与结构化和关系型数据检索之间的区别比许多在线资源所表明的更加模糊。IR 系统对信息进行索引,从而构建信息结构。例如,虽然传统上 IR 系统处理的是原始文本文档检索,但有些 IR 系统使用 XML 来表示文本并编制索引。研究文献通常将基于 XML 的系统描述为 IR 的一个分支,称为 结构化检索 或 半结构化检索。3 此外,文献中对关系 IR 模型的使用进行了数十年的深入了解。4

因此,IR 与数据检索之间的区别比传统观点更加模糊。事实上,鉴于数据顾名思义就是信息,结构化数据检索也许更应该被理解为一种信息检索。

信息检索与推荐系统的对比

请注意,IR 有别于推荐系统。机器学习推荐技术(例如 协同过滤 和 基于内容的过滤)或许可以理解为一种信息过滤形式,是 IR 系统的一项子任务。然而,IR 和推荐系统是截然不同的。传统上,投IR 需要用户查询;而推荐引擎通常无需用户查询即可检索对象。5

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。

立即订阅

信息检索系统的工作原理

不同的信息检索模型以不同方式表示信息。所选择的文档表示形式在很大程度上决定了模型如何搜索和检索信息。然而,编制索引、加权和相关反馈是信息检索模型中常见的三种信息检索技术。

索引

编制索引实质上就是创建元数据。6 很多人都遇到过印刷书籍后面有索引的情况。它是从给定的印刷文件中编译出来的一套结构化单词,可让读者随时查阅有关给定主题的段落。IR 索引与之类似。IR 索引(或 反转索引)是一种源自一组文档的数据结构,旨在改进搜索查询结果。7

索引构建首先需要对文档进行解析,以提取特征。例如,我们正在为基于文本的文档创建一个信息检索系统。与自然语言处理 (NLP) 中的常见做法一样,我们通过各种预处理技术(如标记化和删除停用词)来准备文档集。然后,信息检索系统会将处理过的文件集表示为组织好的数据结构。其中一种结构是字典,每份文档都有一个 ID,其中出现的单词(或索引词)将指向该 ID。8文本检索系统的另一种潜在数据结构是向量空间模型,如 Bag of Words。9这两种方法都提取单词作为特征,然后根据用户查询检索文档并对文档进行排序。

加权

搜索系统如何对给定查询的近似匹配或精确匹配进行排序?信息排序和检索的方法取决于信息检索模型的类型和系统中使用的文档表示形式。然而,索引词项在 IR 系统如何根据查询对文档进行排序方面起着关键作用。但并不是所有的索引词项都是一样的。因此,IR 系统采用不同的方法,根据索引词项的重要程度对其进行加权。

使用 Bag of Words 等矢量空间模型的 IR 系统可能会使用词频-逆文档频率 (TF-IDF)。TF-IDF 是 Bag of Words 的一种变体,它解释了单词在文本集中每个文档中的普遍性。给定单词出现的文档越多,TF-IDF 越大,该单词的权重就越小。其他方法包括奇异值分解 (SVD) 和潜在语义分析 (LSA),后者是一种常见的 主题建模 方法。10

此类加权方法会影响 IR 系统在响应查询时如何对文档进行排序。但不同类型的 IR 模型以不同的方式使用这些权重进行排名。

相关性反馈

系统如何改进搜索结果?也就是说,系统如何对用户的搜索进行微调,并增加返回的相关文档数量?

相关性反馈是一种用于改进搜索结果的一种常用信息检索技术。相关性反馈主要是收集用户对一组初始查询结果的响应信息。然后,系统会根据用户的响应对项目相关性重新加权。然后,它会返回一组新的搜索结果,其中包含初始查询和用户对初始查询结果的反馈。

相关性反馈通常涉及用户对检索到的文档的相关性提供明确的响应。隐式反馈是一种变体,它通过观察用户行为(例如,用户在搜索结果页面中点击哪个网站链接)来推断项目的相关性。伪相关性反馈假设初始查询的前 n 个检索到的文档是相关的。然后,它会收集这些文档的其他共有特征,以进一步修改查询。11

Mixture of Experts | 8 月 28 日,第 70 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

观看最新播客节目

信息检索技术的类型

信息检索模型种类繁多。要提供详尽无遗的总结,需要进行更广泛的讨论。尽管如此,IR 教科书和百科全书式的综述往往重叠提及三种一般的 IR 方法:布尔法、代数法和概率法。

布尔模型

布尔模型也许是最直接、甚至最简单的 IR 模型。 如前所述,它们使用索引词项字典结构。然后,该模型根据检索到的文档中是否存在用户查询中的单词对文档进行排序。例如,如果用户提出“jazz 和 dancing”的查询,布尔模型只检索包含 jazz乐 和 dancing 这两个组合词的文档。因此,布尔模型只考虑文档中是否存在单词;布尔检索系统中不存在部分匹配。文本预处理技术(如 词干提取 和 词形还原 )可以解决形态变体的问题,例如包含 dance、 dances 或 dancer 的文档,而不仅仅是用户的查询 dancing。

如前所述,布尔模型只考虑单词的存在和不存在。这种二元决策标准缺乏分级标准来确定哪些文档与用户的查询最相关。一种可能的解决方案是根据文档中用户查询词项的频率对文档进行分级。换句话说,文档提到 Jazz 和 dancing 的次数越多,模型就越认为它与用户的查询越相关。但是,词频的增加并不一定表示相关性更大。尽管存在这一潜在缺陷,但由于布尔模型易于实施,已在许多 IR 系统中得到使用。12

代数模型

布尔文档检索禁止任何形式的部分匹配。代数和概率模型通过为索引词分配非二进制权重来解决此问题。

其中一个具有代表性的代数模型是矢量空间模型。在这种方法中,IR 系统将文档和查询表示为多维矢量空间中的 矢量 。在此空间中,索引词项可能是矢量空间的特征,查询和文档根据其包含索引词项的存在和频率在此空间中绘制。IR 系统根据搜索查询和文档在矢量空间中的接近程度来计算它们之间的相似性。

有许多用于确定矢量空间模型中的接近度的指标,例如 Jaccard 和点积。然而,最常见的一种可能是余弦相似度,用公式表示为:

此处,x 和 y 表示向量空间中的两个向量。余弦相似度分数可以是介于 -1 到 1 之间的任何值。余弦分数越高,两个项目就越相似。

IR 矢量空间模型会根据测得的相似度按顺序返回文档。这样,代数 IR 系统(如矢量空间模型)就可以进行部分匹配,从而提供更精确或更细致的信息检索形式。13

概率模型

概率模型还允许在用户查询和文档之间进行部分匹配。概率模型的功能基于这样的假设,即给定查询具有理想的检索信息系统资源集合。诚然,该理想集合还不得而知。但索引词项语义学可以表征该集合的属性。

与代数模型一样,概率模型使用索引词的存在和频率来确定查询和文档之间的相似性。但概率模型的不同之处在于它们考虑了更多因素。例如,它们可能会考虑索引词的共现频率(索引词在文档中同时出现的频率)与文档全文长度的关系,或者单个索引词在给定查询中的所有查询词中的出现频率。这些只是考虑的一些潜在因素,更详细的讨论需要对概率论有更透彻的理解。

请注意,并非所有概率模型在计算文档相似度或概率时都会考虑相同的因素。例如,二元独立模型 (BIM) 是第一个概率 IR 模型,不考虑词频。然而,采用 主题建模 技术 隐含狄利克雷分布 (LDA) 的模型将考虑词项共频。14

最近的研究

偏见。Web 搜索引擎可能是最著名的信息检索用例之一。文本摘要工具 PageRank 用于检索网页(HTML 文档)并对其进行排名。研究充分证实了一个不幸的现实,即搜索算法会助长一系列偏见,如种族偏见和性别偏见。15为此,已发表的实验深入研究了一系列旨在减少信息检索系统中的社会偏见的方法,例如负采样16以及对有偏见的结果进行惩罚的偏见感知算法17。减少偏见是围绕信息检索甚至人工智能制定伦理规范的研究的一个重要领域。

小学数学究竟学什么?都在这里了,太全了,值得收藏!
桃坪羌寨 | 游走电影《杀生》拍摄地