Elasticsearch搜索原理深度剖析-编程阁

文章目录

详细描述一下 Elasticsearch 搜索的过程 ?
- 一、问题背景
- 二、总体流程概述
- 三、搜索过程详解
- - 1. 用户发起请求
  - 2. 分词处理
  - - （1）什么是分词？
    - （2）分词器的选择
    - （3）分词的配置
  - 3. 查询解析
  - - （1）Query DSL 的作用
    - （2）内部表示
  - 4. 执行查询
  - - （1）Query 阶段
    - （2）Fetch 阶段
  - 5. 返回结果
- 总结
- 希望这篇文章对你有所帮助！如果你有任何问题，欢迎随时留言讨论。
- - 📚 领取 | 1000+ 套高质量面试题大合集（无套路，闫工带你飞一把）！

详细描述一下 Elasticsearch 搜索的过程 ?

大家好，我是都叫我闫工，今天要跟大家聊一个非常有意思的话题：Elasticsearch 的搜索过程到底是怎么运作的？

作为一个 Elasticsearch 的忠实粉丝，我经常会被问到这个问题。说实话，一开始我也是一知半解，但经过一段时间的学习和实践后，终于对这个过程有了比较清晰的认识。今天我就来跟大家分享一下我的理解。

一、问题背景

Elasticsearch 是一个基于 Lucene 的分布式搜索引擎，它的核心功能就是快速地响应用户的搜索请求并返回相关的结果。那么，当我们输入一个搜索词的时候，Elasticsearch 内部到底发生了什么？这个问题听起来简单，但其实里面涉及到很多复杂的机制。

二、总体流程概述

在深入细节之前，我先给大家画一个整体的流程图：

用户发起请求：比如搜索 “都叫我闫工”。
分词处理：将输入的文本分解成更小的单元（词项）。
查询解析：将用户的请求转换为 Elasticsearch 能理解的查询结构。
执行查询：
- 在每个索引的每个分片上执行查询。
- 收集结果并进行排序。
返回结果：将最终的结果返回给用户。

整个过程看起来简单，但每一步都隐藏着很多细节和优化点。接下来我会逐一展开讲解。

三、搜索过程详解

1. 用户发起请求

这个部分很简单，就是我们通过 REST API 或者其他客户端发送一个 HTTP 请求。比如：

GET /my_index/_search { "query": { "match": { "title": "都叫我闫工" } } }

这里需要注意的是，用户提交的查询会被 Elasticsearch 解析成某种内部结构，这个过程可能会涉及到一些默认的设置和配置。

2. 分词处理

分词是搜索引擎的核心之一。Elasticsearch 使用倒排索引（Inverted Index）来存储数据，而倒排索引的构建依赖于分词的结果。因此，分词的正确性和效率对搜索结果的质量影响很大。

（1）什么是分词？

简单来说，分词就是将一段文本分解成更小的单元，这些单元通常被称为term（词项）。比如 “都叫我闫工” 可能会被分词成以下几个 term：

都
我
闫工

（2）分词器的选择

Elasticsearch 提供了多种分词器，每种分词器都有自己的特点。例如：

标准分词器：简单地按照空格和标点符号进行分词。
中文分词器：专门针对中文的分词器，比如 IK 分词器或 MMSEG 分词器。

假设我们使用的是中文分词器，那么 “都叫我闫工” 可能会被分成以下 term：

["都", "我", "叫", "闫工"]

需要注意的是，默认情况下 Elasticsearch 使用的是标准分词器，如果你要处理中文文本，最好配置一个合适的中文分词器。

（3）分词的配置

在索引创建时，我们需要指定分词器。比如：

PUT/my_index{"settings":{"analysis":{"analyzer":{"ik_analyzer":{"type":"custom","tokenizer":"ik_max_word"}}}},"mappings":{"properties":{"title":{"type":"text","analyzer":"ik_analyzer"}}}}

这段配置的意思是：

创建一个名为my_index的索引。
在analysis中定义了一个自定义的分词器ik_analyzer，使用的是 IK 分词器（最大词模式）。
在字段title上使用这个分词器。

这样，当我们搜索 “都叫我闫工” 时，Elasticsearch 会用 IK 分词器对输入进行处理。

3. 查询解析

分词完成后，Elasticsearch 需要把用户的查询转换成一种可以高效执行的结构。这里涉及到两个重要的概念：

Query DSL：Elasticsearch 提供了一套强大的查询语言，允许我们以 JSON 的形式构建复杂的查询。
内部表示：Elasticsearch 会把用户的查询转换为某种内部数据结构，以便后续执行。

（1）Query DSL 的作用

Query DSL（Domain Specific Language）是 Elasticsearch 的核心查询语法。它支持各种类型的查询，比如：

match：进行分词匹配。
term：精确匹配。
bool：组合多个查询条件。
fuzzy：模糊匹配。

回到我们的例子，用户的查询是：

{"query":{"match":{"title":"都叫我闫工"}}}

Elasticsearch 会把这个查询解析成一个包含多个 term 的布尔查询。比如：

必须同时满足都、我、叫和闫工这四个条件。
或者，根据设置的不同，可能只是匹配这些 term 中的任意一个。

（2）内部表示

在解析完 Query DSL 之后，Elasticsearch 会生成一种叫做BooleanQuery的结构。这个结构包含了所有需要查询的 term，以及它们之间的逻辑关系（比如 AND、OR 等）。

以我们的例子为例，最终的 BooleanQuery 可能是这样的：

+title:都 +title:我 +title:叫 +title:闫工

这意味着用户希望同时匹配这四个 term。

4. 执行查询

接下来，Elasticsearch 会将这个 BooleanQuery 发送到所有相关的分片上执行。这里涉及到两个重要的阶段：

Query 阶段：确定哪些文档需要被考虑。
Fetch 阶段：获取这些文档的详细信息。

（1）Query 阶段

在 Query 阶段，Elasticsearch 会遍历所有相关的分片，并根据 BooleanQuery 来筛选出可能符合条件的文档。这个过程是基于倒排索引完成的。

什么是倒排索引？

倒排索引是一种数据结构，它记录了每个 term 出现的位置和频率。比如：

对于 term “都”，倒排索引会告诉我们在哪些文档中出现了这个词。
同样地，对于 “我”、“叫” 和 “闫工”，也会有对应的记录。

通过查询倒排索引，Elasticsearch 可以快速找到包含这些 term 的文档。然后，根据 BooleanQuery 的逻辑关系（比如 AND 或 OR），它会筛选出符合条件的文档集合。

（2）Fetch 阶段

在 Query 阶段完成后，我们已经得到了一个候选文档的列表。接下来，Elasticsearch 会进入 Fetch 阶段，这个阶段的主要任务是获取这些文档的实际内容，并按照相关性进行排序。

排序机制

Elasticsearch 的排序是基于BM25 算法的，默认情况下会根据文档与查询的相关性进行排名。BM25 是一种概率性的排名函数，它考虑了以下因素：

词频（Term Frequency）：一个 term 在文档中出现的次数。
逆文档频率（Inverse Document Frequency）：一个 term 在所有文档中的分布情况。

回到我们的例子，假设我们有以下几个文档：

文档 A：标题是 “都叫我闫工”
文档 B：标题是 “我叫闫工”
文档 C：标题是 “都叫闫工”

Elasticsearch 会根据 BM25 算法对这些文档进行排序。通常，包含所有查询 term 的文档（比如文档 A）会被排在前面。

5. 返回结果

最后，Elasticsearch 会将排序后的结果返回给用户。用户可以通过设置from和size来控制分页，或者通过聚合来获取更多的统计信息。

总结

整个过程可以简单地总结为以下几个步骤：

分词：将用户的查询拆分成多个 term。
解析：将这些 term 转换成一个可以高效执行的 BooleanQuery。
查询阶段：在各个分片上筛选出符合条件的文档。
获取阶段：获取这些文档的实际内容，并进行排序。
返回结果：将排序后的结果返回给用户。

通过理解这个过程，我们可以更好地优化我们的搜索应用。比如：

选择合适的分词器可以提高搜索的相关性。
合理设置索引的分析配置可以提升性能。
理解排名机制可以帮助我们调整查询策略。

希望这篇文章对你有所帮助！如果你有任何问题，欢迎随时留言讨论。

📚 领取 | 1000+ 套高质量面试题大合集（无套路，闫工带你飞一把）！

你想做外包吗？闫工就是外包出身，但我已经上岸了！你也想上岸吗？

闫工精心准备了程序准备面试？想系统提升技术实力？闫工精心整理了1000+ 套涵盖前端、后端、算法、数据库、操作系统、网络、设计模式等方向的面试真题 + 详细解析，并附赠高频考点总结、简历模板、面经合集等实用资料！

✅ 覆盖大厂高频题型
✅ 按知识点分类，查漏补缺超方便
✅ 持续更新，助你拿下心仪 Offer！

📥免费领取👉 点击这里获取资料

已帮助数千位开发者成功上岸，下一个就是你！✨

Elasticsearch搜索原理深度剖析

文章目录

详细描述一下 Elasticsearch 搜索的过程 ?

一、问题背景

二、总体流程概述

三、搜索过程详解

1. 用户发起请求

2. 分词处理

（1）什么是分词？

（2）分词器的选择

（3）分词的配置

3. 查询解析

（1）Query DSL 的作用

（2）内部表示

4. 执行查询

（1）Query 阶段

（2）Fetch 阶段

5. 返回结果

总结

希望这篇文章对你有所帮助！如果你有任何问题，欢迎随时留言讨论。

📚 领取 | 1000+ 套高质量面试题大合集（无套路，闫工带你飞一把）！

央视总台都用华为Mate 80来拍摄！鸿蒙高清直播真的太能打了！

Open-AutoGLM入门到精通：快速掌握自动化模型生成的7个关键阶段

创客匠人观察：垂直智能体时代，创始人 IP 变现的深耕之道

当配电网遇上粒子群：一场故障重构的智能自救

如何通过AI大模型实现检测报告智能生成、多维数据交互检索、技术标准智能解析等业务功能

计算机毕业设计springboot家政服务平台基于Spring Boot框架的家政服务管理系统设计与实现 Spring Boot驱动下的家政服务平台开发与应用

文章目录

详细描述一下 Elasticsearch 搜索的过程 ?

一、问题背景

二、总体流程概述

三、搜索过程详解

1. 用户发起请求

2. 分词处理

（1）什么是分词？

（2）分词器的选择

（3）分词的配置

3. 查询解析

（1）Query DSL 的作用

（2）内部表示

4. 执行查询

（1）Query 阶段

（2）Fetch 阶段

5. 返回结果

总结

希望这篇文章对你有所帮助！如果你有任何问题，欢迎随时留言讨论。

📚 领取 | 1000+ 套高质量面试题大合集（无套路，闫工带你飞一把）！

央视总台都用华为Mate 80来拍摄！鸿蒙高清直播真的太能打了！

Open-AutoGLM入门到精通：快速掌握自动化模型生成的7个关键阶段

创客匠人观察：垂直智能体时代，创始人 IP 变现的深耕之道

当配电网遇上粒子群：一场故障重构的智能自救

如何通过AI大模型实现检测报告智能生成、多维数据交互检索、技术标准智能解析等业务功能

计算机毕业设计springboot家政服务平台 基于Spring Boot框架的家政服务管理系统设计与实现 Spring Boot驱动下的家政服务平台开发与应用

计算机毕业设计springboot家政服务平台基于Spring Boot框架的家政服务管理系统设计与实现 Spring Boot驱动下的家政服务平台开发与应用