• 主页
  • 架构
  • 编程语言
  • 数据存储
  • 网络
  • VMware
  • 服务器
  • 组网
  • AI
  • 算法系列
  • 设计模式
  • 读书笔记
  • 思考
  • 工具
  • 其它技术

  • 主页
  • 架构
  • 编程语言
  • 数据存储
  • 网络
  • VMware
  • 服务器
  • 组网
  • AI
  • 算法系列
  • 设计模式
  • 读书笔记
  • 思考
  • 工具
  • 其它技术

3 Elasticsearch索引简介

2025-01-29

ES的索引和mapping有很大的关系,因为mapping类似于mysql的表结构,定义了字段数据类型,在es中不同的字段数据类型,使用不同的策略索引和结构。

mapping

一个mapping的结构如下

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
{
"mapping": {
"properties": {
"@version": {
"type": "text",
"fields": {
"keyword": {
"type": "keyword",
"ignore_above": 256
}
}
},
"genre": {
"type": "text",
"fields": {
"keyword": {
"type": "keyword",
"ignore_above": 256
}
}
},
"id": {
"type": "text",
"fields": {
"keyword": {
"type": "keyword",
"ignore_above": 256
}
}
},
"title": {
"type": "text",
"fields": {
"keyword": {
"type": "keyword",
"ignore_above": 256
}
}
},
"year": {
"type": "long"
}
}
}
}

字段解释

一些字段的解释。其中 fields是多字段特性,让一个字段拥有多个子字段类型,使得一个字段能够被多个不同的索引方式进行索引。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
{
"mappings": {
"properties": {
"title": { # 字段名称
"type": "text", # 字段类型
"analyzer": "english", # 字段分词器
"fields": { # 多字段域,固定写法
"std": { # 子字段名称
"type": "text", # 子字段类型
"analyzer": "standard" # 子字段分词器
}
}
}
}
}
}

数据类型

struct

索引策略

对于字段数据类型,只有text类型会分词,其他类型都不会进行分词。分词的时候可以选择不同的分词器。

  1. 文本(Text)字段
  • 索引策略:文本字段在被索引时,Elasticsearch 会对其进行分析(Analysis)。分析过程包括将文本拆分成一个个的词项(Term),例如对于句子 “The quick brown fox jumps over the lazy dog”,可能会被拆分成 “the”、“quick”、“brown”、“fox” 等词项。然后对这些词项进行标准化处理,如将大写转换为小写等操作。
  • 倒排索引:是倒排索引。倒排索引中会记录每个词项在哪些文档中出现,以及在文档中的位置等信息。这样在进行文本搜索时,可以快速定位包含查询词项的文档。
  1. 关键字(Keyword)字段
  • 索引策略:关键字字段被视为一个整体,不会进行分析。例如,一个包含电子邮件地址的关键字字段,会被完整地索引为一个单独的值,而不是被拆分成多个部分。
  • 倒排索引:是倒排索引。不过由于它是整体索引,在查询时是精确匹配整个关键字值,而不是像文本字段那样对词项进行匹配。
  1. 数值(Numeric)字段(如整数、长整数、浮点数等)
  • 索引策略:数值字段按照其数值类型直接索引。例如,整数类型的字段会按照整数的二进制表示进行索引,以便进行数值范围查询等操作。
  • 倒排索引:不是传统意义上的倒排索引。数值字段的索引结构更适合进行数值比较运算,如大于、小于、等于等操作,而不是基于词项的匹配。
  1. 日期(Date)字段
  • 索引策略:日期字段会被转换为内部的日期格式(例如,基于毫秒的时间戳)进行索引。Elasticsearch 支持多种日期格式的解析,在索引时会将输入的日期字符串转换为统一的内部格式。
  • 倒排索引:是倒排索引。这使得可以进行日期范围查询等操作,例如查找某个时间段内的文档。
  1. 布尔(Boolean)字段
  • 索引策略:布尔字段简单地以其布尔值(true 或 false)进行索引。
  • 倒排索引:是倒排索引。可以方便地查询布尔值为特定值(true 或 false)的文档。

倒排索引

说明

以目录为例,这种是正排索引

image-20250129222200041

根据单词找到页码就是倒排索引

image-20250129222248493

对于搜索引擎而言

  • 正排索引 - 文档ID到文档内容和单词的关联
  • 倒排索引 - 单词到文档ID的关系

实例

这是一个倒排索引的例子,将左侧文档里的内容,改成倒排索引后的样子。

image-20250129222836863

右侧的图可以分为两大部分:

  1. 单词词典(Term Dictionary):记录所有文档的单词,记录单词到倒排列表的关联关系
  2. 倒排列表(Posting List):记录单词对应的文档组合,由倒排索引项(Posting)组成
  • 倒排索引项包含:文档ID,词频TF(该单词在文档中出现的次数,用于相关性评分),位置(Position,单词在文档中分词的位置,用于语句搜索),偏移(Offset,记录单词的开始结束位置,实现高亮显示)

在实际中,由于Term Dictionary可能非常大,无法全部放入内存,因此Elasticsearch引入了Term Index。Term Index类似于字典的索引页,它包含了词的一些前缀和对应的Term Dictionary的block位置。通过Term Index,Elasticsearch可以快速定位到Term Dictionary的某个位置,然后从这个位置顺序查找所需的词。

image-20250129223453125

资料

  1. 聊聊 Elasticsearch 的倒排索引
  2. 面试官:ES 倒排索引如何实现?详细描述一下 ES 索引文档的过程?ES如何保证并发下读写一致?ES 如何实现 master 选举?
  3. ES-操作索引库_mapping属性
  4. elasticsearch 字段类型的索引、字段类型修改、字段类型、分页、排序、分组、聚合
  5. 数组如何在ElasticSearch中索引
  6. es的mapping参数-fields

扫一扫,分享到微信

微信分享二维码
4 Elasticsearch常用指令
2 Elasticsearch基本概念
© 2025 John Doe
Hexo Theme Yilia by Litten