elasticsearch分片 elasticjob分片

2024-11-10 09:55 - 立有生活网

elasticsearch 是开源的吗

ES将数据存储于一个或多个索引中，索引是具有类似特性的文档的。类比传统的关系型数据库领域来说，索引相当于SQL中的一个数据库，或者一个数据存储方案(schema)。

可"inds.store.throttle.max_bytes_per_sec" : "100mb"以参考这个

Elasticsearch搜索过程解析

[a] 在升级之前，您必须删除或重新索引在2.x中创建的任何索引。

Shard = hash(routing) % number_of_primary_shards

与此相反，通过设置 index.routing.allocation.exclude.tag 为 value3 ，我们也可以创建一个索引让其分布在除了 tag 设置为 value3 的所有中，如：

除了对已知文档的搜索外，大部分请求实际上是不知道查询条件会命中哪些文档的。这些被查询条件命中的文档可能位于 Elasticsearch 集群中的任意位置上。因此，搜索请求的执行不得不去查询每个索引中的每一个分片。

在查询阶段，查询请求会广播到索引中的每一个主分片和备份中，每一个分片都会在本地执行检索，并在本地各建立一个优先级队列（Priority Queue）。该优先级队列是一份根据文档相关度指标进行排序的列表，列表的长度由 from 和 size 两个分页参数决定。

查询阶段可以再细分成3个小的子阶段：

（1）客户端发送一个检索请求给某个A，此时A会创建一个空的优先级队列，并配置好分页参数from与size。

（2）A将搜索请求发送给该索引中的每一个分片，每个分片在本地执行检索，并将结果添加到本地优先级队列中。

（3）每个分片返回本地优先级序列中所记录的ID与sort值，并发送给A。A将这些值合并到自己的本地优先级队列中，并做出全局的排序。

在获取阶段，主要是基于上一阶段找到所要搜索文档的具置，将文档数据内容取回并返回给客户端。

在Elasticsearch中，默认的搜索类型就是上面介绍的Query then Fetch。上述描述运作方式就是Query then Fetch。Query then Fetch有可能会出现打分偏离的情形，幸好，Elasticsearch还提供了一个称为"DFS Query then Fetch"的搜索方式，它和Query then Fetch基本相同，但是它会执行一个查询来计算整体文档的frequency。其处理过程如下所示：

（2）发送查询请求到每个分片。

（3）找到各个分片中所有匹配的文档，并使用全局的Term/Document Frequency信息进行打分。在执行过程中依然需要对结果构建一个优先队列，如排序等。

（4）返回关于结果的元数据到请求。需要指出的是，此时实际文档还没有发送到请求，发送的只是分数。

（5）请求将来自所有分片的分数合并起来，并在请求上进行排序，文档被按照查询要求进行选择。终，实际文档从它们各自所在的的分片上被检索出来，结果被返回给读者。

具体到一个分片，ELasticsearch是如何按照词条进行进行搜索的呢？

当词条数量较少时，我们可以顺序遍历词条获取结果，但如果词条有成千上万个时，Elasticsearch为了能快速找到某个词条，它对所有的词条都进行了排序，随后使用二分法查找词条，其查找效率为log(N)。这个过程就像查字典一样，因此排序词条的也称为Term Dictionary。

为了提高查询性能，Elasticsearch直接通过内存查找词条，而非从磁盘中读取。但当词条太多时，显然Term Dictionary也会很大，此时全部放在内存有些不现实，于是引入了Term Index。

Term Index就像字典中的索引页，其中的内容如字母A开头的有哪些词条，这些词条分别在哪页。通过Term Index,Elasticsearch也可以快速定位到Term Dictionary的某个OffSet（位置偏移），然后从这个位置再往后顺序查找。

前面提及了单个词条的搜索方法，而在实际应用中，更常见的往往是多个词条拼接程的"联合查询"。

为什么mongodb不能替代elasticsearch区别

flush：translog达到一定数据上限后会执行flush作，将内存中的segment合并为一个segment将数据持久化到磁盘，同时清除tanslog中的数据，用于将内存中的段保留在硬盘上。

1、MongoDB和Elasticsearch都是常用的数据库系统。

2、MongoDB是一个开例如，我们有一个分片规则属性叫 zone ，并且我们知道有两个 zone ， zone1 和 zone2 。下面是设置：源的文档型数据库，它支持存储结构化和非结构化数据。

3、Elasticsearch是一个开源的搜索和分析引擎，它可以用于搜索、分析和存储数据。

4、这两者在功能上有很大的不同。MongoDB是一个适用于存储数据的数据库系统，而Elasticsearch则是一个用于搜索和分析数据的工具

怎么把 elasticsearch 里面的数据导入到 hadoop 里面

性务有特殊要求；而权限管理也不用2、那么细，因为ES的权限这块还不完善。由于我们对ES的应用场景仅仅是在于对某段时间内的数据聚合作，没有大量的单文

为了支持高可用性与高伸缩性，Elasticsearch本身就是分布式设计的。从顶层的角度来说，Elasticsearch在索引（或者）中保存文档（或者数据记录），每个又分解为多个小块，称为分片。索引越大，所需要分配的分片越多

elasticsearch怎么提高磁盘性能io

ES集群可由多个组成，各Shard分布式地存储于这些上。

在一个的一个分片，不设置副本，测试性能

下表显示何时可以执行滚动升级，什么时候需要重新索引或删除旧的索引，以及何时需要完整的群集重新启动。

在完全默认设置上记录性能数据，作为测试的基准线

确保性能测试持续30分钟以上以确认长时间的性能；短时间的测试可能不会碰到segment合并和GC，无法确认这些因素的影响

bulk使用建议

每个请求大小建议在5-15MB，逐步增大测试,当接收到EsRejectedExecutionException，就说明已经到达的瓶颈了，就需要减少并发或者升级硬件增加

当写入数据时，确保bulk请求时轮询访问所有，不要发送所有请求到一个结点导致这一个要在内存存储所有请求的数据去处理

优化磁盘IO

使用SSD

使用RAID 0，不用镜像备份，用replicas保证数据正确性，增大磁盘IO

不使用远程存储，如NFS／SMB／CIFS；延时将成为性能瓶颈

段合并

段合并是很消耗计算资源和磁盘IO的作，特别是出现比较大的段合并。

当出现段合并的速度落后于索引写入的速度，Elasticsearch为了避免出现堆积的段数量爆发，会降低单个线程的索引写入速度，并且会在INFO的log里记录“now throttling indexing“

Elasticsearch默认比较保守，不想让搜索的性能被后台的段合并影响，默认的段合并速率限制比较低，默认是20MB/s，但如果使用的是SSD，可以考虑把这个参数设置到100-200MB/s

PUT /_cluster/settings

}}123456123456

如果你只是用bulk导入数据而不关注查询性能，可以关闭合并的阈值

PUT /_cluster/settings

{"transient" : {

"inds.store.throttle.type" : "none"

}}123456123456

然后在导入完数据之后恢复成“merge”来恢复这个阈值设置

如果是机械硬盘，你需要增加下面的配置到elasticsearch.yml中

index.merge.scheduler.max_thread_count: 111

机械硬盘的并发IO性能较，我们需要减少每个索引并发访问磁盘的线程数，这个设置会有max_thread_count＋2个线程并发访问磁盘

可以增大index.translog.flush_threshold_size参数，默认是200M，可以增大到如1GB。增大这个参数可以允许translog在flush前存放更大的段(segment);更大的段的创建会减少flush的频率，并且更大的段合并越少，会减少磁盘IO，索引性能更高。

elasticsearch多实例怎么配置

cluster.name: "BillSearch"

配置如下：

如果被搜索的文档（不论是单个文档，还是批量文档）能够从主分片或任意一个副本分片中被检索到，则与索引文档过程相同，对已知文档的搜索也会用到路由算法，Elasticsearch 中的路由算法如下所示：

实例1

node.name: "node7"

node.: true

network.host: 10.181.105.114

transport.tcp.port: 9300

discovery.zen.ping.multicast.enabled: false

discovery.zen.ping.unicast.hosts: ["10.181.105.111","10.181.105.112","10.181.105.113","10.181.105.114","10.181.105.115","10.181.105.116","10.181.105.117","10.181.105.118"]

index.cache.field.type: soft

index.merge.scheduler.max_thread_count: 1

cluster.routing.allocation.same_shard.host: true

实例2:

node.name: "node8"

node.: false

network.host: 10.181.105.114

transport.tcp.port: 9301

discovery.zen.ping.multicast.enabled: false

discovery.zen.ping.unicast.hosts: ["10.181.105.111","10.181.105.112","10.181.105.113","10.181.105.114","10.181.105.115","10.181.105.116","10.181.105.117","10.181.105.118"]

index.cache.field.type: soft

index.merge.scheduler.max_thread_count: 1

cluster.routing.allocation.same_shard.host: true

其中，discovery.zen.ping.multicast.enabled、discovery.zen.ping.unicast.hosts这两个选项我也注释掉试过，仍然不行。用的RHEL7，已经关闭了firewalld跟selinux

用电脑配置。

基本配置：

1:elasticsearch的config文件夹里面有两个配置文件：elasticsearch.yml和logging.yml，个是es的基本配置文件，第二个是日志配置文件

3:电脑配置多元化。

4:去手机店可以直接配置。

可否完全使用ElasticSearch代替数据库存储

c://127.0.0.1:9200

100亿文档），总共10个数据和2个元数据（48GB内存，8核心CPU，ES使用内存达到70%），每天的文档增量大概是3000W条（速度

持续增加中）。目前来看，单个文档的查询效率基本处于实时状态；对于1到2周的数据的聚合统计作也可以在10秒之内返回结果。

但是，还有提升的空间：

1. 对于查询单条数据的应用场景来说，我们可以使用ES的路由机制，将同一索引内的具有相同特征（比如具有相同的userid）的Elasticsearch是什么 Elasticsearch是一个高度可扩展的开源全文搜索和分析引擎。它可以在很短的时间内存储，搜索和分析大量的数据。它通常作为具有复杂搜索场景情况下的核心发动机。我们举几个例子来说明Elasticsearch能做什么？当你经营一家网上商店，你可以让你的客户搜索你卖的商品。在这种情况下，你可以使用Elasticsearch来存储您的整个产品目录和库存信息，为客户提供精准搜索，可以为客户相关商品。当你想收集日志或者交易数据的时候，要分析和挖掘这些数据，寻找趋势，统计，总结，或异常。在这种情况下，你可以使用LogStash 或者其他工具来进行收集数据，当这些数据存储到Elasticsearch中。你可以搜索和汇总这些数据，找到任何你感兴趣的信息。当你运行一个价格提醒的平台，可以给客户提供一些规则，如我有兴趣购买一个特定的电子设备，当商品的价格在未来一个月内的价格低于多少钱的时候通知我。在这种情况下，你可以把供应商的价格，把他们定期存储到Elasticsearch中，使用定时器过滤的能力来匹配客户的需求，当查询到价格低于客户设定的值后给客户发送一条通知。当你有商业智能分析的需求时，你希望快速调查，分析和可视化，并有大量的数据（千万条记录）的时候。在这种情况下，你可以使用Elasticsearch来存储你的数据，然后用Kibana建立自定义的仪表板或者任何你熟悉的语言开发展示界面，您可以使用Elasticsearch的聚合功能来执行复杂的商业智能与数据查询。对于码农来说，比较有名的案例是github，gihtub 的搜索是基于 Elasticsearch 构建的，在页面，你可以检索项目、用户、issue、pull request，还有代码。共有 40-50个索引库，分别用于索引网站需要跟踪的各种数据。虽然只索引项目的主分支()，但这个数据量依然巨大，20亿索引文档，30TB的索引文件。 Elasticsearch的核心概念下面介绍Elasticsearch的几个核心概念，准实时索引(Near Realtime)，集群(cluster),(node), 索引(index),类型(type),文档(document),分片和(shards Replicas)。准实时索引(Near Realtime) Elasticsearch是准实时搜索平台。这意味着有轻微的延迟（通常为1秒）就可以从入库建索引文件到已经进行关键字搜索。集群(cluster) 集群是由一个或多个组成，对外提供服务，对外提供索引和搜索功能。在所有，一个集群有一个的名称默认为“Elasticsearch”。此名称是很重要的，因为每个只能是群集的一部分，当该被设置为相同的名称时，就会自动加入群集。当需要有多个集群的时候，要确保每个集群的名称不能重复，否则，可能会加入错误的群集。请注意，一个只能加入一个集群。此外，您还可以拥有多个的集群，每个集群都有其不同的集群名称。例如，在开发过程中，你可以建立开发集群库和测试集群库，分别为开发，测试服务。 (node) 一个是一个逻辑上的服务，它是群集的一部分，可以存储数据，并参与集群的索引和搜索功能。就像集群一样，一个也有的名字，默认是一个随机的和机器相关的名称，在启动的时候分配。如果你不想要的默认值，你可以定义任何你想要的名。这个名字在管理中很重要，在网络中 Elasticsearch群集通过名称进行管理和通信。一个可以被配置为加入一个特定的群集。默认情况下，每个会加入名为Elasticsearch的集群中，这意味着如果你在网络上启动多个，如果网络畅通，他们能彼此发现并自动加入一个名为Elasticsearch的集群中。在一个单一的集群中，你可以拥有多个你想要的。当网络没有集群运行的时候，只要启动任何一个，这个会默认生成一个新的集群，这个集群会有一个。索引(index) 索引是有点结构的文档。例如，可以有一个的索引，另一个是产品目录的索引，还有一个订单数据的索引。一个索引是一个名称（必须是全部小写），这个名字是用来指在执行索引、搜索、更新和删除作时对文档的索引。在一个单一的集群中，您可以定义多个你想要的索引。类型(type) 在索引中，可以定义一个或多个类型。类型是索引的逻辑分区。在一般情况下，一种类型被定义为具有一组公共字段的文档。例如，让我们设你运行一个博客平台，并把所有的数据存储在一个索引中。在这个索引中，您可以定义一个类型为用户数据，另一种类型为博客数据，另一种类型的数据。文档(document) 文档是可以被索引的基本单位。例如，你可以有一个的客户文档，有一个产品文档，还有一个订单的文档。文档是以JSON（JaScript Object Notation）格式存储的。在一个索引中，您可以存储多个的文档。请注意，虽然在一个索引中有多分文档，但这些文档的结构是一致的，并在次存储的时候指定。分片(shards) 一个索引可以存储很大的数据，这些空间可以超过一个的物理存储的限制。例如，十亿个文档占用磁盘空间为1TB。仅从单个搜索可能会很慢，还有一台物理机器也不一定能存储这么多的数据。为了解决这一问题，Elasticsearch将索引分解成多个分片。当你创建一个索引，你可以简单地定义你想要的分片数量。每个分片本身是一个全功能的、的单元，可以托管在集群中的任何。分片主要有两个很重要的原因是： 1、它允许你水平分割扩展你的数据。 2、它允许你分配和并行作（可能在多个上）从而提高性能和吞吐量这些很强大的功能对用户来说是透明的，你不需要做什么作，系统会自动处理。 (Replicas) 是一个非常有用的功能，不然会有单点问题。当网络中的某个出现问题的时候，可以对故障进行转移，保证系统的高可用。因此，Elasticsearch允许你创建一个或多个拷贝，你的索引分片就形成了所谓的副本或副本分片。是重要的，主要的原因有： 1、它提供了高可用性，当失败的时候不受影响。需要注意的是，一个的分片不会存储在同一个中。 2、它允许您扩展您的搜索量，提高并发量，因为搜索可以在所有副本上并行的执行。总结一下，每个索引可以拆分成多个分片。索引可以零个或者多个分片。一旦，每个索引就有了主分片和复本分片。分片的数量和副本的数量可以在创建索引时定义。当创建索引后，你可以随时改变副本的数量，但你不能改变分片的数量。默认情况下，每个索引分配5个分片和1个副本，这意味着你的集群至少要有两个，你将拥有5个主要的分片和5个副本分片共有10个分片。文档全部存储于一个上，这样我们之后的查询都可以直接定位到这个上，而不用将查询广播道所有的上；

2. 随着数据的增加，适当增加分片数量，提升系统的分布水平，也可以通过分而治之的方式优化查询性能；

个人以为Elasticsearch作为内部存储来说还是不错的，效率也基本能够满足，在某些方面替代传统DB也是可以的，前提是你的业务不对作的事

档请求（比如通过userid来找到一个用户的文档，类似于NoSQL的应用场景），所以能否替代NoSQL还需要各位自己的测试。如果让我选择的话，我

会尝试使用ES来替代传统的NoSQL，因为它的横向扩展机制太方便了。

flush、refresh的区别

先说结论：

Refresh用于把内存中的数据写入translog 和 in-memory buffer (内存缓存区)，会在内存中产生一个segment提供新增文档的搜索功能，不会删除tanslog。

Refresh 和 Flush 都用于使文档在索引作后立即可供搜索。在 Elasticsearch 中添加新文档时，我们可以对索引调用 _refresh 或 _flush 作，以使新文档可用于搜索。

当我们把一条数据写入到 Elasticsearch 中后，它并不能马上被用于搜索。新增的索引必须写入到 Segment 后才能被搜索到，因此我们把数据写入到内存缓冲区之后并不能被搜索到。新增了一条记录时，Elasticsearch 会把数据写到 translog 和 in-memory buffer (内存缓存区) 中。

在此作期间，内存中缓冲区的内容将到内存中新创建的 Segment 中，新数据可用于搜索。

这个 refresh 的时间间隔可以由 index 设置中 index.refresh_interval 来定义。只有在 buffer 的内容写入到 Segement 后，这个被写入的文档才变为可以搜索的文档。通常 buffer 里的内容被写入到 S在 Elasticsearch 中，搜索过程分为查询阶段（Query Pahse）和获取阶段（Fetch Phase）。egment 里去，有三个条件：

由索引中的设置所指定的 refresh_interval 启动的周期性的 refresh 。在默认的情况下为 1s。这使对索引的近更改可见以进行搜索。默认为 1s。可以设置为 -1 以禁用刷新。在 Elasticsearch 7.0 发布之后，如果未明确设置此设置，则至少在 index.search.idle.after 秒之后仍未看到搜索流量的分片在收到搜索请求之前将不会接收后台刷新。命中空闲分片的搜索将等待下一次后台刷新（在1秒内）。此行为旨在在不执行搜索时在默认情况下自动优化批量索引。为了退出此行为，应将显式值 1s 设置为刷新间隔。

在导入文档时强制 refresh：PUT twitter/_doc/1?refresh=true

当 In Memory Buffer 满了，在默认的情况下为 node Heap 的 10%

但是，translog 如何解决持久性问题？每个 Shard 中都存在一个 translog，这意味着它与物理磁盘内存有关。它是同步且安全的，因此即使对于尚未提交的文档，您也可以获得持久性和持久性。如2：es也是使用log4j来记录日志的，所以logging.yml里的设置按普通log4j配置文件来设置就行了。下面主要讲解下elasticsearch.yml这个文件中可配置的东西。果发生问题，可以还原事务日志。

Flush 实质上意味着将内存缓冲区中的所有文档都写入新的 Lucene Segment ，连同所有现有的内存段一起被提交到磁盘，该磁盘清除事务日志。

elasticsearch-倒排索引原理

1、倒排索引采用ImmutableDesign，一旦生成，不可更改。Segment写入磁盘的过程相对耗时，所以借助文件系统缓存，Refresh时，先将Segment写入文件缓存中，以开放查询。

2、Elasticsearch中使用一种称为倒排索引的结构，适用于快速的全文搜索。一个倒排索引由文档中所有不能重复词的列表构成，对于其中每个词，有一个包含它的文档列表。

3、elasticsearch提供了translog来记录这些作，结合oscachedsegments数据定时落盘来实现数据可靠性保证（flush）。文档被添加到buffer同时追加性能测试到translog：进行refresh作，清空buffer，文档可被搜索但尚未flush到磁盘。

4、如果Elasticsearch密钥库受密码保护，则必须先输入密钥库密码，然后才能为内置用户设置密码。为弹性用户设置密码后，密码不再有效，无法使用该命令。在某些情况下，分片副本的Lucene索引或事务日志可能会损坏。

5、Elasticsearch的查询原理是将查询的与倒排索引中的词条进行匹配，查询的与倒排索引中的词条必须完全相同视为匹配，否则不匹配。这意味着在插入文档时是否进行分析和查询时是否进行分析将产生非常不同的结果。

6、财务平台亿级数据量毫秒级查询优化之elasticsearch原理解析_wang123459的博客-CSDN博客_elasticsearch查询优化mysql底层B-tree支持矮胖，高胖的时候就很难受，说白了就是数据量多会增加IO作在此期间，该文档不能被搜索，但是我们还是可以通过 ID 使用 GET 来获得该文档。如果希望该文档能立刻被搜索，需要手动调用 refresh 作。在 Elasticsearch 中，默认情况下 _refresh 作设置为每秒执行一次。。ES底层倒排索引。

ES 集群滚动升级

如何将es cluster 5.5.0升级至 es cluster 5.6.14.port: 9200,参考如下表选用滚动升级方案来进行作

[b] 从6.0.0之前的GA版本升级需要完整的群集重启。

滚动升级允许Elasticsearch群集一次升级一个，因此升级不会中断服务。一旦超过升级期限,在同一集群中运行多个版本的Elasticsearch是不支持的,因为无法将分片从已升级的到运行旧版本的。

滚动升级可以在次要版本之间执行。Elasticsearch 6.x支持Elasticsearch 5.6的滚动升级。从较早的5.x版本升级需要完整的群集重启。您必须重新索引以从5.x之前的版本升级。

执行同步刷新时，请检查响应以确保没有故障失败。由于挂起索引作而失败的同步刷新作在响应体中列出，尽管请求本身仍然返回200 OK状态。如果出现故障，请重新.port: 9201发出请求。

elasticsearch分片 elasticjob分片

elasticsearch 是开源的吗

Elasticsearch搜索过程解析

为什么mongodb不能替代elasticsearch区别

怎么把 elasticsearch 里面的数据导入到 hadoop 里面

elasticsearch怎么提高磁盘性能io

elasticsearch多实例怎么配置

可否完全使用ElasticSearch代替数据库存储

flush、refresh的区别

elasticsearch-倒排索引原理

ES 集群滚动升级

place的词组搭配(place相关词组)

黄晓明和baby是怎么回事黄晓明和baby是不是离

2022年海宁大缺口观潮时间表

elasticsearch分片 elasticjob分片

elasticsearch 是开源的吗

Elasticsearch搜索过程解析

为什么mongodb不能替代elasticsearch区别

怎么把 elasticsearch 里面的数据导入到 hadoop 里面

elasticsearch怎么提高磁盘性能io

elasticsearch多实例怎么配置

可否完全使用ElasticSearch代替数据库存储

flush、refresh的区别

elasticsearch-倒排索引原理

ES 集群滚动升级

place的词组搭配(place相关词组)

黄晓明和baby是怎么回事 黄晓明和baby是不是离

2022年海宁大缺口观潮时间表

黄晓明和baby是怎么回事黄晓明和baby是不是离