【校招VIP】星环科技大数据面经实操- 校招VIP

转载声明：文章来源：https://www.nowcoder.com/discuss/520891790564597760

讲一下 JVM 的垃圾回收的相关概念？
Java虚拟机（JVM）的垃圾回收（Garbage Collection，GC）是Java内存管理的一个重要部分，它负责自动化地管理Java程序的内存，通过识别和回收不再使用的对象来释放内存。垃圾回收器在程序运行时进行，尽管开发者无法直接控制其精确的运行时间，但可以通过编写“内存友好”的代码以及调整JVM配置参数来影响其行为。
以下是关于JVM垃圾回收的一些基本概念：
对象的生命周期：Java对象的生命周期开始于创建（当使用new关键字时）并在不再有引用指向它们时结束。如果一个对象不再被引用，那么它就可能被垃圾回收。
堆（Heap）内存：Java对象存储在堆内存中。堆在JVM启动时创建，可以通过JVM参数调整其大小。
垃圾回收算法：垃圾回收器使用特定的算法来确定哪些对象可以被视为"垃圾"并进行回收。常见的垃圾回收算法有标记-清除（Mark-and-Sweep）、标记-压缩（Mark-and-Compact）、复制（Copying）、以及分代回收（Generational Collection）等。
停顿时间（Stop-the-world）：垃圾回收器在运行时，通常会导致Java应用程序的执行暂停，这种现象被称为“停顿时间”。减少停顿时间是垃圾回收器优化的一个重要目标。
分代回收：Java的垃圾回收器通常采用分代回收策略，将堆内存分为新生代（Young Generation）和老年代（Old Generation）。这种策略基于这样一个观察：大多数对象的生命周期都很短。
新生代（Young Generation）：新创建的对象首先放在新生代。新生代通常分为一个Eden区和两个Survivor区（S0和S1）。大部分对象在Eden区被垃圾回收。
老年代（Old Generation）：如果对象在新生代中存活了足够长的时间，它们会被移动到老年代。老年代的空间通常比新生代大，并且其垃圾回收频率较低。
垃圾回收器（GC Collectors）：Java提供了多种垃圾回收器，包括Serial、Parallel、CMS（Concurrent Mark Sweep）、G1（Garbage-First）以及ZGC（Z Garbage Collector）等。每种垃圾回收器都有其特定的使用场景和优劣，选择哪种垃圾回收器取决于具体的应用需求。

JVM 常见调优方法有哪些？
内存分配：扩大JVM堆的大小可以提供更多的空间给对象，减少垃圾回收（GC）的次数。使用-Xms和-Xmx参数可以分别设置堆的初始大小和最大大小。然而，分配过多的内存可能会导致更长的GC停顿时间，并可能影响其他进程的性能。
选择垃圾回收器：根据应用的需求和特性选择合适的垃圾回收器。例如，对于需要低延迟的实时系统，选择并发垃圾回收器（如CMS或G1）可能是个好选择。对于可以容忍更长GC停顿时间的批处理任务，使用并行垃圾回收器（Parallel GC）可能更为合适。
调整新生代和老年代的比例：JVM的堆内存被划分为新生代和老年代，其中新生代通常分为Eden区和两个Survivor区（S0和S1）。这些区域的大小可以通过参数-XX:NewRatio，-XX:SurvivorRatio进行调整。这种调整可以根据应用的对象生命周期进行，以减少GC的次数。
调整线程堆栈大小：使用-Xss参数可以设置每个线程的堆栈大小。如果应用创建了大量的线程，减小线程堆栈大小可能会帮助减少内存消耗。
启用类数据共享：类数据共享（Class Data Sharing, CDS）可以加快JVM启动速度并减少内存消耗。可以通过-XX:+UseSharedSpaces参数启用CDS。
使用JVM内建工具进行监控和故障排查：JVM提供了一些内建工具，如JConsole, VisualVM, jstat等，可以用于监控JVM的性能和资源使用情况，帮助定位和解决性能问题。

讲一下 ElasticSearch 的基本结构、索引和分片
Elasticsearch 结构
Elasticsearch 是一个开源的搜索引擎，基于 Apache Lucene 构建，它可以提供全文搜索功能，具有 HTTP web 接口和无模式 JSON 文档。Elasticsearch 能够处理大量数据，并且能在实时条件下提供搜索和分析功能。它的体系结构主要包括以下几个层次：
集群 (Cluster)：Elasticsearch 能够将多个服务器组织在一起，形成一个集群。集群能共享负载，提供冗余，从而提供高可靠性。
节点 (Node)：节点是集群中的一个服务器，负责存储数据，参与集群的索引和搜索功能。
索引 (Index)：索引是一种类似于数据库的数据结构，用于存储在 Elasticsearch 中的文档。
文档 (Document)：文档是 Elasticsearch 中存储的基本信息单位，类似于数据库中的一行数据。
分片 (Shard)：每个索引都会分成多个分片，每个分片是一个独立的 "索引"，可以被分配到集群中的任何节点。
副本 (Replica)：为了提高系统的容错性，Elasticsearch 会创建分片的副本。
Elasticsearch 索引
索引是 Elasticsearch 中用于存储类似类型文档的地方。比如说，你可以有一个客户的索引 (customer)，另一个订单的索引 (order)。一个索引由一个或多个称为 shards 的物理分区组成。每个分片都是一个自包含的索引，可以在 Elasticsearch 集群中的任何节点上托管。
Elasticsearch 集群和分片
在 Elasticsearch 中，集群是由一个或多个节点组成的，能够共同执行数据索引、搜索和分析的服务器组。每个节点都知道所有其他节点的存在，并且可以直接与任何其他节点通信。
分片是 Elasticsearch 进行数据分片的方式，每个索引可以被分割成多个分片。每个分片都是一个完全独立的索引，可以在集群中的任何节点上托管。分片的主要优点是，它们允许你水平地拆分和扩展你的数据量，并且分片可以在多个节点之间分配，这有助于提高性能和吞吐量。

redis 的数据结构有哪些？
字符串（String）：字符串是 Redis 最基本的数据类型，你可以理解成与 Memcached 一样的功能，一个 key 对应一个 value。这个字符串类型是二进制安全的。意思是 Redis 的 string 可以包含任何数据，比如 jpg 图片或者序列化的对象。
哈希（Hash）：这是一个键值对集，Hash 是一个 string 类型的 field 和 value 的映射表，特别适合用于存储对象。
列表（List）：Redis 列表是简单的字符串列表，按插入顺序排序。你可以添加一个元素到列表的头部（左边）或者尾部（右边）。
集合（Set）：Set 是 string 类型的无序集合。和列表一样，你也可以添加、删除单个元素。但是，它保证存储的每个 string 都是唯一的。
有序集合（Sorted Set）：有序集合和普通集合一样也是 string 的集合, 同时又是每个元素都会关联一个 double 类型的分数。Redis 通过分数来为集合中的成员进行从小到大的排序。有序集合的成员是唯一的, 但分数（score）却可以重复。
位图（Bitmaps）：实际上是字符串的一种特殊类型。通过特殊的命令，你可以设置字符串中的某个位(bit)，或者获取该位的值。
HyperLogLogs：这是一种用来统计唯一值（如一个网站的每日独立访客数）的数据结构。尽管它只使用了极小的内存，但是它可以统计几亿个对象。
地理空间索引（Geo）：你可以将地理位置（如经纬度）添加到这种数据结构中，然后在此基础上进行各种地理空间相关的操作。

MySQL MVCC 的原理
在 MySQL 中，MVCC 是一种多版本并发控制（Multi-Version Concurrency Control）的机制。MVCC 主要用于实现数据库的事务（Transaction）、并发控制（Concurrency Control），以及读一致性（Read Consistency）。
MVCC 主要在 InnoDB 存储引擎中实现，通过在每行记录后面保存两个隐藏的列来实现。这两个隐藏的列分别是：
创建版本号（CREATION）
删除版本号（DELETION）
当开始一个新的事务时，事务版本号会自动递增。这两个隐藏列的值会被设置为当前的事务版本号。这意味着在同一时间可以有多个版本的行存在，每个版本都对应一个或多个指定的事务。
对于任何特定的 SQL 查询，MVCC 会返回所有满足下列条件的行：
行的创建版本号小于或等于事务版本号。
行的删除版本号要么未定义，要么大于事务版本号。
这就意味着，每个事务会看到一个它开始时的数据库快照，因此可以实现非锁定读（Non-Locking Reads），也就是读一致性。
MVCC 的主要优点是它允许数据库进行更高的并发操作。因为读操作和写操作不会互相阻塞，所以可以大大提高数据库的性能。然而，MVCC 也有其缺点，例如它需要更多的磁盘空间来存储多个版本的行，并且对于大量的更新操作，可能需要更多的 CPU 和 I/O 资源来清理旧的行版本。