跳至主要內容
倒排索引原理与应用

倒排索引是信息检索系统(如搜索引擎)中最核心的数据结构之一。

定义

倒排索引是一种将文档内容中的关键词映射到包含该关键词的文档 ID 列表的数据结构。

  • 正排索引:文档ID → 关键词列表
  • 倒排索引:关键词 → 文档ID列表

原理

倒排索引通过扫描所有文档,统计每个关键词出现在哪些文档中,建立关键词到文档ID的映射表。

应用

  • 搜索引擎全文检索
  • 数据库模糊查询
  • 日志分析、推荐系统等

KSJ小于 1 分钟架构师检索系统
分布式事务基础与实现

分布式事务用于保证跨多个服务或数据库的数据一致性,是分布式系统设计中的难点。

基本定义

分布式事务指涉及多个独立节点(数据库/服务)的事务操作,需保证整体一致性。

ACID 特性

  • 原子性(Atomicity)
  • 一致性(Consistency)
  • 隔离性(Isolation)
  • 持久性(Durability)

CAP 定理

  • 一致性(Consistency)
  • 可用性(Availability)
  • 分区容错性(Partition tolerance)

KSJ小于 1 分钟架构师
分库分表原理与实践

分库分表是应对大数据量、高并发场景下数据库性能瓶颈的常用架构手段。

定义

  • 分库:将数据按某种规则分散存储到多个数据库实例中。
  • 分表:将单表数据按某种规则拆分到多个物理表中。

常见问题

  • 跨库/跨表查询复杂
  • 分布式事务难以保证强一致性
  • 主键全局唯一性设计
  • 数据迁移与扩容

应用场景

  • 电商、社交、金融等大规模数据系统
  • 订单、日志、用户等大表

KSJ大约 2 分钟架构师