• 面试官:谈谈你对分库分表的理解?

面试官:谈谈你对分库分表的理解?

2025-04-27 10:41:05 栏目:宝塔面板 124 阅读

在 MySQL 集群架构中有两种主流的集群实现,一种是读写分离,而另外一种则是数据分片。所谓的数据分片其实就是今天要聊的分库分表技术。

分库分表技术不但是日常工作中用于解决数据库中的数据量会急剧增长,解决单库单表性能瓶颈的一种方案,更是面试中的高频知识点。

阿里巴巴的《Java 开发手册》中规定:当单表的数据超过 500 万,或单表的大小超过 2GB 时,就要考虑分库分表了。那么什么是分库分表呢?

1.分库分表

首先来说,“分库分表”不是一个技术,而是两个技术实现,它分为:

  1. 分库

垂直分库

水平分库

  1. 分表

垂直分表

水平分表

1.1 垂直分库

垂直分库是按照业务将不同的表拆分到不同的数据库中。例如,在一个电商数据库中的用户表和订单表分别存放到不同的数据库中,如下图所示:

图片

1.2 水平分库

水平分库是将数据按照一定的规则(如用户 ID 取模、哈希等)分布到不同的数据库中。比如,根据用户 ID 对 10 取模,将用户数据分布到 10 个不同的数据库中,每个数据库都保存着完整的数据表结构,如下图所示:

图片

1.3 垂直分表

垂直分表是将一张表按照列的相关性拆分成多张表。例如,将一个包含大量字段的用户表,拆分为用户基本信息表和用户扩展信息表,如下图所示:

图片

1.4 水平分表

水平分表是将一张表的数据按照行进行拆分。例如按照用户 ID 的范围或者哈希值将数据拆分到不同的表中。

图片

如果搞不清楚什么是垂直分表和什么是水平分表?可以参考一下这幅图思考一下:

2.技术实现

分库分表的主流实现技术有以下两种:

  • MyCat
  • Apache Sharding Sphere

Sharding Sphere 相比于 MyCat 来说,它的优势是:

  • 功能更多:除了读写分离和分库分表之外,还提供了数据加密、流量质量、数据迁移等功能。
  • 社区更活跃度和生态更好:Sharding Sphere 拥有活跃的社区和丰富的文档,生态系统较为完善,有更多的用户和开发者参与。
  • 灵活性和扩展性:Sharding Sphere 灵活性更高,扩展性也更好,它可以方便地与其他技术集成,这方便 MyCat 支持的比较有限。

3.Sharding Sphere

Sharding Sphere 最早是当当网的内部框架,后面捐献给了 Apache,目前也是分库分表的主流技术实现方案,在 Sharding Sphere 中有两种分库分表的技术实现:

  • Sharding Sphere JDBC:定位为轻量级 Java 框架,在 Java 的 JDBC 层提供的额外服务。它使用客户端直连数据库,以 jar 包形式提供服务,无需额外部署和依赖,可理解为增强版的 JDBC 驱动,完全兼容 JDBC 和各种 ORM 框架。

图片

  • Sharding Sphere Proxy:定位为透明化的数据库代理端,通过实现数据库二进制协议,对异构语言提供支持。 目前提供 MySQL 和 PostgreSQL 协议,透明化数据库操作,对 DBA 更加友好。

图片

它们的区别如下:


ShardingSphere-JDBC

ShardingSphere-Proxy

支持数据库

任意

MySQL/PostgreSQL

连接消耗数

支持语言

仅 Java

任意

性能

损耗低

损耗略高

无中心化

课后思考

Sharding Sphere JDBC 和 Sharding Sphere Proxy 使用场景分别是啥?ShardingSphere-JDBC 具体实现步骤有哪些?说说它的实现原理?

本文地址:https://www.yitenyun.com/109.html

搜索文章

Tags

数据库 API FastAPI Calcite 电商系统 MySQL Web 应用 异步数据库 数据同步 ACK 双主架构 循环复制 TIME_WAIT 运维 负载均衡 JumpServer SSL 堡垒机 跳板机 HTTPS 服务器 管理口 HexHub Docker 服务器性能 JumpServer安装 堡垒机安装 Linux安装JumpServer Deepseek 宝塔面板 Linux宝塔 生命周期 esxi esxi6 root密码不对 无法登录 web无法登录 SQL 查询 序列 核心机制 Windows Windows server net3.5 .NET 安装出错 HTTPS加密 锁机制 Windows宝塔 Mysql重置密码 开源 PostgreSQL 存储引擎 宝塔面板打不开 宝塔面板无法访问 查看硬件 Linux查看硬件 Linux查看CPU Linux查看内存 行业 趋势 Oracle 处理机制 无法访问宝塔面板 Undo Log 机制 优化 万能公式 机器学习 Redis 连接控制 监控 Spring 动态查询 异步化 InnoDB 数据库锁 响应模型 Serverless 无服务器 语言 ES 协同 group by 索引 openHalo 技术 scp Linux的scp怎么用 scp上传 scp下载 scp命令 Postgres OTel Iceberg 分页查询 工具 缓存方案 缓存架构 缓存穿透 高可用 GreatSQL 连接数 存储 数据 主库 SVM Embedding R edis 线程 日志文件 MIXED 3 Linux 安全 R2DBC 国产数据库 SQLite-Web SQLite 数据库管理工具 加密 场景 Netstat Linux 服务器 端口 启动故障 防火墙 黑客 ​Redis 推荐模型 Recursive 云原生 自定义序列化 共享锁 SQLark RocketMQ 长轮询 配置 向量数据库 大模型 OB 单机版 AI 助手 Hash 字段 PG DBA 不宕机 Rsync 信息化 智能运维 磁盘架构 Ftp Python 电商 系统 向量库 Milvus 架构 Canal 数据分类 分库 分表 修改DNS Centos7如何修改DNS 业务 流量 IT运维 redo log 重做日志 频繁 Codis 传统数据库 向量化 • 索引 • 数据库 线上 库存 预扣 filelock 语句 MongoDB MCP 开放协议 同城 双活 MySQL 9.3 PostGIS MVCC 聚簇 非聚簇 sftp 服务器 参数 mini-redis INCR指令 人工智能 推荐系统 Doris SeaTunnel 缓存 Redisson 锁芯 高效统计 今天这篇文章就跟大家 失效 千万级 大表 数据类型 工具链 prometheus Alert 主从复制 代理 数据备份 虚拟服务器 虚拟机 内存 INSERT COMPACT 事务 Java 开发 EasyExcel MySQL8 窗口 函数 分布式架构 分布式锁​ 聚簇索引 非聚簇索引 数据结构 ZODB 发件箱模式 SSH 容器 崖山 新版本 引擎 性能 Web QPS 高并发 网络架构 网络配置 数据脱敏 加密算法 RDB AOF 分页 速度 服务器中毒 Go 数据库迁移 Web 接口 B+Tree ID 字段 分布式 集中式 Redis 8.0 核心架构 订阅机制 自动重启 OAuth2 Token 数据集成工具 读写 Redka 网络故障 容器化 播客 模型 数据页 MGR 分布式集群 微软 SQL Server AI功能 DBMS 管理系统 JOIN StarRocks 数据仓库 SpringAI 排行榜 排序 池化技术 连接池 Caffeine CP 原子性 Entity 网络 部署 事务隔离 Valkey Valkey8.0 LRU 业务场景 Pottery Testcloud 云端自动化 数据字典 兼容性 dbt 数据转换工具 分页方案 排版 意向锁 记录锁 事务同步 sqlmock 1 ReadView 优化器 关系数据库 悲观锁 乐观锁 AIOPS 单点故障 单线程 UUIDv7 主键 仪表盘 日志 Weaviate InfluxDB 对象 UUID ID Order 编程 Pump Crash 代码 RAG HelixDB Ansible IT 双引擎 订单 分布式锁 Zookeeper 产业链 字典 恢复数据 LLM List 类型 线程安全 国产 用户 慢SQL优化 表空间 拦截器 动态代理 解锁 调优 Next-Key RR 互联网 GitHub Git 快照读 当前读 视图 count(*) count(主键) 行数 神经系统 矢量存储 数据库类型 AI代理 查询规划 算法 CAS 技巧 多线程 并发控制 恢复机制 闪回