ChenZhen 搜索
首页 标签 归档 留言板 友链 ChatGPT 提示库 AI工具导航网 🚇开往 关于我

使用shardingsphere实现mysql数据库分片

是Apache基金会下的一个开源项目,提供分布式数据库中间件解决方案。已经在2020年4月16日从Apache孵化器毕业,成为 Apache 顶级项目。其主要功能包括数据分片(Sharding)、读写分离、分布式事务以及数据加密等。:轻量级的 Java 框架,直接集成在应用程序中,提供数据库分片、读写分离等功能。需要在中集成,编写相关的配置。如果分片策略用默认的4种,那可以只改配置就好了。如果分片策略很特殊,可以通过实现抽象类,写自定义的方法进行分片分库。:独立部署的数据库代理,支持所有兼容MySQL。

ChenZhen 2024-09-30T22:16:34

使用shardingsphere实现mysql数据库分片

在大数据时代,随着业务数据量的不断增长,单一的数据库往往难以承载大规模的数据处理需求。数据库分片(Sharding)是一种有效的数据库扩展技术,通过将数据分布到多个数据库实例上,提高系统的性能和可扩展性。

ShardingSphere 是一款开源的分布式数据库中间件,可以帮助我们轻松实现数据库分片。

本文的目的是介绍如何快速上手使用 ShardingSphere来实现 MySQL 数据库分片。

一、ShardingSphere 简介

ShardingSphereApache 基金会下的一个开源项目,提供分布式数据库中间件解决方案。ShardingSphere 已经在2020年4月16日从 Apache 孵化器毕业,成为 Apache 顶级项目。其主要功能包括数据分片(Sharding)、读写分离、分布式事务以及数据加密等。ShardingSphere 主要由三个核心组件组成:

  1. Sharding-JDBC:轻量级的 Java 框架,直接集成在应用程序中,提供数据库分片、读写分离等功能。需要在 spring boot 中集成,编写相关的配置。如果分片策略用默认的4种,那可以只改配置就好了。如果分片策略很特殊,可以通过实现抽象类,写自定义的方法进行分片分库。
  2. Sharding-Proxy:独立部署的数据库代理,支持所有兼容 MySQLPostgreSQL 协议的客户端。原来程序连接到这个代理就可以实现分片和分库。程序不需要任何改变。
  3. Sharding-Sidecar(Plan):云原生环境下的数据库代理,与 Kubernetes 等平台集成。

1.1 对比

| |Sharding-JDBC| Sharding-Proxy| Sharding-Sidecar| |--|--|--|--| |数据库| 任意| MySQL/PostgreSQL| MySQL/PostgreSQL| 连接消耗数| 高| 低| 高| 异构语言| 仅Java| 任意| 任意| 性能 |损耗低| 损耗略高|损耗低| 无中心化| 是| 否| 是| 静态入口| 无 |有| 无|

1.2 核心概念

分库分表中最重要的核心概念有两个,即路由键分片算法,这两个将决定数据分片的位置,先稍微解释一下这两个概念:

  • 路由键:也被称为分片键,也就是作为数据分片的基准字段,可以是一个或多个字段组成。

  • 分片算法:基于路由键做一定逻辑处理,从而计算出一个最终节点位置的算法。

举个例子来感受一下,好比按 user_id 将用户表数据分片,每八百万条数据划分一张表,那在这里,user_id 就是路由键,而按user_id做范围判断则属于分片算法,一张表中的所有数据都会依据这两个基础,后续对所有的读写SQL进行改写,从而定位到具体的库、表位置。

在这里插入图片描述

在Sharding-Sphere这套技术中,无论是JDBC还是Proxy产品,工作的流程都遵循上述这个原则,里面除开上面介绍的路由键和分片算法的概念外,还有逻辑表、真实表、数据节点这三个概念:

  • 逻辑表:提供给应用程序操作的表名,程序可以像操作原本的单表一样,灵活的操作逻辑表。

  • 真实表:在各个数据库节点上真实存在的物理表,但表名一般都会和逻辑表存在偏差。

  • 数据节点:主要是用于定位具体真实表的库表名称,如DB1.tb_user1、DB2.tb_user2.....

  • 均匀分布:指一张表的数量在每个数据源中都是一致的。

  • 自定义分布:指一张表在每个数据源中,具体的数量由自己来定义,上图就是一种自定义分布。

以 Java 程序为例,编写业务代码时写的 SQL 语句,会直接基于逻辑表进行操作,逻辑表并不是一种真实存在的表结构,而是提供给 Sharding-Sphere 使用的,当 Sharding-Sphere 接收到一条操作某张逻辑表的 SQL语句时,它会根据已配置好的路由键和分片算法,对相应的 SQL语句进行解析,然后计算出 SQL要落入的数据节点,最后再将语句发给具体的真实表上处理即可。

1.3 Sharding-Sphere中的表概念

除开上述的一些核心概念外,在Sharding-Sphere中为了解决某些问题,同时还有一些表概念,如广播表、绑定表、单表、动态表等,接着简单介绍一下这些概念。

1.3.1 绑定表

一般的项目基本上都会存在主外键,虽然不会在表上添加主外键约束,但也会从逻辑上保障主外键关系,但经过水平分库后,所有的读写操作会基于路由键去分片。

那此时以订单表、订单详情表为例,假设用户选择了三个购物车的商品提交订单,此时会产生

  • 一条订单记录
  • 以及对应的三条订单详情记录。

假设商品库有两个水平节点,两个商品库都具备订单表、订单详情表,而订单表的路由键是 order_id,订单详情表的路由键是 order_info_id ,数据分片的路由算法为取模,那此时数据的落库情况为:

  • 订单详情2数据落入 DB0 商品库中。
  • 订单详情1、详情3数据落入 DB1 商品库中。

但此时订单表订单详情表的数据是存在外键关系的,如果按照上述的路由方式去对数据做分片,最终就会导致通过 order_id=1 的订单 ID 查询订单详情时,只能在 DB1 中查询到两条订单详情数据,这个问题显然是业务上无法接受的。通常我们会将这两张表配置为绑定表,以确保它们在同一个分片中,从而优化订单相关的联表查询操作。

1.3.2 广播表

广播表是指在所有分片数据源中都存在的一张表,且数据内容完全相同。这种表通常用于存储一些公共的、全局性的数据,比如系统配置、国家代码等。由于广播表的数据是全局一致的,当有更新操作时,需要将变更同步到所有的分片数据源中。

  1. 在不同的库需要数据的表中冗余字段,把常用的字段放到需要要数据的表中,避免跨库连表。
  2. 选择同步数据,通过广播表/网络表/全局表将对应的表数据直接完全同步一份到相应库中。
  3. 在设计库表拆分时创建 ER 绑定表,具备主外键的表放在一个库,保证数据落到同一数据库
  4. Java 系统中组装数据,通过调用对方服务接口的形式获取数据,然后在程序中组装后返回

这四种方案都能够解决需要跨库 Join 的问题,但第二种方案提到了广播表/网络表/全局表似乎之前没听说过对嘛,这其实是分库分表中的名词。场景:假设有一个 t_country 表,存储国家和地区的信息,这些信息在整个系统中是统一的,因此可以将 t_country 作为广播表,在所有数据库实例中都保存一份副本。

但往往垂直分库的场景中,第四种方案是最常用的,因为分库分表的项目中,Java 业务系统那边也绝对采用了分布式架构,因此通过调用对端 API 接口来获取数据,是分布式系统最为常见的一种现象。

1.3.3 单表

单表的含义比较简单,并非所有的表都需要做分库分表操作,所以当一张表的数据无需分片到多个数据源中时,就可将其配置为单表,这样所有的读写操作最终都会落入这一张单表中处理。

二、ShardingSphere-JDBC

Sharding-JDBCShardingSphere 的第一个产品,也是 ShardingSphere 的前身。 它定位为轻量级 Java 框架,在 JavaJDBC层提供的额外服务。它使用客户端直连数据库,以 jar 包形式提供服务,无需额外部署和依赖,可理解为增强版的 JDBC 驱动,完全兼容 JDBC 和各种 ORM 框架。

Apache ShardingSphere-JDBC 可以通过Java 和 YAML 这 2 种方式进行配置,开发者可根据场景选择适合的配置方式。

2.2 原理

Sharding-JDBC 中的路由结果是通过分片字段和分片方法来确定的,如果查询条件中有 id 字段的情况还好,查询将会落到某个具体的分片

如果查询没有分片的字段,会向所有的db或者是表都会查询一遍,让后封装结果集给客户端。

在这里插入图片描述

接下来会搭建一个简单的SpringBoot+MyBatis项目,结合Sharding-Sphere-JDBC实现水平分库~

spring boot整合

<!-- 分表分库依赖 -->
<dependency>
    <groupId>org.apache.shardingsphere</groupId>
    <artifactId>shardingsphere-jdbc-core-spring-boot-starter</artifactId>
    <version>5.2.1</version>
</dependency>
 

数据库

接着先在数据库中创建db_sharding_01、db_sharding_02两个库,我这里用伪集群的方式搭建水平库,毕竟线上只需要把数据库地址改为不同的机器IP即可

接着分别再在两个水平库中,创建用户表、订单表、订单详情表、商品表(两张),这四张表是接下来用于测试的表,SQL如下:

drop table if exists `user_info`;
create table `user_info`  (
  `user_id` bigint not null comment '用戶id',
  `user_name` varchar(255) comment '用戶姓名',
  `user_sex` varchar(255) comment '用戶性別',
  `user_age` int(8) not null comment '用戶年齡',
  primary key (`user_id`) using btree
)
engine = InnoDB
character set = utf8
collate = utf8_general_ci 
row_format = compact;
 
 
drop table if exists `shoping_00`;
create table `shoping_00`  (
  `shoping_id` bigint not null comment '商品id',
  `shoping_name` varchar(255) comment '商品名称',
  `shoping_price` int(8) not null comment '商品价格',
  primary key (`shoping_id`) using btree
)
engine = InnoDB
character set = utf8
collate = utf8_general_ci 
row_format = compact;
 
 
drop table if exists `shoping_01`;
create table `shoping_01`  (
  `shoping_id` bigint not null comment '商品id',
  `shoping_name` varchar(255) comment '商品名称',
  `shoping_price` int(8) not null comment '商品价格',
  primary key (`shoping_id`) using btree
)
engine = InnoDB
character set = utf8
collate = utf8_general_ci 
row_format = compact;
 
 
drop table if exists `order`;
create table `order`  (
  `order_id` bigint not null comment  '订单号',
  `order_price` int(8) not null comment '订单总金额',
  `user_id` bigint not null comment '用戶id',
  primary key (`order_id`) using btree
) 
engine = InnoDB
character set = utf8
collate = utf8_general_ci 
row_format = compact;
 
 
drop table if exists `order_info`;
create table `order_info`  (
  `order_info_id` bigint not null comment  '订单详情号',
  `order_id`  bigint not null comment '订单号',
  `shoping_name` varchar(255)  comment '商品名称',
  `shoping_price` int(8) not null comment '商品价格',
  primary key (`order_info_id`) using btree,
  index `key_order_id`(`order_id`) using btree
)
engine = InnoDB
character set = utf8
collate = utf8_general_ci 
row_format = compact;
 

分库分表的核心配置

Sharding-Sphere的所有产品对业务代码都是零侵入的,无论是Sharding-JDBC也好,Sharding-Proxy也罢,都不需要更改业务代码,这也就意味着大家在分库分表环境下做业务开发时,可以像传统的单库开发一样轻松,Sharding-Sphere中最主要的是对配置文件的更改,Sharding-JDBC主要修改application.properties/yml文件,Sharding-Proxy主要修改自身的配置文件。

多数据源配置

spring:
  shardingsphere:
    mode:
      type: Standalone
      repository:
        type: JDBC
    datasource:
      names: ds0,ds1
      ds0:
        type: com.alibaba.druid.pool.DruidDataSource
        driver-class-name: com.mysql.jdbc.Driver
        url: 「数据库节点1的地址」
        username: 「数据库节点1的账号」
        password: 「数据库节点1的密码」
      ds1:
        type: com.alibaba.druid.pool.DruidDataSource
        driver-class-name: com.mysql.jdbc.Driver
        url: 「数据库节点2的地址」
        username: 「数据库节点1的账号」
        password: 「数据库节点1的密码」
 

上述这组配置中,需要通过names配置多个数据源的别名,接着需要为每个别名配置对应的数据源信息,按照上述方式编写好配置文件后,则表示完成了多数据源的配置。

多数据源可用性测试

为了确保多数据源的可用性,接着先简单配置一张表:

spring:
  shardingsphere:
    
    props:
      
      sql-show: true
 
    
    rules:
      
      sharding:
        
        tables:
          
          shoping:
            
            actual-data-nodes: ds0.shoping_00
 
© 版权声明
😀😃😄😁😆😅🤣😂🙂🙃😉😊😇🥰😍🤩😘😗😚😙😋😛😜🤪😝🤑🤗🤭🤫🤔🤐🤨😐😑😶😏😒🙄😬🤥😌😔😪🤤😴😷🤒🤕🤢🤮🤧🥵🥶🥴😵🤯🤠🥳😎🤓🧐😕😟🙁☹️😮😯😲😳🥺😦😧😨😰😥😢😭😱😖😣😞😓😩😫🥱😤😡😠🤬