高可用集群的灰度升级

概述

用传统方式升级集群版本,通常需要先把全部节点关闭,然后一次性把整个集群全部节点的版本升级为新版本。升级时,业务必须中断。灰度升级是指可以按节点逐一进行版本升级的方式,在单个节点升级为新版本,并确保其稳定运行后,再升级集群内的另一个节点,以此类推,直至整个集群内的所有节点完成升级。

升级过程中,系统一直保持在线,不会造成业务中断。这就要求集群部署方式必须是高可用的,即控制节点采用高可用部署,数据副本数至少为2,客户端采用高可用写入。

本教程讲述如何进行高可用集群的灰度升级(Gray Scale Upgrade),亦称为局部升级。

版本兼容性

灰度升级,意味着内存中的数据格式,包括传输协议、序列化协议等需要完全兼容。

因此,对于版本跨度较大的升级,建议联系 DolphinDB 的技术支持工程师进行风险评估后再进行升级。

升级步骤

注意:当 server 升级到某个版本后,使用的插件也应升级到与此对应的版本。

本例中,需要将版本为 2.00.7.4 的高可用集群升级到 2.00.8.12 版本

以下为 controller.cfg 文件仅供参考:

mode=controller
localSite=10.10.11.2:8920:HActl44
dfsHAMode=Raft
dfsReplicationFactor=2
dfsReplicaReliabilityLevel=1
dataSync=1
workerNum=4
maxConnections=512
maxMemSize=8
lanCluster=0
dfsRecoveryWaitTime=30000

以下为 cluster.nodes 仅供参考:

localSite,mode
10.10.11.1:8920:HActl43,controller
10.10.11.2:8920:HActl44,controller
10.10.11.3:8920:HActl45,controller
10.10.11.1:8921:agent43,agent
10.10.11.2:8921:agent44,agent
10.10.11.3:8921:agent45,agent
10.10.11.1:8922:node43,datanode
10.10.11.2:8922:node44,datanode
10.10.11.3:8922:node45,datanode

pnodeRun(version)

	node	value
0	node43	2.00.7.4 2022.12.08
1	node44	2.00.7.4 2022.12.08
2	node45	2.00.7.4 2022.12.08

DolphinDB 中现有数据库 dfs://stock,库中有分布式表 stock

db = database("dfs://stock",VALUE,2023.01.01..2023.01.10,,'TSDB')
tmp = table(1:0,[`time,`name,`id],[TIMESTAMP,SYMBOL,INT])
pt = db.createPartitionedTable(tmp,`stock,`time,,`name,ALL)

执行升级过程中,Python API 始终以高可用的方式向 DFS 表中写入数据

import dolphindb as ddb
import pandas as pd
import datetime
import time
import random
s = ddb.session()
sites = ["192.168.100.43:8922","192.168.100.44:8922","192.168.100.45:8922"]
s.connect(host="192.168.100.43",port=8922,userid="admin",password="123456", highAvailability=True, highAvailabilitySites=sites)
appender = ddb.tableAppender(dbPath="dfs://stock",tableName='stock',ddbSession=s,action="fitColumnType")
x = ['Apple','Microsoft','Meta','Google','Amazon']
i = 1
while i<=10000000:
    now = datetime.datetime.now()
    name = random.sample(x,1)
    data = pd.DataFrame({'time':now,'name':name,'id':i})
    appender.append(data)
    print(i)
    i = i+1
    time.sleep(1)

如果升级后验证 DFS 表 stock 中的 time 字段延续至当前,且 id 字段是连续正整数,说明升级过程中写入未被中断;否则,说明受到了停机影响。

升级准备

  • 第一步,执行以下脚本检查分区状态是否正常,返回为空,即所有副本状态正常。只有在分区状态不处于 RECOVERING 状态下才可进行后续步骤。
select * from rpc(getControllerAlias(), getClusterChunksStatus) where state != "COMPLETE" 
  • 第二步,执行以下脚本获取元数据文件的存储目录
pnodeRun(getConfig{`chunkMetaDir})
	node	value
0	node44	/home/zjchen/HA/server/clusterDemo/data/node44/storage
1	node45	/home/zjchen/HA/server/clusterDemo/data/node45/storage
2	node43	/home/zjchen/HA/server/clusterDemo/data/node43/storage
rpc(getControllerAlias(),getConfig{`dfsMetaDir})
string('/home/zjchen/HA/server/clusterDemo/data/HActl44/dfsMeta')

节点升级

第一步,关闭 10.10.11.1 服务器上的所有节点,包括 controller、agent、datanode。

cd /home/zjchen/HA/server/clusterDemo/
sh stopAllNodes.sh

第二步,备份元数据。

  • 备份控制节点元数据
cd /home/zjchen/HA/server/clusterDemo/data/node43/storage/
cp -r CHUNK_METADATA/ CHUNK_METADATA_BAK/
  • 备份数据节点元数据
cd /home/zjchen/HA/server/clusterDemo/data/HActl44/
cp -r dfsMeta/ dfsMeta_bak/

第三步,进行DolphinDB 版本升级。

cd /home/zjchen/HA/server/clusterDemo/
sh upgrade.sh

预期结果:

DolphinDB package uploaded successfully!  UpLoadSuccess
DolphinDB package unzipped successfully!  UnzipSuccess
DolphinDB upgraded successfully!  UpgradeSuccess

第四步,重启 controller、agent、datanode,并验证 DFS 表 stocktimeid 字段是否符合预期。

先后对 10.10.11.2 和 10.10.11.3 两台机器上的节点执行 3.1 和 3.2 中的操作。

注意:当一台机器的节点升级结束并重启后,要确保分区状态没有处于 RECOVERING 状态才可以继续进行下一台机器节点的升级。

验证

使用以下命令进行升级后的验证:

pnodeRun(version)

	node	value
0	node44	2.00.8.12 2023.01.10
1	node45	2.00.8.12 2023.01.10
2	node43	2.00.8.12 2023.01.10