ExchData 交易所历史股票数据自动化导入功能模块使用教程

在部署完 DolphinDB 后,需要将历史股票数据批量导入数据库,再进行数据查询、计算和分析等操作。为便于用户快速导入交易所 Level-2 历史行情数据,DolphinDB 开发了 ExchData 模块,主要用于沪深交易所 Level-2 行情原始数据的自动化导入,目前已支持的数据源包括:

  • 沪深 Level-2 快照行情
  • 沪深逐笔委托
  • 沪深逐笔成交
  • 上交所逐笔合并

注意:本教程代码基于 DolphinDB 2.00.11.3 开发,建议用户使用 2.00.11.3 及以上版本 。

1. 模块介绍

ExchData 模块主要包含预加载数据表结构、创建数据库及分区表、导入数据三部分。

1.1 数据表结构

schema 文件夹下的模块是根据本文第二章节中的合并规则整理的数据结构。该文件夹按照数据源格式,包含以下几个模块文件:

  • tradeSchema 用于指定逐笔成交数据存入数据库的数据格式以及 DolphinDB 读取 CSV 文件时的数据格式。
  • orderSchema 用于指定逐笔委托数据存入数据库的数据格式以及 DolphinDB 读取 CSV 文件时的数据格式。
  • snapshotSchema 用于指定 Level-2 快照行情数据存入数据库的数据格式以及 DolphinDB 读取 CSV 文件时的数据格式。
  • tradeOrderSchema 用于 DolphinDB 读取上交所逐笔合并数据的 CSV 文件时的数据格式。

1.2 创建数据库和分区表

数据库和分区表创建可参考 createTB.dos,其用于创建存储交易所数据的分布式库表。根据业务需求,这里对沪深股票 Level-2 高频行情数据采用一库三表的建库建表方案,分区方案如下:

表 1-1 分区方案

表名分区方案分区列排序列
trade时间维度按天分区+交易所 VALUE 分区 + 证券代码维度 HASH 25分区TradeDate、Market、SecurityIDSecurityID 和 TradeTime
order时间维度按天分区 +交易所 VALUE 分区+ 证券代码维度 HASH 25分区TradeDate、Market、SecurityIDSecurityID 和 OrderTime
snapshot时间维度按天分区+交易所 VALUE 分区+ 证券代码维度 HASH 25分区TradeDate、Market、 SecurityIDSecurityID 和 OrigTime

1.3 数据导入

数据导入部分涉及 ExchData 文件夹和 ExchData.dos,作用如下:

  • ExchData 包含了 Order.dosSnapshot.dosTrade.dosTradeOrder.dos 三个模块文件,分别用于导入沪深交易所的逐笔委托、行情快照和逐笔成交 Level-2 高频行情数据。
  • ExchData.dos 用于导入指定目录下的所有交易所数据,是对前面所有模块的整合。

下面列出模块中的主要函数 ExchData 的语法和参数介绍。

语法

ExchData(dbName, tbNames, filePath, startDate, endDate, dataTypes, market="ALL", tmpPath=NULL, rowCount=1000000, deleteDuplicate=true, initialTB=false, initialDB=false)

详情

fileDir 路径下从 startDateendDate 日期的 dataSource 数据导入 dbName 数据库中的 tableName 表里。

参数

dbName 字符串,数据库名称。

tbNames 字符串型的向量,分布式表名称。若需要导入逐笔合并数据,需要传入如 [“Order”, “Trade”] 的逐笔成交和逐笔委托表名;若需要导入其他行情数据,只需要传入导入的单一表名即可。

filePath 字符串,指定的存放数据的路径,需要确保和第一章的文件结构一致。

startDate 字符串,导入数据的起始日期,比如 2022.01.01(包括这一天)。默认值为 NULL,此时从上一个交易日开始导入。

endDate 字符串,导入数据的结束日期,比如 2022.12.31(包括这一天)。默认值为 NULL,此时从上一个交易日开始导入。

dataTypes 字符串型的向量,导入行情的数据源类型, “Snapshot”, “Order”, “Trade” 三选一或者 [“Order”, “Trade”]。

market 字符串,交易所,目前只能 “ALL”, “SZ”, “SH” 三选一。当 market=“ALL” 时,会将沪深的数据全部导入一张名为 tableName 的分布式表;否则,会只导入一个交易所的数据。

tmpPath 字符串,指定的临时文件存放路径,用于存放解压后的深交所的中间文件,解压后会将解压的临时文件删除。默认为 NULL,此时不会去解压缩,并基于指定的文件夹去识别数据文件导入数据。

rowCount 整数,分段写入的最高数据量。指定后会对 CSV 数据分段写入分布式库表。默认值为 0,此时全量导入数据。

deleteDuplicate 布尔值,表示是否需要删除数据库已导入的数据。默认值为 true,此时导入数据前不会删除库表中已存在的数据。

initialDB 布尔值,是否需要初始化数据库。如果已经存在名为 dbName 的数据库,当 initialDB=true 时,会删除原来的数据库并重新创建;否则会保留原来的数据库并输出 "[dbName] 数据库已经存在" 的提示。

initialTB 布尔值,是否需要初始化分布式表。如果在 dbName 数据库下已经存在名为 tbName 的表,当 initialTB=true 时,会删除原来的表并重新创建;否则会保留原来的表并输出 "数据库 [dbName] 已经存在表 [tbName]" 的提示。

2. 历史股票数据文件结构

在使用本功能模块时,需要准备解压缩后的历史股票数据文件(未解压缩的文件结构见附件),并确保在主目录下创建了对应的文件目录,不同时间段下(见第二章不同数据源的文件说明)的文件结构如下,假设最上层文件夹为 Data 文件夹,Data 文件夹下存放对应上交所(SH)、深交所(SZ)的交易所股票行情原始数据。

Data
└──SH
|   ├── 2015
|   │   └── 20150105
|   │      ├── Entrust.csv
|   │      ├── Snapshot.csv
|   │      └── Tick.csv
|   |      ……    
|   ├── 2020
|   │   └── 20200104
|   │      ├── Entrust.csv
|   │      ├── Snapshot.csv
|   │      └── Tick.csv
|   |      ……    
|   └── 2023
|      └── 20231205
|         ├── Snapshot.csv
|         └── StockTick.csv
|         ……    
└──SZ
    ├── 2016
    │   └── 0506
    │   │   ├── SZL2_ORDER_20160506.TXT
    │   │   ├── SZL2_SNAPSHOT_20160506.TXT
    │   │   ├── SZL2_SNAPSHOTDW_20160506.TXT
    │   │   └── SZL2_TRADE_20160506.TXT
    │   └── 0509
    │       ├── am_hq_order_spot.txt
    │       ├── am_hq_snap_spot.txt
    │       ├── am_hq_trade_spot.txt      
    │       ├── am_snap_level_spot.txt
    │       ├── pm_hq_order_spot.txt
    │       └── pm_hq_trade_spot.txt
    |      ……  

3. 行情数据存储模型设计

ExchData 模块将两个交易所的数据合并为一张表,其中表中的字段是两个交易所数据字段的并集,并新增字段 Market 为分区列用于标识数据来自哪个交易所。

上交所和深交所两个交易所数据的结构不同,且不同时期同一个交易所的数据结构也不同。根据《深圳证券信息有限公司高频增强行情数据服务》和《上海证券交易所历史股票数据接口说明书》,我们整理了两个交易所提供的各个时期的数据结构,最终确定以下述的表结构将数据存入数据库。

3.1 逐笔成交数据

  • 沪深交易所导入逐笔成交数据的源文件
交易所数据说明文件命名文件说明
上海交易所竞价逐笔成交数据Tick.csv原行情系统~2023.12.03,文件关闭时间以逐笔合并上线为准
竞价逐笔合并数据StockTick.csv包括新增委托订单和删除委托订单(撤单)、产品状态订 单及成交。2023.12.04 新增,文件启用时间以逐笔合并上线为准
深圳交易所增强逐笔成交行情SZL2_TRADE_YYYYMMDD.txt原行情系统~2016.05.06
现货逐笔成交行情am_hq_trade_spot.txt、pm_hq_trade_spot.txt2016.05.09 至今
  • 沪深交易所逐笔成交库表结构
字段含义入库字段名入库数据类型上交所字段上交所字段说明深交所字段深交所字段说明
成交日期TradeDateDATE- TradeDate
数据生成时间OrigTimeTIMESTAMP- OrigTime2016 年 5 月 9 日新增
发送时间SendTimeTIMESTAMPSendingTime业务时间20150803093008,精确到百分之一秒自 2021年 4 月 26 日启SendTime
接收时间RecvtimeTIMESTAMP- Recvtime2016 年 5 月9 日新增
入库时间DbtimeTIMESTAMP- Dbtime2016 年 5 月 9 日新增
证券代码SecurityIDSYMBOLSecurityID SecurityID
成交时间TradeTimeTIMESTAMPTradeTime业务时间 2015112309163002 ,精确到百分之一秒TradeTime
成交价格TradePriceDOUBLETradePrice Price
成交量TradeQtyINTTradeQty TradeQty
成交金额TradeAmountDOUBLETradeAmount -
买方订单号BuyNoLONGBuyNo BidApplSeqNum
卖方订单号SellNoLONGSellNo OfferApplSeqNum
成交序号TradeIndexINTTradeIndex
频道代码ChannelNoINTChannelNo ChannelNo
内外盘标志TradeBSFlagSYMBOLTradeBSFlag内外盘标志: B – 外盘,主动买 S – 内盘,主动卖 N – 未知
业务序列号ApplSeqNumLONGBizIndex业务序列号 与竞价逐笔委托消息合并后 的连续编号,从 1 开始,按Channel 连续ApplSeqNum
成交类别ExecTypeSYMBOL- ExecType4=撤消F=成交
行情类别MDStreamIDSYMBOL- MDStreamIDMDStreamID=0112016 年 5 月 9 日新增
证券代码源SecurityIDSourceSYMBOL- SecurityIDSource102 = 深圳证券交易所2016 年 5 月 9 日新增
交易所名称MarketSYMBOL-取值为SH-取值为SZ

3.2 逐笔委托数据

  • 沪深交易所导入逐笔委托数据的源文件列表
交易所数据说明文件命名文件说明
上海交易所竞价逐笔委托数据Entrust.csv原行情系统~2023.12.03,文件关闭时间以逐笔合并上线为准
竞价逐笔合并数据StockTick.csv包括新增委托订单和删除委托订单(撤单)、产品状态订 单及成交。2023.12.04新增,文件启用时间以逐笔合并上线为准
深圳交易所增强逐笔委托行情SZL2_ORDER_YYYYMMDD.txt原行情系统~2016.05.06
现货逐笔委托行情am_hq_order_spot.txt、pm_hq_order_spot.txt2016.05.09至今
  • 沪深交易所逐笔委托库表结构
字段含义入库字段名入库数据类型上交所字段上交所字段说明深交所字段深交所字段说明
成交日期TradeDateDATE TradeDate
数据生成时间OrigTimeTIMESTAMP OrigTime交易所数据生成时间2016年5月9日新增
发送时间SendTimeTIMESTAMP SendTime
接收时间RecvtimeTIMESTAMP Recvtime2016年5月9日新增
入库时间DbtimeTIMESTAMP Dbtime2016年5月9日新增
证券代码SecurityIDSYMBOLSecurityID SecurityID
委托时间OrderTimeTIMESTAMPTransactTime如 20150803093008000 精确到毫秒TransactTime
委托订单号OrderNoINTOrderNo
委托价格(元)OrderPriceDOUBLEPrice Price
委托数量OrderQtyINTBalance剩余的委托数量OrderQty相对于上交所,该字段为总委托数量
已成交的委托数量TradeMoneyINTTradeQty逐笔合并新增字段,用以区分Balance,表明成交的委托数量
买卖标志SideSYMBOLOrderBSFlag对于委托订单: B – 买单 S – 卖单Side1=买,2=卖G=借入,F=借出
订单类别OrderTypeSYMBOLOrdType订单类型A – 新增委托订单D – 删除委托订单,即撤单OrderType1=市价,2=限价,U=本方最优
委托序号OrderIndexINTOrderIndex从 1 开始,按 Channel 连
频道代码ChannelNoINTChannelNo通道ChannelNo证券集代号
业务序列号ApplSeqNumLONGBizIndex业务序列号 与竞价逐笔成交消息合并后的连续编号,从 1 开始,按Channel 连续ApplSeqNum消息ID
行情类别MDStreamIDSYMBOL MDStreamID2016年5月9日新增
证券代码源SecurityIDSourceSYMBOL SecurityIDSource102 = 深圳证券交易所2016年5月9日新增
定价行情约定号ConfirmIDINT ConfirmID2016年5月9日新增
联系人ContactorSTRING Contactor2016年5月9日新增
联系方式ContactInfoSTRING ContactInfo2016年5月9日新增
期限ExpirationDaysINT ExpirationDays2016年5月9日新增
期限类型ExpirationTypeINT ExpirationType2016年5月9日新增
交易所MarketSYMBOL-SH-SZ

3.3 Level-2 快照数据

  • 沪深交易所导入 Level-2 快照数据的源文件列表
交易所数据说明文件命名规则文件说明
上海交易所Level-2 行情快照数据snapshot.csvLevel-2 行情快照数据的快照间隔为 3 秒或 5 秒(其中,部分指数快照间隔 为5秒,个股及部分指数快照间隔为3秒,相邻快照如果完全相同就保留第一幅), 将全天所有证券的快照保存在同一个文件中
深圳交易所证券行情快照SZL2_SNAPSHOT_YYYYMMDD.txt原行情系统~2016.05.06
am_hq_snap_spot.txt、pm_hq_snap_spot.txt2016.05.09 至今
证券委托队列SZL2_SNAPSHOTDW_YYYYMMDD.txt原行情系统~2016.05.06
证券行情快照挡位am_hq_snap_level_spot.txt、pm_hq_snap_level_spot.txt2016.05.09 至今
  • 沪深交易所 Level-2 快照行情表结构
字段含义入库字段名入库数据类型上交所字段上交所字段说明深交所字段深交所字段说明
成交日期TradeDateDATE TradeDate
数据生成时间OrigTimeTIMESTAMPDateTime业务时间 格式如20151123091630OrigTime
发送时间SendTimeTIMESTAMPSendingTime自 2021 年 12 月 1 日启用SendTime
接收时间RecvtimeTIMESTAMP Recvtime
入库时间DbtimeTIMESTAMP Dbtime
行情类别MDStreamIDSYMBOL MDStreamID
证券代码SecurityIDSYMBOLSecurityID SecurityID
交易状态TradeStatusSYMBOLInstrumentStatusINIT 启动时段 PCALL 集中撮合时段 POSMT 连续交易时段 ENDPT 闭市时段 POSSP 停牌
快照类型NumImageStatusINTNumImageStatus1: 全量 2: 增量 自 2021 年12 月 1 日启用
频道代码ChannelNoINT ChannelNo
证券代码源SecurityIDSourceSYMBOL SecurityIDSource102 = 深圳证券交易所
昨收价PreClosePxDOUBLEPreClosePx PreClosePx
开盘价OpenPxDOUBLEOpenPx OpenPx
最高价HighPxDOUBLEHighPx HighPx
最低价LowPxDOUBLELowPx LowPx
最新价LastPxDOUBLELastPx LastPx
均价AvgPxDOUBLEAvgPx自 2021 年 12 月 1 日启用
收盘价ClosePxDOUBLEClosePx自 2021 年 12 月 1 日启用
升跌1PxChange1DOUBLE PxChange1
升跌2PxChange2DOUBLE PxChange2
成交总量TotalVolumeTradeINTTotalVolumeTrade股票:股 基金:份 债券:千元面额 指数:手TotalVolumeTrade
成交总金额TotalValueTradeDOUBLETotalValueTradeTotalValueTrade
市盈率1PE1DOUBLE PERatio1
市盈率2PE2DOUBLE PERatio2
申买十价BidPriceDOUBLE[10]BidPrice BidPX1/…/BidPX10
申买十量BidOrderQtyINT[10]BidOrderQty BidSize1/…/BidSize10
申买十实际总委托笔数BidNumOrdersINT[10]BidNumOrders NUMORDERS_B1
买一揭示委托笔数BidNoOrders1INT NOORDERS_B1
申买一前50笔订单BidOrdersINT[50]BidOrders ORDERQTY_B1
申卖十价OfferPriceDOUBLE[10]OfferPrice OfferPX1/…/OfferPX10
申卖十量OfferOrderQtyINT[10]OfferOrderQty OfferSize1/…/OfferSize10
申卖十实际总委托笔数OfferNumOrdersINT[10]OfferNumOrders NUMORDERS_S1
申卖一前50笔订单OfferOrdersINT[50]OfferOrders ORDERQTY_S1
卖一揭示委托笔数OfferNoOrders1INT NOORDERS_S1
成交笔数NumTradesINTNumTrades NumTrades
基金T-1净值PreNAVDOUBLE PreNAV基金
基金实时参考净值IOPVRealTimeNAVDOUBLE RealTimeNAV基金
ETF 净值估值IOPVDOUBLEIOPV从 20221104 日开始
权证溢价率WarrantPremiumRateDOUBLE WarrantPremiumRate权证
买入总量TotalBidQtyINTTotalBidQty股票:股 基金:份 债券:千元面额totalbidqty协议 量和价是合一个条目中
卖出总量TotalOfferQtyINTTotalOfferQty股票:股 基金:份 债券:千元面额totalofferqty
买入加权平均价WeightedAvgBidPxDOUBLEWeightedAvgBidPx weightedavgbidpx协议 量和价是合一个条目中
卖出加权平均价WeightedAvgOfferPxDOUBLEWeightedAvgOfferPx weightedavgofferpx
买入总比数TotalBidNumberINTTotalBidNumber
卖出总比数TotalOfferNumberINTTotalOfferNumber
总持仓量TotalLongPositionINT TotalLongPosition
涨停价UpLimitPxDOUBLE UpLimitPx
跌停价DownLimitPxDOUBLE DownLimitPx
买入成交最大等待时间BidTradeMaxDurationLONGBidTradeMaxDuration
卖出成交最大等待时间OfferTradeMaxDurationLONGOfferTradeMaxDuration
买方委托价位数NumBidOrdersLONGNumBidOrders
卖方委托价位数NumOfferOrdersLONGNumOfferOrders
买入撤单笔数WithdrawBuyNumberLONGWithdrawBuyNumber
买入撤单数量WithdrawBuyAmountLONGWithdrawBuyAmount
买入撤单金额WithdrawBuyMoneyDOUBLEWithdrawBuyMoney
卖出撤单笔数WithdrawSellNumberINTWithdrawSellNumber
卖出撤单数量WithdrawSellAmountINTWithdrawSellAmount
卖出撤单金额WithdrawSellMoneyDOUBLEWithdrawSellMoney
ETF 申购笔ETFBuyNumberINTETFBuyNumber xwnum自 2024 年 01 月 04 日新增
ETF 申购数量ETFBuyAmountINTETFBuyAmount xwsize自 2024 年 01 月 04 日新增
ETF 申购金额ETFBuyMoneyDOUBLEETFBuyMoney
ETF 赎回笔数ETFSellNumberINTETFSellNumber xxnum自 2024 年 01 月 04 日新增
ETF 赎回数量ETFSellAmountINTETFSellAmount xxsize自 2024 年01 月 04 日新增
ETF 赎回金额ETFSellMoneyDOUBLEETFSellMoney
消息序号MsgSeqNumINTMsgSeqNum自 2021 年 12 月 1 日启用
债券质押式回购品种加权平均价WarLowerPxDOUBLEWarLowerPx自 2021 年 12 月 1 日启
产品实时阶段TradingPhaseCodeSYMBOLTradingPhaseCode自 2021 年 12 月 1日启用TradingPhaseCode产品所处的交易阶段代码第 0 位:S=启动(开市前)O=开盘集合竞价T=连续竞价B=休市C=收盘集合竞价E=已闭市H=临时停牌A=盘后交易V=波动性中断第 1 位:0=正常状态1=全天停牌
加权平均价涨跌xjDOUBLE xj自 2017 年 5月 12 日新增
昨收盘加权平均价xkDOUBLE xk自 2017 年 5月 12 日新增
加权平均价VwapDOUBLE Vwap自 2017 年 5月 12 日新增

4. 使用示例

  • 第一步:用户按照第 2 章文件结构中准备好数据。假设数据放在 /home/wwluo/data/stockData 目录下,文件结构如下图:


    图 4-1 文件结构示例 ​

  • 第二步: 将模块同步至 DolphinDB的 getHomeDir()+/modules 的目录下 ​
    图 4-2 更新模块示例

  • 第三步:载入模块和导入数据方法如下,其中为了数据完整性以及避免执行 shell 函数引入安全问题,推荐基于本模块(见附录中的 ExchData.zip 文件)直接导入全量数据,若需要解压缩、分段导入,则分别需要指定tmpPathrowCount等参数。

    use ExchData::ExchData
    go;
    
    // 导入逐笔成交数据 day=2021.04.26
    startDate,endDate = 2021.04.26,2021.04.26
    dbName = "dfs://TSDB_level2"
    tbName = "trade"
    dataType = "trade"
    filePath = "/home/wwluo/data/stockData/"  
    tmpPath = "/home/wwluo/tmp/ALL/" 
    // 沪深交易所一起导入
    market="ALL"
    // 手动解压后导入数据;如需要自动解压缩需要指定tmpPath路径
    tmpPath = NULL
    // 全量导入数据;如需要指定分段导入,指定大于0的rowCount即可
    rowCount = 0
    jobId1 = submitJob("loadTradeData","loadTradeData",
        ExchData{dbName,tbName,filePath,startDate,endDate,dataType,market,tmpPath,rowCount,false,false})
    getJobStatus(jobId1)
    print getJobMessage(jobId1)
    
    // 导入逐笔委托数据
    dbName = "dfs://TSDB_level2"
    tbName = "order"
    dataType = "order"
    startDate,endDate = 2021.04.26,2021.04.26
    filePath = "/home/wwluo/data/stockData/"  
    tmpPath = "/home/wwluo/tmp/ALL/" 
    // 沪深交易所一起导入
    market="ALL"
    // 手动解压后导入数据;如需要自动解压缩需要指定tmpPath路径
    tmpPath = NULL
    // 全量导入数据;如需要指定分段导入,指定大于0的rowCount即可
    rowCount = 0
    jobId2 = submitJob("loadOrderData","loadOrderData",
        ExchData{dbName,tbName,filePath,startDate,endDate,dataType,market,tmpPath,rowCount,false,false})
    print getJobMessage(jobId2)
    
    // 导入快照数据
    dbName = "dfs://TSDB_level2"
    tbName = "snapshot"
    dataType = "snapshot"
    startDate,endDate = 2021.04.26,2021.04.26
    filePath = "/home/wwluo/data/stockData/"  
    // 沪深交易所一起导入
    market="ALL"
    // 手动解压后导入数据;如需要自动解压缩需要指定tmpPath路径
    tmpPath = NULL
    // 全量导入数据;如需要指定分段导入,指定大于0的rowCount即可
    rowCount = 0
    jobId3 = submitJob("loadSnapshotData","loadSnapshotData",
        ExchData{dbName,tbName,filePath,startDate,endDate,dataType,market,tmpPath,rowCount,false,false})
    print getJobMessage(jobId3)
    
    // 导入逐笔合并数据
    startDate,endDate = 2024.01.22,2024.01.22
    dbName = "dfs://TSDB_level2"
    tbNames = ["trade","order"]
    dataTypes = ["trade","order"]
    filePath = "/home/wwluo/data/stockData/"  
    tmpPath = "/home/wwluo/tmp/ALL/" 
    // 只导入上交所数据
    market="ALL"
    // 手动解压后导入数据;如需要自动解压缩需要指定tmpPath路径
    tmpPath = NULL
    // 全量导入数据;如需要指定分段导入,指定大于0的rowCount即可
    rowCount = 0
    jobId4 = submitJob("loadSHTradeOrderData","loadSHTradeOrderData",
        ExchData{dbName,tbNames,filePath,startDate,endDate,dataTypes,market,tmpPath,rowCount,false,false})
    print getJobMessage(jobId4)
  • 第四步:查询任务状态

    (1)使用 getJobStatus(jobId) 可以查询任务状态,当 endTime 有值的时候表示任务结束。例如: ​
    图 4-3 getJobStatus 示例 ​

    (2)使用 getJobMessage(jobId) 可以查询任务中间信息,例如: ​
    ​图 4-4 getJobMessage 示例

    (3)可以通过查询日志内容,查看任务执行结果。例如:

    cat dolphindb.log | grep message


    图 4-5 log 示例

  • 第五步:查询数据 (1)快照数据

    select * from loadTable("dfs://TL_Level-2", "snapshot") limit 10


    图 4-6 快照数据预览 ​

    (2)逐笔委托

    select * from loadTable("dfs://TL_Level-2", "snapshot") limit 10


    图 4-7 逐笔委托预览

    (3)逐笔成交

    select * from loadTable("dfs://TL_Level-2", "snapshot") limit 10


    图 4-8 逐笔成交预览

5. 数据校验

在处理和分析交易所的 Level-2 历史行情数据时,针对原始数据的数据校验是一个至关重要的步骤。基于本模块的数据校验功能,可以监测交易所的 Level-2 历史行情数据是否存在数据遗漏、数据异常。

5.1 校验规则

ExchData 模块的 checkStockData.dos 支持对沪深交易所的逐笔成交和逐笔委托数据做数据校验,校验逻辑包括:

  • 检查导入的逐笔成交和逐笔委托数据量是否小于 1500 万,否则提示数据异常。
  • 针对2023年以后的数据,检查逐笔数据的 ChannelNo 的取值范围,检查上交所的 ChannelNo 所有取值是否包含 1~6 、深交所的 ChannelNo 所有取值是否包含2011~2014。
  • 检查逐笔数据每一支 ChannelNo 下的所有 ApplSeqNum 是否连续;若不连续检查是否存在重复数据,以及是否存在数据缺失的异常情况。

5.2 校验接口

语法

checkStockData(startDate, endDate, market)

详情

校验 startDateendDate 期间的逐笔数据,若校验未通过将返回统计信息表。

参数

  • startDate 开始日期。
  • endDate 结束日期。
  • market 交易所类型,支持”SH”、”SZ”、”ALL”。

使用示例

如下校验 2021.04.26 的逐笔数据是否存在异常,结果如下:

use ExchData::checkStockData
go;
checkAllData(2021.04.26,2021.04.26,"ALL")


图 5-1 数据校验示例

6. 异常处理

导入交易所的 Level-2 历史行情数据过程可拆分为如下步骤,其中每一步均可能存在异常,如下表所示。

  1. 创建库表:第一次运行时创建数据库表;若已存在本地库表,会与模块中库表的表结构做对比
  2. 解压缩:若导入深交所行情文件,若文件未解压缩,需要先将文件解压缩
  3. 加载 CSV:检查行情文件是否存在;若存在,检查文件的表结构与模块中预先指定的表结构的列数是否一致
  4. 数据导入:基于预先指定的表结构导入对应行情文件
  5. 数据校验:导入完成以后,进行数据校验
阶段异常情况输出信息
创建库表创建数据库时,名为 dbName 的数据库已经存在且 initialDB=false{"code": "warning","message": "[dbName] 数据库已经存在"}
创建库表创建分布式表时,名为 tableName 的表已经存在且 initialDB=false{"code": "warning","message": "数据库 [dbName] 已经存在表 [tableName]"}
解压缩导入深交所文件时解压失败{"code": "error","message": "解压文件失败: [fileName],请检查日志"}
加载 CSV日期文件夹下,没有对应的 CSV 文件{"code": "error","message": "深交所 [day] 日期的 [CSVNames] 的 CSV 文件不全或者不存在"}{"code": "error","message": "上交所 [day] 日期的 [CSVNames] 的 CSV 文件不全或者不存在"}
加载 CSV实际 CSV 文件的数据列数和 CsvSchema.dos 模块里面预设的表结构的列数不一致{"code": "error","message": "[CSVPath] 的数据格式有误,列数不匹配"}
数据导入写入分布式库表的数据量和 CSV 的数据量不一致{"code": "error","message": "深交所 [day] 日期的 [CSVNames] 的 CSV数据和写入dfs数据不一致,t1 size:[n1],t2 size:[n2]"}{"code": "error","message": "上交所 [day] 日期的 [CSVNames] 的 CSV数据和写入dfs数据不一致,t1 size:[n1],t2 size:[n2]"}
数据导入导入上交所逐笔合并数据时,CSV 文件的格式与模块中的 schema 不一致{"code": "error","message": "CSV 文件[StockTick.csv] 与分布式表待入库数据[“dfs:\TSDB_Level-2“,”trade”]不一致"}{"code": "error","message": "CSV 文件[StockTick.csv] 与分布式表待入库数据[“dfs:\TSDB_Level-2“,”order”]不一致"}
数据导入导入深交所快照行情数据时,快照行情和挡位表行数不一致{"code": "error","message": "深交所 [" + string(day) + "] 日期 [CSVName1] 和 [CSVName2]!"}
数据校验数据校验发现逐笔数据缺失channelNo{"code": "error","message": "上交所 [" + string(day) + "] 日期 [" +"channelNo 数据缺失,共计 [" + string(channelSh.size()) + "] 个, 预计6个,请检查!"}{"code": "error","message": "深交所 [" + string(day) + "] 日期 [" +"channelNo 数据缺失,共计 [" + string(channelSh.size()) + "] 个, 预计4个,请检查!"}
数据校验数据校验发现逐笔数据小于 1500万{"code": "error","message": " [day] trade 数据异常! order 数据异常! "}
数据校验数据校验发现逐笔数据的某一支 channelNo 存在重复数据{"code": "error","message": "[深交所] 交易所 [day] 日期 [channelNo] channelNo 存在 [n] 条重复数据, 请检查!"}{"code": "error","message": "[上交所] 交易所 [day] 日期 [channelNo] channelNo 存在 [n] 条重复数据, 请检查!"}
数据校验数据校验发现逐笔数据的某一支 channelNo 存在 ApplSeqNum 数据缺失{"code": "error","message": "[深交所] 交易所 [day] 日期 [channelNo] channelNo [ApplSeqNum] ApplSeqNum缺失, 请检查!"}{"code": "error","message": "[上交所] 交易所 [day] 日期 [channelNo] channelNo [ApplSeqNum] ApplSeqNum缺失, 请检查!"}
数据导入/数据校验其他错误【通过 try{}catch(ex){} 捕获异常】{"code": "error","message": 输出报错信息 ex}

7. 注意事项

  1. 导入数据时,请确保数据源文件路径正确,否则会导致导入失败。极端情况下,可能存在数据源文件未完全同步完,导致数据导入异常
  2. 由于分段导入非强事务操作,因此内存充足情况下,不建议使用本模块分块导入数据;若部署的 DolphinDB 服务内存不足,一次性写入的沪深交易所数据量超过了 maxMemSize 大小,建议导入数据时设置较小的 rowCount 以确保能正常导入数据
  3. 由于本模块是基于 shell 函数执行服务器解压缩 shell 命令,该过程会存在安全问题的风险,因此不建议直接基于本模块去解压缩以导入深交所数据;若需要基于本模块解压缩深交所源文件,需要提前配置enableShellFunction=true
  4. 若服务器为 ARM 版本,解压深交所文件时调用的 shell 命令需要指定 7zz 命令的绝对路径,7zz 解压时需要替换 ExchData 模块下的 prepare.dos 文件的 7zz 命令,需要替换 prepare.dosunzipFile 中为实际使用的 7zz 命令路径(例如,/usr/local/bin/7zz x …… -o…… -y)
  5. 导入深交所文件时,需要注意解压的文件是否存在分卷解压的情况,若存在需要确保各卷文件未存在数据缺失,导致解压失败

8. 总结

DolphinDB ExchData 模块为用户导入和处理沪深交易所 Level-2 行情数据提供了一套完整的解决方案, 本文介绍了模块的功能、行情文件结构及表结构、使用示例、数据校验等方面。用户基于本模块自动化的流程以及完整的校验机制,可以提高 Level-2 行情数据导入的效率以及数据完整性。

附录

SH
├── 2015
│   └── 20150105
│      ├── Entrust.csv
│      ├── Snapshot.csv
│      └── Tick.csv
|      ……    
├── 2020
│   └── 20200104
│      ├── Entrust.csv
│      ├── Snapshot.csv
│      └── Tick.csv
|      ……    
└── 2023
│   └── 20231205
│      ├── Snapshot.csv
│      └── StockTick.csv
|      ……    
SZ
├── 2016
│   ├── 0506
│   │   ├── SZL2_ORDER_20160506.7z.001
│   │   ├── SZL2_SNAPSHOT_20160506.7z.001
│   │   ├── SZL2_SNAPSHOTDW_20160506.7z.001
│   │   └── SZL2_TRADE_20160506.7z.001
│   └── 0509
│       ├── am_hq_order_spot.7z.001
│       ├── am_hq_snap_spot.7z.001
│       ├── am_hq_trade_spot.7z.001
│       ├── am_snap_level_spot.7z.001
│       ├── pm_hq_order_spot.7z.001
│       ├── pm_hq_snap_spot.7z.001
│       ├── pm_hq_trade_spot.7z.001
│       └── pm_snap_level_spot.7z.001
|      ……