N 对 N 多表回放

N 对 N 多表回放功能主要由 replay 函数提供。其语法如下:

replay(inputTables, outputTables, [dateColumn], [timeColumn], [replayRate], [absoluteRate=true], [parallelLevel=1], [sortColumns])

其参数的详细含义可以参考:replay

应用例子 1

按不同回放模式进行回放:

  • 定义回放使用的输入表和输出表并向输入表写入模拟数据:

    //创建输入表1并写入模拟数据
    n=50000
    sym = rand(symbol(`IBM`APPL`MSFT`GOOG`GS),n)
    date = take(2012.06.12..2012.06.16,n)
    time = take(13:00:00.000..16:59:59.999,n)
    volume = rand(100,n)
    t1 = table(sym,date,time,volume).sortBy!([`date, `time])
    //创建输入表2并写入模拟数据
    sym = rand(symbol(`IBM`APPL`MSFT`GOOG`GS),n)
    date = take(2012.06.12..2012.06.16,n)
    time = take(13:00:00.000..16:59:59.999,n)
    price = 100 + rand(10.0,n)
    t2 = table(sym,date,time,price).sortBy!([`date, `time])
    //创建输出表 outTable1 和 outTable2
    share streamTable(100:0,`sym`date`time`volume,[SYMBOL,DATE,TIME,INT]) as outTable1
    share streamTable(100:0,`sym`date`time`price,[SYMBOL,DATE,TIME,DOUBLE]) as outTable2
  • 每秒回放 100 条数据:

    timer replay(inputTables=[t1,t2], outputTables=[outTable1, outTable2], dateColumn=`date, timeColumn=`time,replayRate=10000, absoluteRate=true)
    Time elapsed: 10001.807 ms

    两张输入表中一共有 10,0000 条数据,每秒回放 10000 条耗时大约 10 秒。

  • 加速 100,000 倍时间回放:

    timer replay(inputTables=[t1,t2], outputTables=[outTable1, outTable2], dateColumn=`date, timeColumn=`time,replayRate=10000,absoluteRate=false)
    Time elapsed: 3484.047 ms

    两张输入表中的最大时间与最小时间相差 345,650 秒,加速 100,000 倍时间回放耗时大约 3.5 秒。

  • 以最快的速率回放:

    timer replay(inputTables=[t1,t2], outputTables=[outTable1, outTable2], dateColumn=`date, timeColumn=`time)
    Time elapsed: 4.441 ms

应用例子 2

结合 replayDS 函数回放磁盘分区表数据。

  • 将输入表写入数据库中:

    //将输入表写入数据库中
    if(existsDatabase("dfs://test_stock")){
    dropDatabase("dfs://test_stock")
    }
    db=database("dfs://test_stock",VALUE,2012.06.12..2012.06.16)
    pt1=db.createPartitionedTable(t1,`pt1,`date).append!(t1)
    pt2=db.createPartitionedTable(t2,`pt2,`date).append!(t2)
  • 使用 replayDS 函数对数据源进行划分:

    ds1=replayDS(sqlObj=<select sym, date, time, volume from pt1>,dateColumn=`date,timeColumn=`time,timeRepartitionSchema=[13:00:00.000, 14:00:00.000, 15:00:00.000, 16:00:00.000, 17:00:00.000])
    ds2=replayDS(sqlObj=<select sym, date, time , price from pt2>,dateColumn=`date,timeColumn=`time,timeRepartitionSchema=[13:00:00.000, 14:00:00.000, 15:00:00.000, 16:00:00.000, 17:00:00.000])
    //查看 ds1 划分出的数据源个数(ds2 个数同 ds1)
    ds1.size()
    // output
    30
  • 使用 replay 函数对划分好的数据源进行全速回放:

    timer replay(inputTables=[ds1,ds2], outputTables=[outTable1, outTable2], dateColumn=`date, timeColumn=`time)
    Time elapsed:  450.956 ms