PartitionedTableAppender

利用 tableInsert 来并发写入分布式表的方法实现起来比较复杂,C++ API 提供了PartitionedTableAppender (PTA) 类来更简便的实现自动按分区将数据并行写入的方法。

构造方法

PartitionedTableAppender(string dbUrl, string tableName, string partitionColName, DBConnectionPool& pool);

参数:

  • dbUrl: 分布式数据库地址
  • tableName: 表名。
  • partitionColName: 分区字段
  • DBConnectionPool: 连接池

函数说明:

其基本原理是设计一个连接池,然后获取分布式表的分区信息,将分区分配给连接池来并行写入,一个分区在同一时间只能由一个连接写入。

数据插入方法

int append(TableSP table);

参数 table 表示由待插入数据组成的表:

返回值:插入数据的条数。

函数说明:该方法会阻塞直至数据插入完成

环境准备

执行下面的脚本创建一个分布式表:

dbPath = "dfs://SAMPLE_TRDDB";
tableName = `demoTable
if(existsDatabase(dbPath)){
	dropDatabase(dbPath)
}
db = database(dbPath, VALUE, 2010.01.01..2010.01.30)
pt=db.createPartitionedTable(table(1000000:0, `name`date`price, [STRING,DATE,DOUBLE]), tableName, `date)

C++ 代码实现

TableSP createDemoTable(){
    vector<string> colNames = {"name", "date","price"};
    vector<DATA_TYPE> colTypes = {DT_STRING, DT_DATE, DT_DOUBLE};
    int colNum = 3, rowNum = 10, indexCapacity = 10;
    ConstantSP table = Util::createTable(colNames, colTypes, rowNum, indexCapacity);
    vector<VectorSP> columnVecs;
    for(int i = 0; i < colNum; ++i)
        columnVecs.push_back(table->getColumn(i));

    for(int i = 0; i < rowNum; ++i){
        columnVecs[0]->set(i, Util::createString("name_"+std::to_string(i)));
        columnVecs[1]->set(i, Util::createDate(2010, 1, i+1));
        columnVecs[2]->set(i, Util::createDouble((rand()%100)/3.0));
    }
    return table;
}

int main(int argc, const char **argv)
{
    DBConnection conn;
    conn.connect("127.0.0.1", 8848, "admin", "123456");
    DBConnectionPool pool("127.0.0.1", 8848, 20, "admin", "123456");
    PartitionedTableAppender appender("dfs://SAMPLE_TRDDB", "demoTable", "date", pool);
    TableSP table = createDemoTable();
    appender.append(table);
    ConstantSP result = conn.run("select * from loadTable('dfs://SAMPLE_TRDDB', `demoTable)");
    std::cout <<  result->getString() << std::cout;
}