AWSS3

Amazon S3 是一种云存储服务，可以存储和检索大量数据。通过 DolphinDB 的 AWSS3 插件，用户可以与 Amazon S3 服务进行交互，将数据备份到云端或者从云端下载数据。

本插件依赖第三方库 libaws-cpp-sdk-core.so libaws-cpp-sdk-s3.so 以及 libcurl.so。

安装插件

版本要求

DolphinDB Server 2.00.10 及更高版本，支持 Linux x64, Windows x64。

安装步骤

在 DolphinDB 客户端中使用 listRemotePlugins 命令查看插件仓库中的插件信息。
注意：仅展示当前操作系统和 server 版本支持的插件。若无预期插件，可自行编译（请选择对应分支下的插件）或在 DolphinDB 用户社区进行反馈。
```
login("admin", "123456")
listRemotePlugins()
```
使用 installPlugin 命令完成插件安装。
```
installPlugin("awss3")
```
使用 loadPlugin 命令加载插件。
```
loadPlugin("awss3")
```

接口说明

listS3Object

语法

aws::listS3Object(s3account, bucket, prefix, [marker],[delimiter], [nextMarker], [MaxKeys])

详情

列出 S3 中指定路径下的所有对象及相关属性。所有匹配对象的属性表，包括：

index：索引号。
bucket name：桶名。
key name：对象名。
last modified：最近一次修改时间，日期格式为 ISO_8601。
length：对象大小，单位为byte。
ETag：标记。
owner：所有者。

参数

s3account 一个 key 为 STRING 类型的字典，表示账户信息。内容可以包含 id, key，region 以及 endpoint。

创建账户信息的字典说明如下：

连接公有云，此时需要提供 id key region：

account=dict(string,string);
account['id']=your_access_key_id;
account['key']=your_secret_access_key;
account['region']=your_region;

连接私有云，此时需要提供 id key endpoint isHttp：

account=dict(STRING,ANY)
account['id']="minioadmin";
account['key']="minioadmin"
account['endpoint'] = "127.0.0.1:9000";       //注意，endpoint中不能包含http://以及https://
account['isHttp'] = true;

注意，若无法通过验证或 SSL 出错，可以尝试指定证书：

account['caPath']=your_ca_file_path;     //e.g. '/etc/ssl/certs'
account['caFile']=your_ca_file;          //e.g. 'ca-certificates.crt'
account['verifySSL']=verify_or_not;      //e.g. false

bucket STRING 类型的标量，表示访问的桶名称。

prefix STRING 类型的标量，表示访问路径的前缀，可以传空字符串。

marker STRING 类型标量，可选参数，表示返回这个值以后的对象。

delimiter STRING 类型标量，可选参数，表示用于对键进行分组的字符。

nextMarker STRING 类型标量，可选参数，输出参数，表示可用于获取下一组对象的 marker。

MaxKeys LONG 类型标量，可选参数，设置响应中返回的最大 key 数量，默认是 1000。

getS3Object

语法

aws::getS3Object(s3account, bucket, key, [outputFileName])

详情

获取 S3 中指定的一个对象，返回本地对象的文件名。

参数

s3account 一个 key 为 STRING 类型的字典，表示账户信息。

bucket STRING 类型的标量，表示访问的桶名称。

key STRING 类型的标量，表示对象名。

outputFileName STRING 类型的标量，表示输出对象的文件名，可选参数，默认同访问的对象名 Key。

readS3Object

语法

aws::readS3Object(s3account, bucket, key, offset, length)

详情

获取 S3 中指定对象的部分内容。返回由对象指定部分的内容构成的字符向量。

参数

s3account 一个 key 为 STRING 类型的字典，表示账户信息。

bucket STRING 类型的标量，表示访问的桶名称。

key STRING 类型的标量，表示对象名。

offset LONG 类型的标量，表示偏移量，即想要获取的内容的起始位置。

length LONG 类型的标量，表示长度，即想要获取的内容的长度，单位是 byte。

deleteS3Object

语法

aws::deleteS3Object(s3account, bucket, key)

详情

删除 S3 中的指定对象（警告：删除操作无法撤销）。

参数

s3account 一个 key 为 STRING 类型的字典，表示账户信息。

bucket STRING 类型的标量，表示访问的桶名称。

key STRING 类型的标量，表示对象名。

uploadS3Object

语法

aws::uploadS3Object(s3account, bucket, key, inputFileName)

详情

向 S3 上传一个对象。

参数

s3account 一个 key 为 STRING 类型的字典，表示账户信息。

bucket STRING 类型的标量，表示访问的桶名称。

key STRING 类型的标量，表示对象名。

inputFileName STRING 类型的标量，表示准备上传的对象的路径及名称。

listS3Bucket

语法

aws::listS3Bucket(s3account)

详情

列出 S3 指定账户下的所有桶及创建的时间。包含所有桶名字和对应创建时间的表，时间的格式是 ISO_8601。

参数

s3account 一个 key 为 STRING 类型的字典，表示账户信息。

deleteS3Bucket

语法

aws::deleteS3Bucket(s3account, bucket)

详情

删除 S3 中指定的桶（警告：删除操作无法撤销）。

参数

s3account 一个 key 为 STRING 类型的字典，表示账户信息。

bucket STRING 类型的标量，表示访问的桶名称。

createS3Bucket

语法

aws::createS3Bucket(s3account, bucket)

详情

创建一个桶。

参数

s3account 一个 key 为 STRING 类型的字典，表示账户信息。

bucket STRING 类型的标量，表示访问的桶名称。

loadS3Object

语法

aws::loadS3Object(s3account, bucket, key, threadCount, dbHandle, tableName, partitionColumns, [delimiter],[schema], [skipRows], [transform], [sortColumns], [atomic], [arrayDelimiter])

详情

加载一批对象到表中，返回一个表，包含 object(STRING), errorCode(INT), errorInfo(STRING)三列，描述解压的每一个文件（object）加载的错误码（errorCode，0 表示没有错误）和错误信息（errorInfo）。

错误代码（errorCode）如下：

1-未知问题
2-解析文件并写入表中失败
3-下载文件失败
4-unzip文件失败
5-查找解压文件失败
6-抛出异常，有详细信息
7-抛出未知异常，没有详细信息

参数

s3account 一个 key 为 STRING 类型的字典，表示账户信息。

bucket STRING 类型的标量，表示访问的桶名称。

key STRING 类型标量或向量，表示读取对象名或对象名的列表。支持文本文件，或Zip格式的压缩对象。

threadCount INT 类型标量，表示下载的线程数，必须为正整数。

dbHandle 数据库的句柄，可以是内存数据库或分布式数据库。

tableName STRING 类型的标量，表示表的名称。

partitionColumns STRING 类型标量或向量，表示分区列。对于顺序分区类型的数据库，partitionColumns 为空字符串""。对于组合分区类型的数据库，partitionColumns 是字符串向量。

delimiter STRING 类型的标量，表示数据文件中各列的分隔符。可选参数，默认是逗号。

schema 一个表对象，用于指定各列的数据类型。可选参数，它可以包含以下四列（其中，name 和 type 这两列是必需的）


列名	含义
name	字符串，表示列名
type	字符串，表示各列的数据类型。暂不支持 BLOB, COMPLEX, POINT, DURATION 类型。
format	字符串，表示数据文件中日期或时间列的格式
col	整型，表示要加载的列的下标。该列的值必须是升序。

skipRows 整型标量，表示从文件头开始忽略的行数。可选参数。默认值为 0，可取值为 0 到 1024 之间的整数。

transform 一元函数，并且该函数接受的参数必须是一个表。可选参数，插件会对数据文件中的数据执行该函数，并将得到的结果保存在数据库中

sortColumns 字符串标量或向量，表示表的排序列。可选参数，同一个排序列对应的数据在分区内部按顺序存放在一起。

atomic 布尔类型标量，表示开启 Cache Engine 的情况下，是否保证文件加载的原子性。可选参数，默认为false，设置为 true，一个文件的加载过程视为一个完整的事务；设置为 false，加载一个文件的过程分为多个事务进行。

注意：如果要加载的文件超过 Cache Engine 大小，必须设置 atomic = false。否则，一个事务可能卡住（既不能提交，也不能回滚）。

**arrayDelimiter **STRING类型的标量，表示数据文件中数组向量列的分隔符。可选参数，默认是逗号。由于不支持自动识别数组向量，必须同步修改 schema 的 type 列修为数组向量类型。

headS3Object

语法

aws::headS3Object(s3account, bucket, key)

详情

获取某个文件的元数据，返回一个字典，包含如下字段："bucket name", "key name", "length", "last modified", "ETag", "content type"。

参数

s3account 一个 key 为 STRING 类型的字典，表示账户信息。

bucket STRING 类型的标量，表示访问的桶名称。

key STRING 类型的标量，表示对象名。

copyS3Object

语法

aws::copyS3Object(s3account, bucket, srcPath, destPath)

详情

拷贝 S3 文件到同一个 bucket 的另一个位置。

参数

s3account 一个 key 为 STRING 类型的字典，表示账户信息。

bucket STRING 类型的标量，表示访问的桶名称。

srcPath STRING 类型的向量，表示源文件路径。

destPath STRING 类型的向量，表示目标文件路径。

使用示例

account=dict(string,string);
account['id']=your_access_key_id;
account['key']=your_secret_access_key;
account['region']=your_region;
db = database(directory="dfs://rangedb", partitionType=RANGE, partitionScheme=0 51 101)
aws::loadS3Object(account, 'dolphindb-test-bucket', 't2.zip', 4, db, `pt, `ID);