数据演进¶
add_columns
¶
使用 Ray 的分布式处理向现有 Lance 数据集添加列。
参数
uri
: Lance 数据集的路径(需要 uri 或 namespace+table_id 之一)namespace
: 用于元数据目录集成的 LanceNamespace 实例(需要 table_id)table_id
: 表标识符,字符串列表形式(需要 namespace)transform
: 用于添加列的转换函数filter
: 可选的过滤表达式read_columns
: 可选的从原始数据集读取的列列表reader_schema
: 可选的读取器模式read_version
: 可选的读取版本ray_remote_args
: Ray 远程任务的可选 kwargsstorage_options
: 可选的存储配置字典batch_size
: 处理的批次大小(默认值:1024)concurrency
: 可选的并发进程数
返回: 无