数据演进¶
add_columns¶
使用 Ray 的分布式处理向现有 Lance 数据集添加列。
参数
uri: Lance 数据集的路径(需要 uri 或 namespace+table_id 之一)namespace: 用于元数据目录集成的 LanceNamespace 实例(需要 table_id)table_id: 表标识符,字符串列表形式(需要 namespace)transform: 用于添加列的转换函数filter: 可选的过滤表达式read_columns: 可选的从原始数据集读取的列列表reader_schema: 可选的读取器模式read_version: 可选的读取版本ray_remote_args: Ray 远程任务的可选 kwargsstorage_options: 可选的存储配置字典batch_size: 处理的批次大小(默认值:1024)concurrency: 可选的并发进程数
返回: 无