跳到内容

数据演进

add_columns

add_columns(
    uri=None, 
    *, 
    namespace=None, 
    table_id=None, 
    transform, 
    **kwargs)

使用 Ray 的分布式处理向现有 Lance 数据集添加列。

参数

  • uri: Lance 数据集的路径(需要 uri 或 namespace+table_id 之一)
  • namespace: 用于元数据目录集成的 LanceNamespace 实例(需要 table_id)
  • table_id: 表标识符,字符串列表形式(需要 namespace)
  • transform: 用于添加列的转换函数
  • filter: 可选的过滤表达式
  • read_columns: 可选的从原始数据集读取的列列表
  • reader_schema: 可选的读取器模式
  • read_version: 可选的读取版本
  • ray_remote_args: Ray 远程任务的可选 kwargs
  • storage_options: 可选的存储配置字典
  • batch_size: 处理的批次大小(默认值:1024)
  • concurrency: 可选的并发进程数

返回: