跳到内容

写入 Lance 数据集

write_lance

write_lance(
    ds, 
    uri=None, 
    *, 
    namespace=None, 
    table_id=None, 
    schema=None, 
    mode="create", 
    **kwargs)

将 Ray 数据集写入 Lance 格式。

参数

  • ds: 要写入的 Ray 数据集
  • uri: 目标 Lance 数据集的路径(需要 uri 或 namespace+table_id)
  • namespace: 用于元数据目录集成的 LanceNamespace 实例(需要 table_id)
  • table_id: 表标识符,字符串列表形式(需要 namespace)
  • schema: 可选的 PyArrow 模式
  • mode: 写入模式 - "create"(创建),"append"(追加),或 "overwrite"(覆盖)
  • min_rows_per_file: 每个文件的最小行数(默认值:1024 * 1024)
  • max_rows_per_file: 每个文件的最大行数(默认值:64 * 1024 * 1024)
  • data_storage_version: 可选的数据存储版本
  • storage_options: 可选的存储配置字典
  • ray_remote_args: Ray 远程任务的可选 kwargs
  • concurrency: 可选的最大并发 Ray 任务数

返回: