跳到内容

读取 Lance 数据集

read_lance

read_lance(
    uri=None, 
    *, 
    namespace=None, 
    table_id=None, 
    columns=None, 
    filter=None, 
    storage_options=None, 
    **kwargs)

读取 Lance 数据集并返回 Ray Dataset。

参数

  • uri: 要读取的 Lance 数据集的 URI(需要 uri 或 namespace+table_id)
  • namespace: 用于元数据目录集成的 LanceNamespace 实例(需要 table_id)
  • table_id: 表标识符,字符串列表形式(需要 namespace)
  • columns: 要读取的列名列表(可选)
  • filter: 要应用的过滤表达式(可选)
  • storage_options: 可选的存储配置字典
  • scanner_options: 扫描器配置字典(可选)
  • ray_remote_args: Ray 远程任务的可选 kwargs
  • concurrency: 最大并发 Ray 任务数(可选)
  • override_num_blocks: 输出块数量的覆盖值(可选)

返回: Ray Dataset