跳到内容

Spark Lance 连接器

简介

Lance 的 Apache Spark 连接器允许 Apache Spark 有效地读取以 Lance 格式存储的数据集。

通过使用 Lance 的 Apache Spark 连接器,您可以在由 Lance 提供支持的 AI 数据湖上利用 Apache Spark 强大的数据处理、SQL 查询和机器学习训练功能。

功能

该连接器是使用 Spark DatasourceV2 (DSv2) API 构建的。请查看此演示文稿,了解有关 DSv2 功能的更多信息。具体来说,您可以使用 Lance 的 Apache Spark 连接器来

  • 读写 Lance 数据集:使用 Spark 无缝读写以 Lance 格式存储的数据集。
  • 分布式、并行扫描:利用 Spark 的分布式计算能力对 Lance 数据集执行并行扫描。
  • 列和过滤器下推:通过将列选择和过滤器下推到数据源来优化查询性能。

快速开始

该项目在 docker 文件夹中包含一个 Docker 镜像,您可以构建并运行一个简单的示例 Notebook。为此,请克隆仓库并运行

make docker-build
make docker-up

然后打开 https://:8888 上的 Notebook。