跳到内容

HuggingFace 集成

HuggingFace Hub 已成为机器学习从业者查找预训练模型和有用数据集的首选之地。

通过使用 lance.write_dataset 方法,HuggingFace 数据集可以直接写入 Lance 格式。你可以写入整个数据集或特定的拆分。例如

import datasets # pip install datasets
import lance

lance.write_dataset(datasets.load_dataset(
    "poloclub/diffusiondb", split="train[:10]",
), "diffusiondb_train.lance")