欢迎来到 Lance 开源文档!¶
Lance 是一种现代的列式数据格式,专为机器学习和 AI 应用优化。它高效处理各种多模态数据类型,同时提供高性能查询和版本控制功能。
使用 Python 在本地快速入门 阅读格式规范 在 Lance 数据集上训练您的 LLM
🎯 Lance 如何工作?¶
Lance 旨在与图像、视频、3D 点云、音频和表格数据一起使用。它支持任何 POSIX 文件系统以及 AWS S3 和 Google Cloud Storage 等云存储。
这种文件格式特别适用于向量搜索、全文搜索和多模态数据上的 LLM 训练。要了解有关 Lance 如何工作的更多信息,请阅读格式规范。
寻找 LanceDB?
这是 Lance 表格式项目 - 支持 LanceDB 的开源核心。如果您想要基于 Lance 构建的完整向量数据库和多模态数据湖,请访问lancedb.com
⚡ Lance 格式的关键特性¶
特性 | 描述 |
---|---|
🚀 高性能随机访问 | 随机访问模式比 Parquet 快 100 倍 |
🔄 零拷贝数据演化 | 添加、删除或更新列数据,无需重写整个数据集 |
🎨 多模态数据 | 原生存储大型文本、图像、视频、文档和嵌入 |
🔍 向量搜索 | 使用 IVF-PQ、IVF-SQ、HNSW 在 1 毫秒内找到最近邻 |
📝 全文搜索 | 通过倒排索引、Ngram 索引和分词器实现快速文本搜索 |
💾 行级事务 | 具有行级冲突解决功能的完全 ACID 事务 |