当前位置:新闻详细
数据库技术有哪些特点为,现代物流的特点
专业互联网培训机构——完成蜕变以后轻松拿高薪
电话+V: 152079-09430 ,欢迎咨询数据库物流技术有哪些特点和优势,[python实用课程],[C++单片机原理],[C#、PHP网站搭建],[Nodejs小程序开发],[ios游戏开发],[安卓游戏开发],[教会用大脑用想法赚钱实现阶层跨越]
一、数据库技术有哪些特点为
特点如下:
1、数据结构化,数据之间具有联系,面向整个系统。
2、数据的共享性高,冗余度低,易扩充。数据库系统从整体角度描述数据,数据不再面向某个应用而是面向整个系统,因此数据可以被多个用户、多个应用共享使用。
3、数据独立性高。数据的独立性是数据库领域中的一个常用术语,包括数据的物理独立性和数据的逻辑独立性。物理独立性是指用户的应用程序与存储在磁盘上的数据库中的数据是相互独立的。
二、现代物流的特点
现代物流的特点:
1.物流过程一体化
现代物流具有系统综合和总成本控制的思想,它将经济活动中所有供应、生产、销售、运输、库存及相关的信息流动等活动视为一个动态的系统总体,关心的是整个系统的运行效能与费用。
2.物流技术专业化
表现为现代技术在物流活动中得到了广泛的应用,例如,条形码技术,EDI技术,自动化技术,网络技术,智能化和柔性化技术等等。运输、装卸、仓储等也普遍采用专业化、标准化、智能化的物流设施设备。
3.物流管理信息化
物流信息化是整个社会信息化的必然需求。现代物流高度依赖于对大量数据、信息的采集、分析、处理和及时更新。在信息技术、网络技术高度发达的现代社会,从客户资料取得和订单处理的数据库化、代码化,物流信息处理的电子化和计算机化,到信息传递的实时化和标准化,信息化渗透至物流的每一个领域。为数众多的无车船和固定物流设备的第三方物流者正是依赖其信息优势展开全球经营的。
4.物流服务社会化
突出表现为第三方物流与物流中心的迅猛发展。随着社会分工的深化和市场需求的日益复杂,生产经营对物流技术和物流管理的要求也越来越高。众多工商企业逐渐认识到依靠企业自身的力量不可能在每一个领域都获得竞争优势。它们更倾向于采用资源外取的方式,将本企业不擅长的物流环节交由专业物流公司,或者在企业内部设立相对独立的物流专业部门,而将有限的资源集中于自己真正的优势领域。专业的物流部门由于具有人才优势、技术优势和信息优势,可以采用更为先进的物流技术和管理方式,取得规模经济效益,从而达到物流合理化――产品从供方到需方全过程中,达到环节最少、时间最短、路程最短、费用最省。
5.物流活动国际化
向量数据库:抛弃数据库范式的代价?
InfoQ2024-03-0110:24发布于北京InfoQ官方账号+关注作者|栾小凡-Zilliz合伙人研发VP\t向量数据库大概是沉寂已久的数据库圈2023年最火的话题。最近有很多朋友询问我对向量数据库的看法,现在确实是讨论这个问题的好时机,一方面大模型和向量数据库仍然是热点话题,另一方面我们已经有了足够的样本和时间去仔细思考什么是真正面向AI应用的数据库。本文标题致敬DavidJ.DeWitt和MichaelStonebraker,他们讨论Mapreduce的同名文章是我学习分布式系统的入门文章,也引领我进入数据库行业。尽管我本人也深度参与了开源向量数据库Milvus的开发工作,但我个人对过去一年里VectorDB的鼓吹者大肆宣传向量数据库与AI的关系感到厌倦。的确,向量数据库确实在部分与大模型相关的应用场景中起到了重要作用,但是,向量数据库目前的产品定位,形态,功能都与我们在2019年发明向量数据库这个词的初心相去甚远,更不要说能够很好的适配和支撑AIGC应用接下来的发展。现在是时候承认一个我们所有人都知道已经的事实了,目前所有的向量数据库(是的,也包括Milvus自身)根本不能被称之为一款数据库产品,某种意义是大规模数据处理领域的一种倒退,原因是:向量数据库放弃了数据库中重要的范式和理念绝大多数向量数据库的实现方式并不高效向量数据库不能处理复杂的向量查询缺少了大部分数据库应有的功能现存的VectorDB可能不是处理AIGCNative应用最适合的产品,是适合的时机作出改变了。我们先讨论什么是向量数据库以及其爆红的原因,然后我们在具体讨论上述四个原因。\t\t什么是向量数据库?\t向量数据库,正如其名,是专为管理向量数据而设计的数据库。这类数据库的诞生主要是为了应对非结构化数据的处理挑战。传统的表格形式不适合存储和表达非结构化数据,如图片、音频和视频。这些数据类型需要通过机器学习算法来提取内部的“特征”,这些特征通常以向量的形式表示。随着大模型和人工智能技术的迅速进步,模型在理解数据语义方面的能力显著增强。这一发展推动了向量数据应用场景的广泛扩展,使得如何高效地存储和检索向量数据成为了一个关键议题。向量数据库应运而生,旨在解决这一问题。向量数据库的核心能力在于其对高维数据相似性的理解和处理能力。通过采用近邻图、聚类、局部敏感哈希(LSH)等多种机器学习算法,向量数据库能够实现多种复杂的数据操作。这些操作包括最近邻/最远邻检索、聚类计算、以及相似性过滤等功能。相比于传统的向量搜索服务和向量检索库,向量数据库从一开始就非常注重数据持久性(Persistence),一致性(Consistency),可用性(Availability),可扩展性(Scalability),安全性(Security)等数据库关键能力。之所以命名为向量数据库,是因为我们希望向量数据的处理能够像结构化数据一样高效和易用。接下来,让我们看看当前的向量数据库到底存在着哪些具体的问题。1向量数据库放弃了数据库中重要的范式和理念\t很多VectorDB并不能被称为一个真正的数据库,他们不支持预定义Schema查询接口很随意,缺乏HighLevel查询语言缺乏数据库基本机制,正确性和稳定性难以保证缺乏频繁更新,删除的能力和实时查询的能力不支持预定义Schema:很多向量数据库基于应用性考虑,不支持预定义的Schema。预定义的Schema有助于保持数据的完整性和一致性,避免应用程序向数据集中添加“垃圾”。相比之下,传统数据库如MongoDB即使支持动态Schema,也是基于精细的数据类型设计和索引构建,且仍可能牺牲一些效率和性能。查询接口的随意性和缺乏高级查询语言:向量数据库的查询接口通常缺乏规范性,没有高级的查询语言。这导致了接口的泛化能力较弱,例如Pinecone的查询接口甚至不包括指定要检索的字段,更不用说分页、聚合等数据库常见的功能。接口的泛化能力弱意味着其变化频繁,增加了学习成本。SQLindex.query(vector=[0.3,0.3,0.3,0.3,0.3,0.3,0.3,0.3],top_k=3,include_values=True)数据库行业近年来经历了从NoSQL到NewSQL的重大转变。这一转变的核心在于让用户能够明确表达他们的需求,而不是如何实现这些需求。许多向量数据库没有从历史中吸取教训,这种简单直接的API尽管在早期实现会比较高效,但很可能在未来演进过程中逐渐显现为一个短板。缺乏数据库基本机制和测试,正确性难以保证:由于向量数据库不需要100%的查询准确率,很多产品没有重点关注数据准确性。在使用VectorDBbench进行测试时发现,在特殊数据集,如OOD(OutofDistribution)、Filtering场景下,许多向量数据库的搜索质量难以得到保证。尤其是很多向量检索直接使用开源索引的Faiss和HNSW索引,往往无法实现即插即用并获得良好的检索效果。在并发插入和更新场景下,由于缺乏多版本并发控制(MVCC)、事务等基本数据库机制的支持,许多向量数据库同样面临着并发处理问题和数据可见性问题。鉴于迄今为止的实验评估,我个人对许多向量数据库在实际生产环境中的应用效果持怀疑态度,也建议所有开发者在选择向量数据库之前进行更加全面的评估。缺乏频繁更新、删除和实时查询的能力:对于在线服务型数据库来说,处理高频率的增删改查操作是至关重要的,这也是区分传统向量检索和向量数据库的一个重要标志。然而,大多数向量数据库虽然支持数据的增量插入和删除,但面临着插入性能瓶颈和查询性能衰退的严重问题,这通常与依赖的开源向量数据库索引如Faiss和HNSW的特性有关。以HNSW为例,数据的索引是在插入过程中实时完成的,这一过程既缓慢又会影响查询效率。因此,许多向量数据库的插入速度不超过10MB/s,无法满足大量数据入库时的性能需求。另一方面,频繁的数据删除会导致图索引的连通性变差,进而影响查询性能和结果。2绝大多数向量数据库的实现方式并不高效\t在深入分析向量数据库的实现方式时,我们可以清晰地看到:绝大多数向量数据库并没有达到理想的高效运行状态。传统分布式数据库主要面临两大挑战:有效地进行数据分片(Sharding)和创建高效索引。在这些传统数据库中,Sharding通常基于主键、索引键或分区键,采用Range分区或Hash分区,使得系统能够根据查询条件高效地选取数据片段。而索引结构,如hash、B树和LSM树,能够将搜索范围有效缩小至少数几个数据库页面,大幅降低查询的I/O和过滤成本。然而,向量数据库在处理这两个方面时表现不佳。首先,由于向量数据查询的特殊性质,传统的Sharding和索引方法并不完全奏效。多数向量数据库在设计初期未充分考虑Sharding问题,在从单机向分布式结构转变时,常常只能依赖随机分片和查询归并策略。这导致了随着数据量的增长,查询成本也以O(N)的规模增加。一个更有效的Sharding策略应该基于数据分布特性,而非单纯的数据写入时间。其次,由于向量的高维特性,向量数据没法使用传统的数据结构进行索引。许多向量数据库依赖的是纯内存图索引和聚类索引,这导致了高昂的存储成本。为了应对这一挑战,采用冷热数据分离、存算分离与缓存策略成为了降低成本的关键。另一方面,由于缺少测试集合,向量索引的实际性能很难被全面的评估,比如我们发现图索引的连通性在某些数据特性下会降低,尤其在高过滤、频繁删除的场景中,这使得部分数据变得难以检索,而绝大多数向量数据库并未针对这些特殊场景作出处理。此外,向量数据库开发者们常常忽略向量检索的概率特性。在绝大多数应用场景中,追求99%的准确率下的高性能和低成本比追求100%的绝对准确率更为重要。利用机器学习动态调整索引参数和查询参数,可以在大数据集中实现超过10倍的性能提升。此外,机器学习算法还可用于向量降维、量化和动态剪枝,进一步提高数据库的效率。3向量数据库不能处理复杂的向量查询\t在很多用户的眼里,向量数据库提供的价值就是对高维向量进行ANN检索。事实上,这种刻板印象完全来源于向量数据库的过于简化的糟糕实现-缺乏抽象,没有内存管理,没有可插拔的执行引擎。在真实应用场景里,我们见到了用户对向量更加复杂的查询需求,例如:混合查询提升查询质量:用户需要的不仅是DenseEmbedding,还包括SparseEmbedding以及两种向量混合查询。Sparseembedding(如BM25和Splade)可以更有效地检索细节信息,而Denseembedding则擅长捕捉上下文和语义信息。结合这两种embedding,并基于适当的模型进行reranking(重新排序),能够大幅提升查询召回的准确性。向量与标量的综合结合功能:向量数据库不仅可以执行标量过滤,还能进行GroupBy、Aggregation等关系型数据库操作。常见的操作包括寻找年龄在20至30岁之间的top10相关用户,或者找出最相似的100个文档分块,并按其文档ID进行分组,最终返回最相似的文档。向量丰富语义的应用:向量数据含有丰富的语义信息,支持包括最近邻过滤(例如找像猫但排除加菲猫的照片)、异常数据识别、基于距离范围的RangeSearch、基于最近邻的GroupBy、KNNJoin等操作。这些功能在特定场景下具有实际应用价值。随着AI应用场景的不断发展,我们面临的查询任务变得越来越复杂。目前,无论是那些基于传统数据库并加入插件的向量数据库,还是那些以轻量级和易用性为主要卖点的向量数据库,在面对复杂的向量查询时,往往显得不够强大(以开源的HNSW作为执行引擎,也很难满足更加复杂的查询能力)。为了应对这一挑战,一个理想的向量数据库应该具备与传统数据库相似的核心组件,例如AI原生的解析器、优化器,以及更加符合向量数据特点的执行引擎。这些组件需要在更高的抽象层次上结合在一起,从而能够更好地适应业务的快速演进和发展需求。4缺少了大量数据库应有的功能\t以下所有功能通常由现代数据库管理系统(DBMS)提供,而大多数向量数据库都缺少这些功能:离线加载-将数据从其原始格式或源数据库转换成Parquet,CSV离线格式并批量加载到数据库中,以加快大量数据的插入速度。数据库的一致性-支持强一致性查询和复杂的WriteAfterRead操作,并确保数据的准确性和完整性。安全-包括角色基础访问控制(RBAC)、认证、TLS,数据加密等能力。多租户支持-在一个集群或一个表中支持多个租户的数据,许多用户现在的使用方式是建立更多的表和建群,这显然是难以的维护的做法数据导出-支持全量数据导出,许多向量数据库不支持该功能的原因依然是其糟糕的实现,但这依然会导致供应商锁定。容灾能力-提供跨机房的灾难恢复能力,确保数据的高可用性和持续性。总之,我认为绝大多数“向量数据库”被称之为数据库只是一个误会,或者只是一种营销术语。在向量数据库具备传统数据应该具备的能力和工具之前,用户在生产环境中使用向量数据库的旅程依然会非常挣扎。5向量数据库,真的“凉”了?\t在深入探讨向量数据库的局限性之后,作为一个拥有三年向量数据库和十年传统数据库行业经验的从业者,我反而对专有向量数据库的未来感到更加乐观。我们可以问自己两个问题:目前的向量数据库是否能满足AINative开发者的期望和需求?如果现状尚未达到这一目标,那么我们应该做些什么?经过与数百名专注于AI原生应用的开发者的对话,我发现他们普遍面临一个类似的挑战:在AI原生应用开发中,迫切需要的是一种能够深刻理解语义的搜索系统。这种系统的核心功能是能从大量数据中提取出高质量的上下文信息,从而支持大型模型进行更精确的推理,并有效地消除幻觉。随着业务需求的发展,搜索技术也在持续地创新和多样化。现代的搜索方法已经超越了传统的向量检索,包括图索引、关系型查询和关键词搜索等多种技术。未来的搜索架构可能会更加复杂:作为AIGC系统的存储核心,向量数据库的作用定义都不断扩展。它们不仅应该存储向量信息,还应该包括标签、倒排索引等标量数据,从而提供更加丰富和复杂的查询语义。这种多元化的数据存储和检索机制对于提升搜索的质量和功能至关重要。即将发布的Milvus2.4和版本将引入多向量混合查询和稀疏索引功能,为AIGC应用提供更加强大的存储支持。AIGC技术的迅猛发展正在加速相关应用的普及。一个显著的例子是ChatGPT,它在仅仅5天内就吸引了一百万用户,并在两个月内用户数激增至一亿。这种爆炸式的增长不仅体现在用户数量的迅速上升,而且还在于用户粘性的持续提升。因此,开发者在项目初期就需要特别关注应用的弹性和扩展性。在处理AIGC应用,如RAG和Agent等,面临的一个典型挑战是如何高效管理多租户环境。Milvus在这方面进行了创新性的尝试,提出了基于分区键的多租户解决方案。这个方案允许单个集群支持千万级别的租户数据分离,这对于处理大规模用户数据是至关重要的。ZillizCloud即将推出的Serverlesstier将支持千万级别的租户,单个租户的数据可以弹性扩展到亿级别,同时支持多租户之间的冷热数据分离。使用Serverlesstier,预计单个知识库的成本将比现有解决方案降低10倍,这将进一步推动了RAG应用的普及。
在AI原生时代的背景下,我们目睹了团队规模的显著变化。当前,小型且高效的团队通过优秀的产品能够迅速占领市场。这种趋势在多个案例中得到了验证。例如,Pika团队虽然只有4人,但他们的公司估值已超过10亿;而Midjourney团队在只有11名成员的情况下,年营收已经超过一个亿。这些例子展示了小规模团队在AI原生时代所拥有的巨大潜力。这样的“小而美”的公司倾向于专注于业务逻辑本身,而不是将大量时间和资源投入到基础设施管理中。因此,他们倾向于选择云托管向量数据库作为首选。在选择过程中,容灾能力、弹性和数据安全性成为重要的考量因素。目前,所有向量数据库供应商在这些方面都还有很远的路要走。随着数据量的持续增长,数据存储和检索性能变得尤为关键。在业务早期,使用如PGVector等插件可迅速满足需求。然而,随着业务扩展和存储成本上升,转向专业向量数据库并进行针对性优化成为必要。Milvus不仅是首个支持磁盘索引的向量数据库,也是首个推出GPU索引的供应商。此外,Zilliz自研的Cardinal索引相比开源HNSW实现了三倍性能提升和50%存储节约,其独创的磁盘索引技术进一步提升了5倍存储效率。与NVIDIA合作开发的CagraGPU索引在性能上比CPU性能提高了10倍,显示了异构算力在向量处理中的巨大潜力。正如我们所见,尽管向量数据库在当前的形态中存在诸多不足,但它们在AI驱动的未来中仍扮演着至关重要的角色。事实上,最让我感到兴奋是开发范式和应用场景的改变,这让我想起了15年前MapReduce的崛起和10年前移动互联网兴起MongoDB的诞生,这对于数据库行业是一个新的历史性机遇。面对如此多的不足,我们不应仅仅停留在批评的层面,而应该借鉴过往数十年的关系型数据库经验,结合今天的AI应用场景,找到属于向量数据库的独特价值。如果要用一句话来概括向量数据库,那就是“以AI的方式理解数据,以数据库的方式访问数据”。伟大的数据库产品往往诞生于应用开发范式的变革时期。今天,向量数据库也似乎正站在属于它的历史性机遇前。【FUTURE PROGRAMMING COURSE】尊享对接老板
电话+V: 152079-09430
机构由一批拥有10年以上开发管理经验,且来自互联网或研究机构的IT精英组成,负责研究、开发教学模式和课程内容。公司具有完善的课程研发体系,一直走在整个行业发展的前端,在行业内竖立起了良好的品质口碑。
发布人:hlwz5773发布时间:2024-05-04