Vector Database(向量数据库):AI的”记忆宫殿”

一个让你脊背发凉的事实:

你每天在淘宝、抖音、豆瓣上的每一次”猜你喜欢”点击,都在帮一个数据库变得更聪明——而这个数据库存的,不是文字,是数字。

它叫向量数据库(Vector Database)

Vector Database(向量数据库):AI的"记忆宫殿"

一句话理解

向量数据库 = 专门存储”味道”(语义相似度)的数据库,让AI能快速找到和某个东西”最像”的其他东西。

它是怎么工作的

普通数据库存文字:”苹果”存的就是”苹果”这两个字。

向量数据库存的是”苹果”的味道——用数学的话说,是一个多维向量。

比如:

“苹果” = [0.75, 0.22, 0.88, 0.41, …] (1536维)

“香蕉” = [0.70, 0.25, 0.82, 0.38, …]

“手机” = [0.12, 0.91, 0.33, 0.95, …]

你会发现,”苹果”和”香蕉”的向量很近,因为它们都是水果、都是食物、都能吃。

“苹果”和”手机”的向量很远,因为一个是水果,一个是科技产品。

向量数据库就是拿这些数字做”距离计算”——距离越近,东西越像。

这就是为什么你搜”苹果”,系统知道你想买水果还是手机。

有什么用

  • RAG(检索增强生成):把知识库切成小块,存成向量,AI回答问题时先检索最相关的片段
  • AI搜索:语义搜索(不只是关键词匹配),搜”好看的喜剧”能找到”周星驰电影”
  • 推荐系统:抖音、淘宝、Spotify的”猜你喜欢”
  • 去重/相似检测:图片查重、论文查重、代码查重
  • Agent记忆:AI agent把对话历史存向量,下次需要时快速检索

小八卦

向量数据库这个概念其实很老了(2010年代就有学术研究),但真正火起来是在2023年ChatGPT爆发之后。

因为RAG架构兴起后,大家发现:光有Embedding模型不够,还得有个地方存这些向量、还得查得快。于是Pinecone、Weaviate、Chroma、Milvus这些专用向量数据库在2023年集体爆发,连传统数据库厂商(PostgreSQL推出了pgvector)都开始卷这个赛道。

一句话总结

向量数据库是AI时代的”嗅觉系统”——它存的不是文字本身,而是文字的”味道”(数学向量),让AI能快速找到语义上最接近的东西,无论是回答问题、推荐内容还是做搜索。

AI百科

World Model(世界模型):AI开始有"想象力"了

2026-4-30 22:21:16

AI百科

Skill:AI工具里的"瑞士军刀"

2026-4-9 8:32:29

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧