15天学会AI应用开发（十）把文本嵌入模型换成国产模型-拓冰建站

一、all-MiniLM-L6-v2的缺点

虽然all-MiniLM-L6-v2的优点很多，比如下列几点：

1、体积极小：几十 MB，随便本地离线下载
2、速度超快：CPU 就能跑，不用显卡
3、通用好用：英文很强，中文也能用（日常 RAG 足够）
4、适配所有向量库：FAISS、Chroma、Milvus 全都兼容

但是all-MiniLM-L6-v2的缺点也很明显，就是它对中文的理解能力一般，有时会出现一些似是而非的错误。

比如之前的文章《15天学会AI应用开发（八）使用向量数据库实现RAG功能》，运行Python测试代码时，如果输入的问题是“RAG是什么”，输出日志结果如下：

=== 本地智能 RAG 系统：问什么答什么 === 请输入问题（q退出）：RAG是什么 问题：RAG是什么 答案：RAG让大模型能引用外部知识，避免胡说八道。 --------------------------------------------------

然而原始的知识库是这样的：

"什么是AI：人工智能（AI）是一门使机器模拟人类智能的技术。", "什么是RAG：RAG代表检索增强生成，通过检索外部知识提升大模型回答准确性。", "本地RAG消耗Token吗：本地RAG不调用云端API，不消耗Token，完全免费。", "FAISS是什么：FAISS是Facebook开源的向量检索库，用于本地高效检索。", "RAG的作用：RAG让大模型能引用外部知识，避免胡说八道。"

可见问题“RAG是什么”的正确答案是第二条知识“RAG代表检索增强生成，通过检索外部知识提升大模型回答准确性。”，但all-MiniLM-L6-v2返回的答案却是最后一条知识“RAG让大模型能引用外部知识，避免胡说八道。”，说明all-MiniLM-L6-v2对中文的支持不够精准。

对于专业中文的RAG来说，更好的办法是换成国产的文本嵌入模型，比如BGE-small、BGE-base、Qwen-Embedding等等。

二、下载中文嵌入模型BGE-small

BGE-small的模型页面为 https://modelscope.cn/models/BAAI/bge-small-zh-v1.5 ，模型文件大小为192.25MB。

在下载离线大模型前，要先在命令行执行下面的pip安装命令：

pip install modelscope

接着命令行通过cd命令进入Python工程的所在目录，再执行下面的模型下载命令：

modelscope download --model BAAI/bge-small-zh-v1.5 --local_dir bge-small-zh-v1.5

上面下载命令的“--model”参数表示离线大模型为“BAAI/bge-small-zh-v1.5”，而“--local_dir”参数表示离线大模型的本地保存目录。

下载完毕，即可在Python工程的目录下方找到bge-small-zh-v1.5文件夹，里面保存的便是BGE-small的具体模型文件。

三、结合BGE-small与FAISS实现RAG

接下来演示如何使用BGE-small与FAISS实现RAG检索功能。在编写Python代码前，要先在命令行执行下面的pip安装命令：

pip install faiss-cpu sentence-transformers

然后编写下面的Python检索测试代码，与之前教程的代码相比，仅仅把all-MiniLM-L6-v2改成了bge-small-zh-v1.5：

from sentence_transformers import SentenceTransformer import faiss import numpy as np # ===================== 你的知识库（完全不变） ===================== knowledge = [ "什么是AI：人工智能（AI）是一门使机器模拟人类智能的技术。", "什么是RAG：RAG代表检索增强生成，通过检索外部知识提升大模型回答准确性。", "本地RAG消耗Token吗：本地RAG不调用云端API，不消耗Token，完全免费。", "FAISS是什么：FAISS是Facebook开源的向量检索库，用于本地高效检索。", "RAG的作用：RAG让大模型能引用外部知识，避免胡说八道。" ] # ===================== 加载你本地已有的模型（不变） ===================== embed_model = SentenceTransformer("./bge-small-zh-v1.5", device="cpu") # 生成向量（把知识库向量化） vectors = embed_model.encode(knowledge) # 构建 FAISS 索引 index = faiss.IndexFlatL2(vectors.shape[1]) index.add(np.array(vectors).astype("float32")) # ===================== RAG 检索（逻辑不变） ===================== def rag(question): print("\n 问题：" + question) # 把问题向量化 q_vec = embed_model.encode([question]) # 从 FAISS 检索对应的知识 D, I = index.search(np.array(q_vec).astype("float32"), 1) best = knowledge[I[0][0]] answer = best.split("：")[-1] print(" 答案：" + answer) print("-" * 50) # ===================== 运行 ===================== if __name__ == "__main__": print("=== 本地智能 RAG 系统：问什么答什么 ===") while True: q = input("\n请输入问题（q退出）：") if q.lower() == "q": break rag(q)

运行上面的Python代码，根据提示先输入问题“RAG是什么？”，再输入问题“RAG有哪些作用？”，输出日志结果如下：

=== 本地智能 RAG 系统：问什么答什么 === 请输入问题（q退出）：RAG是什么？ 问题：RAG是什么？ 答案：RAG代表检索增强生成，通过检索外部知识提升大模型回答准确性。 -------------------------------------------------- 请输入问题（q退出）：RAG有哪些作用？ 问题：RAG有哪些作用？ 答案：RAG让大模型能引用外部知识，避免胡说八道。 --------------------------------------------------