主页 > 电脑硬件 >

TPU-MLIR——实现Chatglm2-6B大模型移植部署

电脑硬件
2025-08-18 21:09:02

TPU-MLIR——实现Chatglm2-6B大模型移植部署

TPU-MLIR——实现Chatglm2-6B大模型移植部署

本项目实现BM1684X部署语言大模型ChatGLM2-6B。通过TPU-MLIR编译器将模型转换成bmodel，并采用c++代码将其部署到BM1684X的PCIE环境，或者SoC环境。

编译chatglm2-6B模型 1. 下载‘Chat-GLM2-6B’

2. 对该模型做两点修改：

一是将config.json文件中seq_length配置为512；二是将modeling_chatglm.py文件中的如下代码：

修改为：

这样修改可以提升效率，使用masked_fill效率低下

加载并编译TPU-MLIR：

下载本项目‘ChatGLM2-TPU’

编译模型

指定’ChatGLM2-6B‘的python路径

导出所有onnx模型，如果过程中提示缺少某些组建，直接’pip install‘即可

对onnx模型进行编译，生成bmodel，这个过程会花一些时间，最终生成’chatglm2-6b.bmodel’文件

移植模型到开发板将chatglm2-6b.bmodel和tokenizer.model拷贝到开发板运行环境。(tokenizer.model来自ChatGLM2-6B) C++部署测试（1684X开发板）编译模型

将sentencepiece编译后/workspace/sentencepiece/build/src/目录下SoC版本的libsentencepiece.a替换到此目录的/lib/下，进入chatglm2-tpu/demo目录进行编译

如果要编译SoC环境，则修改CMakeLists.txt为以下内容：【 CMakeLists.txt在上一级目录】

编译

将ChatGLM2-TPU整个目录拷贝到开发板运行环境就可以执行了。

连接开发板

通过本地网络适配器网线直连方式，IP地址：192.168.150.1，用户名：linaro 密码：linaro

也可通过串口Serial连接，设置COM口，Speed为115200 成功进入显示linaro@bm1684的Ubuntu系统通过LAN口网络连接方式，IP地址：172.xxx.xxx.xxx(DHCP获取的地址，可通过串口ifconfig查看IP)，用户名：linaro 密码：linaro

开发板运行

进入到/data/目录，查看scp传输的文件：

执行编译好的C++代码，即可实现在线chat

c++部署完成！

python部署测试（1684x开发板）编译模型

进入chatglm2-tpu/python_demo目录进行编译

如果要编译SoC环境，则修改CMakeLists.txt为以下内容：【 CMakeLists.txt在上一级目录】

编译

编译成功会生成ChatGLM2.cpython-38-x86_64-linux-gnu.so，之后将chatglm2-6b.bmodel放到python_demo目录下。

将ChatGLM2-TPU整个目录拷贝到开发板运行环境就可以执行了。

连接开发板

通过本地网络适配器网线直连方式，IP地址：192.168.150.1，用户名：linaro 密码：linaro

也可通过串口Serial连接，设置COM口，Speed为115200 成功进入显示linaro@bm1684的Ubuntu系统通过LAN口网络连接方式，IP地址：172.xxx.xxx.xxx(DHCP获取的地址，可通过串口ifconfig查看IP)，用户名：linaro 密码：linaro

开发板运行

进入到/data/目录，查看scp传输的文件：

运行

python部署完成！

标签：

TPU-MLIR——实现Chatglm2-6B大模型移植部署由讯客互联电脑硬件栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“TPU-MLIR——实现Chatglm2-6B大模型移植部署”

上一篇
基于华为云云耀云服务器L实例下的场景体验|Docker可视化

下一篇
[Linux入门]---git命令行的基本使用