不输ChatGPT 国产AI大模型开测:为中文优化、支持国产CPU训练 |
珠江路在线
2023年3月15日
【
转载
】好奇迹影视
|
本文标签:ChatGPT,国产AI |
ChatGPT今日 晋级了GPT-4模型,AI 威力更加 壮大,国内在这方面也在迅速追赶,有国歌国产版ChatGPT问世了,现在清华大学 传授唐杰 宣告由该校AI 成绩转化的ChatGLM开始内测 。
据介绍,对话机器人 ChatGLM(alpha内测版:QAGLM),这是一个初具问答和对话 性能的千亿中英语言模型, 并针对中文进行了优化,现已开启邀请制内测,后续还会逐渐 扩充内测 规模 。
与此同时,继开源 GLM-130B 千亿基座模型之后,我们正式开源最新的中英双语对话 GLM 模型: ChatGLM-6B, 联合模型量化技术,消费者 能够在消费级的显卡上进行当地部署(INT4 量化级别下最低 只有 6GB 显存) 。
通过约 1T 标识符的中英双语训练,辅以监督微调、 反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 固然规模 不迭千亿模型,但大大减低了消费者部署的门槛,而且已经能生成相当 相符人类偏好的 答复 。
ChatGLM 参考了 ChatGPT 的设计思路,在千亿基座模型 GLM-130B1?中注入了代码预训练,通过有监督微调(Supervised Fine-Tuning)等技术实现人类 用意对齐 。
ChatGLM 目前版本模型的 威力 晋升重要 起源于独特的千亿基座模型 GLM-130B 。它是不同于 BERT、GPT-3 以及 T5 的架构,是一个包括多 指标函数的自回归预训练模型 。
2022年8月,我们向探究界和工业界开放了 占有1300亿参数的中英双语 密集模型 GLM-130B1,该模型有一些独特的优势:
双语:?同时 支撑中文和英文 。
高精度(英文):?在公开的英文自然语言榜单 LAMBADA、MMLU 和 Big-bench-lite 上优于 GPT-3 175B(API: davinci,基座模型)、OPT-175B 和 BLOOM-176B 。
高精度(中文):?在7个零样本 CLUE 数据集和5个零样本 FewCLUE 数据集上显而易见优于 ERNIE TITAN 3.0 260B 和 YUAN 1.0-245B 。
快捷推理:?首个实现 INT4 量化的千亿模型, 支撑用一台 4 卡 3090 或 8 卡 2080Ti 服务器进行 快捷且 根本无损推理 。
可复现性:?全部 后果(超过 30 个 使命)均可通过我们的开源代码和模型参数复现 。
跨平台:? 支撑在国产的海光 DCU、华为昇腾 910 和申威 解决器及美国的英伟达芯片上进行训练与推理 。
2022年11月,斯坦福大学大模型 核心对 寰球30个主流大模型进行了全方位的测评2,GLM-130B 是亚洲唯一入选的大模型 。
在与 OpenAI、谷歌大脑、微软、英伟达、脸书的各大模型对照中,测评报告显示 GLM-130B 在精确性和 歹意性指标上与 GPT-3 175B (davinci) 接近或持平,鲁棒性和校准误差在全部千亿规模的基座大模型(作为公平对照,只对照无指令 揭示微调模型)中 体现不错(下图) 。