Meta 上周宣布正式开源小型语言模型 MobileLLM 系列

aidu_pl">

在 7 月发布之后,Meta 上周宣布正式开源能够在智能手机上运行的小型语言模型 MobileLLM 系列。

Meta 在四个月前发布了这两个参数量小于 10 亿的语言模型 MobileLLM 125M 及 MobileLLM 350M。如今,Meta 又开发出了更大参数量的模型版本,包括 MobileLLM - 600M/1B/1.5B。

Meta 指出,团队全面考虑了多项设计因素,并整合了 SwiGLU 激活函数、“深而精简”架构、内嵌共享以及群组查询注意力机制来开发出 MobileLLM 模型。 从成果来看,MobileLLM 125M/350M 在零样本常识理解任务中的准确率,比 Cerebras、OPT、BLOOM 等先进模型分别高 2.7%和 4.3%。根据 Meta 提供的数据,新增的模型成员如 MobileLLM - 1.5B,更是超越了 GPT - neo - 2.7B、OPT - 2.7B、BLOOM - 3B、Qwen 1.5 - 1.8B 与 Pythia - 2.8B 等参数量较大的其他模型。

Meta 也强调 MobileLLM 训练快速。在 32 颗 Nvidia A100 80G GPU 的服务器环境下,以 1T 字词训练不同参数量的 MobileLLM 所需天数,1.5B 版本只要 18 天,最小的 125M 更只需 3 天。这些模型都已通过 GitHub 与 Hugging Face 开源。

随着智能手机性能日益强大,以及用户对高速响应、低延迟、安全性的需求,越来越多的模型开发商提供小模型。谷歌有 Gemma 2,微软有 Phi 3,OpenAI 则有 GPT - 4o mini,苹果有 DCLM。Hugging Face 上周也公布了小语言模型 SmolLM 2 家族。

在这一趋势下,小型语言模型的竞争愈发激烈。各大科技公司纷纷投入大量资源,不断优化和创新自己的产品。MobileLLM 系列的开源无疑为整个行业带来了新的活力和机遇。开发者们可以基于这些开源模型进行进一步的改进和创新,为用户提供更加个性化、高效的服务。

同时,随着小模型的不断涌现,对于模型的评估和比较也变得尤为重要。未来,可能会出现更加科学、全面的评估标准,以帮助用户更好地选择适合自己需求的语言模型。此外,安全性和隐私保护也将是小模型发展过程中需要重点关注的问题。只有在确保用户数据安全的前提下,小模型才能真正赢得用户的信任和广泛应用。

可以预见,在未来的日子里,小型语言模型将在智能手机等移动设备上发挥越来越重要的作用,为人们的生活和工作带来更多的便利和创新。


http://www.niftyadmin.cn/n/5740738.html

相关文章

微控制器(MCU)如何运行存储在Flash的程序???

忙,太忙了!!!忙完就好了。MCU运行不也就如此?在微控制器单元(MCU)中,我们所编写的程序时通常是存储在闪存(Flash)中。当MCU启动时,它会从闪存中读…

【LeetCode每日一题】——802.找到最终的安全状态

文章目录 一【题目类别】二【题目难度】三【题目编号】四【题目描述】五【题目示例】六【题目提示】七【解题思路】八【时空频度】九【代码实现】十【提交结果】 一【题目类别】 图 二【题目难度】 中等 三【题目编号】 802.找到最终的安全状态 四【题目描述】 有一个有…

【八百客CRM-注册安全分析报告-无验证方式导致安全隐患】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 1. 暴力破解密码,造成用户信息泄露 2. 短信盗刷的安全问题,影响业务及导致用户投诉 3. 带来经济损失,尤其是后付费客户,风险巨大,造…

ThingsBoard规则链节点:Push to Edge节点详解

引言 1. Push to Edge 节点简介 2. 节点配置 2.1 基本配置示例 3. 使用场景 3.1 边缘计算 3.2 本地数据处理 3.3 实时响应 4. 实际项目中的应用 4.1 项目背景 4.2 项目需求 4.3 实现步骤 5. 总结 引言 ThingsBoard 是一个开源的物联网平台,提供了设备管…

FileLink如何帮助医疗行业实现安全且高效的跨网文件交换

在当今数字化时代,医疗行业在快速发展的同时,也面临着数据安全和信息流转效率的双重挑战。患者的健康记录、影像数据、检查报告等大量敏感信息需要在不同医院、诊所、实验室和保险公司之间高效、迅速地传递。然而,传统的邮件、传真和纸质文件…

软件工程3.0和软件工程2.0的区别

一、软件工程3.0和软件工程2.0的区别 软件工程3.0与软件工程2.0的主要区别体现在以下几个方面: 1. 技术基础和应用范围: - 软件工程2.0:在软件工程2.0阶段,软件工程逐渐从结构化编程转向面向对象编程,AI for SE(人工智能在软件工程中的应用)的应用范围和技术水平得到了…

从 HTTP 到 HTTPS 再到 HSTS:网站安全的演变与实践

近年来,随着域名劫持、信息泄漏等网络安全事件的频繁发生,网站安全变得越来越重要。这促使网络传输协议从 HTTP 发展到 HTTPS,再到 HSTS。本文将详细介绍这些协议的演变过程及其在实际应用中的重要性。 一、HTTP 协议 1.1 HTTP 简介 HTTP&…

Kubernetes架构及核心组件

一、基本架构 Kubernetes集群可以被看作是一个工厂,而各个组件则是这个工厂里的不同部门: Kubernetes API服务器:就像是这个工厂的总经理,负责接收所有的请求并将它们分配给相应的部门进行处理。 etcd:就像是这个工厂的记事本,负责记录所有的配置信息和状态信息,以便其…