奧巴马 发表于 2025-1-31 20:36:37

很多人连大模型是什么都不知道. 简单科普和探讨一下.

最近关于 DeepSeek 的消息满天飞,真真假假,难以辨别。

其中,有很多人以将模型上架到 Azure、Oracle、AWS 为荣,实际上,这并不值得过分炫耀。

你可以把训练好的模型想象成一个编译好的安卓 APK 安装包。这个模型可以上传到应用市场,也可以自行安装。你可以选择免费提供,也可以收费使用。

大平台,比如 Azure、百度、阿里云,都支持上传模型。其实,就像安卓手机支持安装 APK 一样,这些平台只是提供了一个运行环境。只要支持像 Ollama 这样的框架,它们自然也就支持部署模型了。

至于算法,就像是使用 Android Studio 开发 APK 文件。如果一个公司花了 100 人、3 个月开发了一款 App,另一个公司可能只需要 10 个人就能完成。只是团队规模的差异,但底层原理还是相同的,都是 Transformer 架构。就像 APK 只能安装在 Android 手机上一样,模型也有它适用的框架和环境。

而蒸馏(Distillation)则像是对 APK 进行了反编译,优化了代码,提升了速度和精度。通过这种方式,模型变得更加高效,执行得更快,效果也更好。


不知道这样说对不对,个人理解. 不对之处. 欢迎指正.

gspl 发表于 2025-1-31 20:45:42


static/image/smiley/default/lol.gif

opentt 发表于 2025-1-31 20:46:32

现在Sequence models不单是Transformer 架构,RNN, LSTM, GRU也是一大堆,

不少还有混用的趋势,根本区分不了了

redneck 发表于 2025-1-31 20:49:58

蒸馏
更像是
压缩一个大型游戏
比如原版 GTA5 需要 90GB
而优化后的移动版只有 3GB
但游戏体验仍然不错。
或者更像
把 Photoshop 精简成 Snapseed
虽然功能减少了
但核心体验仍然保持

奧巴马 发表于 2025-1-31 20:51:40


redneck 发表于 2025-1-31 20:49

蒸馏
更像是
压缩一个大型游戏
这个比喻不错.
页: [1]
查看完整版本: 很多人连大模型是什么都不知道. 简单科普和探讨一下.