Pytorch 各个GPU版本CUDA和cuDNN对应版本
https://blog.csdn.net/weixin_45508265/article/details/122006134
https://pytorch.org/get-started/previous-versions/

https://blog.csdn.net/weixin_45508265/article/details/122006134
https://pytorch.org/get-started/previous-versions/

原文链接:https://blog.csdn.net/v_JULY_v/article/details/131205615
关于Stable Diffusion,可以先看下这篇图解Stable Diffusion的文章(此篇文章也是本文的参考之一)
其实当时就想写了,但当时因为写各种开源平替模型的原理、部署、微调去了,所以一直没来得及写,包括之前计划的100篇论文也因此耽搁
4.23,我所讲的ChatGPT原理课开课之后,终于有时间开写这篇多模态博客,然想写清楚stable diffusion和midjourney背后的技术细节,不得不先从扩散模型开始,于此便有了上一篇《图像生成发展起源:从VAE、扩散模型DDPM、DETR到ViT、Swin transformer》「且如果你此前不了解何谓扩散模型、何谓DDPM,务必先看该文,不然没法看懂本文」
援引上一篇文章的这段话“AI绘画随着去年stable diffusion和Midjourney的推出,使得文生图火爆异常,各种游戏的角色设计、网上店铺的商品/页面设计都用上了AI绘画这样的工具,更有不少朋友利用AI绘画取得了不少的创收,省时省力还能赚钱,真香”,此外,包括我司LLM项目团队开发的AIGC模特生成系统也用到了这方面的技术:基于SD二次开发“
沿着上文之后,本文将写清楚下面表格中带下划线的模型

原文链接:https://zhuanlan.zhihu.com/p/689385182
本文是关于论文《MM-LLMs: Recent Advances in MultiModal Large Language Models》的简要介绍。大型语言模型沿着多模态方向发展成为目前越来越受关注的研究领域,这篇论文从方法角度整理了2022年到2024年2月的经典多模态大语言模型,并从技术角度给出了一些前瞻思路。本文主要按照作者提供的框架和案例进行介绍。
有关本专栏的更多内容,请参考大语言模型文献调研专栏目录
题目:MM-LLMs: Recent Advances in MultiModal Large Language Models
论文:https://arxiv.org/pdf/2401.13601.pdf?trk=public_post_comment-text
项目主页:https://mm-llms.github.io/
论文引用:
@article{zhang2024mm,
title={Mm-llms: Recent advances in multimodal large language models},
author={Zhang, Duzhen and Yu, Yahan and Li, Chenxing and Dong, Jiahua and Su, Dan and Chu, Chenhui and Yu, Dong},
journal={arXiv preprint arXiv:2401.13601},
year={2024}
}
原文链接:https://zhuanlan.zhihu.com/p/691227850
如果你一直在关注大型语言模型的架构,你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对他进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数,它结合了SWISH和GLU两者的特点。

我们一个一个来介绍:
原文链接:https://zhuanlan.zhihu.com/p/689894486
工业界的推荐系统技术要点有很多,想从事推荐系统相关方向的同学都建议刷一刷。
回顾一下推荐系统的链路


首先我们要明确一点,为什么要进行数据压缩?
Cloudera 提出过数据压缩的基本准则:
是否压缩数据以及使用何种压缩格式对性能具有重要的影响。
需要平衡压缩和解压缩数据所需的能力、读写数据所需的磁盘 IO,以及在网络中发送数据所需的网络带宽。
此外,用到哪些压缩格式,为什么使用这些压缩格式而不是其他的压缩格式?
原文链接:https://tech.ipalfish.com/blog/2021/05/31/feature-stores-a-hierarchy-of-needs/
本文是「算法工程化实践调研」系列的第 1 篇,翻译 Eugene Yan 的技术博客 Feature Stores - A Hierarchy of Needs [1]。
出于开发伴鱼特征平台的需要,我最近阅读了很多关于特征平台的实践文章,但总有「一叶障目,不见泰山」之感——每个公司的算法工程化现状不尽相同,导致解决方案的侧重点不同,在架构上的区别也很大。正如我的前同事佘昶在他 2019 年的一篇文章中,到位地总结:我们缺乏一个系统性地思考特征平台的框架。[2]
幸运的是,Eugene 的博客正好提供了这样一个思考框架,并将这个思考框架用于分析当前的各个特征平台上。我在征得 Eugene 的同意后,全文翻译,以飨中文读者。以下是译文。
特征平台(feature store)最近很火。2020 年 12 月,AWS 发布了 SageMaker 特征平台。上个月,大数据平台 Splice Machine 也发布了一款特征平台。Datanami 引用 Tecton.ai 联合创始人的话,称 2021 年为特征平台之年。
根据我们的经验,管理特征是机器学习上线最大的瓶颈之一。—— Uber
特征和标签是机器学习模型的输入。在回归中,标签是因变量,特征是自变量。在表格中,标签是我们想要预测的列,特征是除 ID 外的其它列。
大家对于「特征平台是什么」有很多种理解。有人把它简单地定义为「一个集中存储特征的地方」。也有人称特征平台能帮你「实现特征的一次创建,多处使用」或「百倍地提高模型部署效率」。之所以回答五花八门,是因为每个人想要特征平台做的事情都不同。
我研究了大量业界实践,试图理解特征平台在不同场景下解决的问题。受心理学家马斯洛的启发,我发现特征平台的能力可以满足多个层次的需求。我称之为「特征平台的需求层次」,我将逐层介绍这些需求,并讨论业界的特征平台为满足该层次需求所做的实践。

首先简单地介绍一下腾讯微视的红包激励业务背景。与其他的产品和场景类似,在给定的预算之下,我们向腾讯微视的用户发放一些现金激励,希望通过现金激励最大化用户的次日留存和当天使用时长。现金激励的形式主要是以不定的时间间隔为用户发放不定数量和不定金额的现金红包。以上提到的 3 个“不定”最终由算法来确定。这三个“不定”也称红包激励策略的三要素。

本文将介绍10个开源的ChatGPT类替代模型,包括LLaMA、Alpaca、Vicuna、Dolly 2、GPT4All、BLOOMZ、ChatGLM、CodeGeeX、MOSS、ChatRWKV等。由于这些模型(参数甚至完整代码)是开源的,因此它们是免费提供的,您无需使用付费的OpenAI API即可访问它们。
使用开源大型语言模型有很多好处,下面列出了其中一些:
数据隐私:许多公司都希望控制数据,这对他们来说很重要,因为他们不希望任何第三方访问他们的数据;
自主定制:它允许开发人员使用自己的数据训练大型语言模型,如果他们想应用某些主题,可以对某些主题进行一些过滤;
经济实惠:开源 GPT 模型可让您训练复杂的大型语言模型,而无需担心昂贵的硬件。
AI平民化:它为进一步的研究开辟了空间,可用于解决现实世界的问题。