
分享两篇关于数据科学与机器学习趋势的文章,供大家参考。总结下来,最最重要的两大趋势:
实际应用中,小模型(Qwen-8B etc)将越来越受到关注
Agent和AutoML将越来越受到关注

Are you thinking about switching to Data Science in 2026?
If the answer is “yes,” this article is for you.
原文链接:https://developer.aliyun.com/article/1655110
阿里妹导读
本文档旨在详细阐述当前主流的大模型技术架构如Transformer架构。我们将从技术概述、架构介绍到具体模型实现等多个角度进行讲解。通过本文档,我们期望为读者提供一个全面的理解,帮助大家掌握大模型的工作原理,增强与客户沟通的技术基础。本文档适合对大模型感兴趣的人员阅读。
原文链接:https://zhuanlan.zhihu.com/p/701181424
大家好,我是凉夏同学。今天是我第一次在知乎分享我对算法模型的理解,有些生疏,还请大家多多指教。感兴趣的话,敬请关注公众号:凉夏的机器学习笔记。感恩~
今天要讲的是最近比较火的一种网络结构,可以近乎“无脑地”加入到网络结构当中,基本上都可以带来或多或少的效果提升。这个网络结构有人叫他门控网络、门控结构,也有人叫他的英文名“gating”,也有人叫他动态权重。
这篇文章,我会先讲一下我对门控机制的理解,然后会简单介绍几个使用门控机制的论文。
一直都觉得深度学习模型架构里,很多东西都是相同的,虽然很多时候他们有不同的名称、亦或是用在了不同的模型位置,但底层的思想和逻辑很可能是一致的。而我认为,门控网络结构的本质就是注意力机制。说到注意力机制,大家应该都不陌生,该结构出现在以DNN模型为基础的各种应用结构中,例如:transformer里面使用了multi-head attention(MHA)这种多头自注意力机制;用户行为序列建模DIN结构使用了target attention结构。
原文链接:https://zhuanlan.zhihu.com/p/7387477310
大家好,我是蘑菇先生。好久不见,今天盘点下2024年工业界大模型在搜广推上的实战落地型工作。业界工作大体分为两类:
用大模型做数据和知识增强、提取表征、通过prompt将推荐转成对话驱动的任务等,本质上没有修改LLM,属于信息增强和补充方法,无法直接建模海量协同信号。
修改LLM直接建模搜广推海量数据中的协同信号,对输入输出范式改造,通过预训练/微调等过程建模海量数据,让模型同时拥有通用的世界知识和垂直领域海量协同信息。是能实现搜广推大模型scaling的前提,需要更复杂的工程架构支持。
第一类工作层出不穷,大部分在工业界无法惊起水花,属于学术性的探索居多。第二类工作寥寥无几,需要资源算力和业务场景等支撑,但也是搜广推值得探索的前沿方向之一。本文重点分享第二类工作。本次分享4篇文章:GRs(Meta)、HLLMs(字节)、NoteLLM(小红书)、NoteLLM-2(小红书)等工作,基本都在各自场景验证了收益,最近又重读了下,常读常新,做一些梳理分享给大家。涵盖目前推荐系统两类主流范式:
表征学习:NoteLLM\NoteLLM-2提供了一种使用LLMs训练item表征的范式,通过海量数据中的“共现”协同信号,应用对比学习目标来微调LLMs并提取多模态的item表征。学习的item表征可以用于I2I召回、排序特征提取器等。
模型预估:GRs和HLLMs通过改造输入数据为行为序列,在自回归设定下,可以建模海量用户行为,从而达到推荐的目的。二者既可以作为召回模型、也可以用作排序模型,用于CXR预估。但二者在输入、架构、目标方面存在较大差异,下文会介绍。
原文链接:https://www.infoq.cn/article/ko9yxouspj4kuoh9jut4
首先介绍一下 Hulu 以及 Hulu 的广告产品形态。
Hulu 是一家美国的提供专业视频点播与直播的服务平台,成立于 2006 年,目前由迪士尼控股,拥有近 3000 万付费订阅用户,是全美用户数量增长最快的流媒体平台。
① 产品形态:点播,直播,回看等;
② 广告形态:以视频流中的 15 秒、30 秒的视频广告短片为主;
③ 广告特点:
以品牌类广告为主,品牌类广告看重长期效果,品牌的曝光度,用户认知等等;
采用 CPM ( Cost Per Mille,千次展示 ) 方式计费,即无论用户是否点击,按照展示次数计价;
以担保式广告订单为主,广告主希望其品牌曝光有一定量的保障,例如,某品牌希望在指定地区给指定用户群投放指定的次数;
质量要求非常高,包括清晰度、创意、制作的精良程度等等。

从 TensorRT 7 . 0 开始, Universal Framework Format( UFF )被弃用。在本文中,您将学习如何使用新的 TensorFlow -ONNX- TensorRT 工作流部署经过 TensorFlow 培训的深度学习模型。图 1 显示了 TensorRT 的高级工作流。

图 1 。 TensorRT 是一种推理加速器。
