首先我们要明确一点，为什么要进行数据压缩？

Cloudera 提出过数据压缩的基本准则：

是否压缩数据以及使用何种压缩格式对性能具有重要的影响。
需要平衡压缩和解压缩数据所需的能力、读写数据所需的磁盘 IO，以及在网络中发送数据所需的网络带宽。

此外，用到哪些压缩格式，为什么使用这些压缩格式而不是其他的压缩格式？

原文链接：https://qiankunli.github.io/2022/05/05/spark_detail.html

内存划分及用途

内存划分

前言

原文链接：https://tech.ipalfish.com/blog/2021/05/31/feature-stores-a-hierarchy-of-needs/

本文是「算法工程化实践调研」系列的第 1 篇，翻译 Eugene Yan 的技术博客 Feature Stores - A Hierarchy of Needs [1]。

出于开发伴鱼特征平台的需要，我最近阅读了很多关于特征平台的实践文章，但总有「一叶障目，不见泰山」之感——每个公司的算法工程化现状不尽相同，导致解决方案的侧重点不同，在架构上的区别也很大。正如我的前同事佘昶在他 2019 年的一篇文章中，到位地总结：我们缺乏一个系统性地思考特征平台的框架。[2]

幸运的是，Eugene 的博客正好提供了这样一个思考框架，并将这个思考框架用于分析当前的各个特征平台上。我在征得 Eugene 的同意后，全文翻译，以飨中文读者。以下是译文。

特征平台（feature store）最近很火。2020 年 12 月，AWS 发布了 SageMaker 特征平台。上个月，大数据平台 Splice Machine 也发布了一款特征平台。Datanami 引用 Tecton.ai 联合创始人的话，称 2021 年为特征平台之年。

根据我们的经验，管理特征是机器学习上线最大的瓶颈之一。—— Uber

特征和标签是机器学习模型的输入。在回归中，标签是因变量，特征是自变量。在表格中，标签是我们想要预测的列，特征是除 ID 外的其它列。

大家对于「特征平台是什么」有很多种理解。有人把它简单地定义为「一个集中存储特征的地方」。也有人称特征平台能帮你「实现特征的一次创建，多处使用」或「百倍地提高模型部署效率」。之所以回答五花八门，是因为每个人想要特征平台做的事情都不同。

我研究了大量业界实践，试图理解特征平台在不同场景下解决的问题。受心理学家马斯洛的启发，我发现特征平台的能力可以满足多个层次的需求。我称之为「特征平台的需求层次」，我将逐层介绍这些需求，并讨论业界的特征平台为满足该层次需求所做的实践。

一、因果推断与激励算法

1、业务背景与业务建模

首先简单地介绍一下腾讯微视的红包激励业务背景。与其他的产品和场景类似，在给定的预算之下，我们向腾讯微视的用户发放一些现金激励，希望通过现金激励最大化用户的次日留存和当天使用时长。现金激励的形式主要是以不定的时间间隔为用户发放不定数量和不定金额的现金红包。以上提到的 3 个“不定”最终由算法来确定。这三个“不定”也称红包激励策略的三要素。

本文将介绍10个开源的ChatGPT类替代模型，包括LLaMA、Alpaca、Vicuna、Dolly 2、GPT4All、BLOOMZ、ChatGLM、CodeGeeX、MOSS、ChatRWKV等。由于这些模型（参数甚至完整代码）是开源的，因此它们是免费提供的，您无需使用付费的OpenAI API即可访问它们。

使用开源大型语言模型有很多好处，下面列出了其中一些：

数据隐私：许多公司都希望控制数据，这对他们来说很重要，因为他们不希望任何第三方访问他们的数据；
自主定制：它允许开发人员使用自己的数据训练大型语言模型，如果他们想应用某些主题，可以对某些主题进行一些过滤；
经济实惠：开源 GPT 模型可让您训练复杂的大型语言模型，而无需担心昂贵的硬件。
AI平民化：它为进一步的研究开辟了空间，可用于解决现实世界的问题。

一、简介

Maven 翻译为"专家"、"内行"，是 Apache 下的一个纯 Java 开发的开源项目。基于项目对象模型（缩写：POM）概念，Maven利用一个中央信息片断能管理一个项目的构建、报告和文档等步骤。

Maven 是一个项目管理工具，可以对 Java 项目进行构建、依赖管理。

Maven 也可被用于构建和管理各种项目，例如 C#，Ruby，Scala 和其他语言编写的项目。Maven 曾是 Jakarta 项目的子项目，现为由 Apache 软件基金会主持的独立 Apache 项目。

基本介绍可见菜鸟教程Maven 教程 | 菜鸟教程

原文链接：阿里云开发者社区：Apache Flink 漫谈系列(04) - State

实际问题

在流计算场景中，数据会源源不断的流入Apache Flink系统，每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算，那么每次触发计算是将历史上所有流入的数据重新新计算一次，还是每次计算都是在上一次计算结果之上进行增量计算呢？答案是肯定的，Apache Flink是基于上一次的计算结果进行增量计算的。那么问题来了: “上一次的计算结果保存在哪里，保存在内存可以吗？”，

答案是否定的，如果保存在内存，在由于网络，硬件等原因造成某个计算节点失败的情况下，上一次计算结果会丢失，在节点恢复的时候，就需要将历史上所有数据（可能十几天，上百天的数据）重新计算一次，所以为了避免这种灾难性的问题发生，Apache Flink 会利用State存储计算结果。本篇将会为大家介绍Apache Flink State的相关内容。

在AB测试中，我们一般会关注某个变化带来的短期影响。比如：

新功能会给我们带来更高转换率吗？
改变设计是否会让更多的用户参与到特定功能？

如果答案是肯定的，就开始把改动全面推向所有用户。

但是，短期目标可能会与企业更关键的长期目标发生冲突。比如，一家超市突然提高价格，可能会在短期带来更高利润。但长远看，如果更多的顾客改从竞争对手那里购买商品，那么这家店的收入就会减少。

(图源：Unsplash)

以下是上月底我在DataFunTalk上的分享材料：

详细文字版见公众号文章：

QQ音乐内容理解与精细化运营

1.简单介绍spark word2vec

2.skip-gram 层次softmax版本的源码解析

3.word2vec 的原理只需要看层次哈弗曼树skip-gram那部分

4.skip-gram negetive sample 的版本源码解析

HDFS常用文件类型及压缩算法对比

Spark内存管理及调优

内存划分及用途

内存划分

特征平台需求层次理论

前言

【DataFun】因果推断在微视激励和供需场景的应用

一、因果推断与激励算法

1、业务背景与业务建模

10个开源的ChatGPT类模型简介及部分代码实践

Maven中settings配置文件详解

Apache Flink漫谈系列：State状态管理

实际问题

Google长期AB测试：避免短期收益陷阱

【DataFunTalk】QQ音乐内容理解与精细化运营——推荐系统的精细化调控

Spark Word2Vec源码详细解析