一、背景

大数据挑战

大数据时代，饿了么面临数据管理、数据使用、数据问题等多重挑战。具体可以参考下图：

原书pdf：https://github.com/singgel/BIGDATA_LINE/tree/master

原文链接：https://zhuanlan.zhihu.com/p/32140719，多篇笔记合并到一篇，有删改。

他们将其称作 TrufflePig，它是专门的播放列表生成工具。输入诸如“伴舞适合程度”、年代范围或者情感的参数，Truffle Pig 就会呈现与你的“Lovesick 90s Party Starters”歌单相符的推荐歌曲。

Truffle Pig 只是 Spotify1 亿美元收购回来的 The Echo Nest 秘密工作室的新音乐发明之一。该团队在 Spotify 纽约总部给我接受了并入 The Echo Nest 的 Spotify 打算如何做推荐服务，如何利用正版音乐整合其它的应用，如何通过融合人工 DJ 与算法来呈现最好的歌曲。

一. IntelliJ IDEA安装及配置

1.1 IntelliJ IDEA下载及安装

　　首先在 CHOOSE YOUR EDITION 这里选择Community版本，这个版本是免费提供的，对我们的Spark使用来说，用这个版本已经足够了。如下图所示：

　　直接点击黑色的 DOWNLOAD 按钮会默认开始下载Windows版本的IntelliJ IDEA，如果需要其他平台的版本，可以点击旁边的 .EXE ，然后在打开的下拉菜单中，选择相应平台即可。

由于Spark是用Scala来写的，所以Spark对Scala肯定是原生态支持的，因此这里以Scala为主来介绍Spark环境的搭建，主要包括四个步骤，分别是：JDK的安装，Scala的安装，Spark的安装，Hadoop的下载和配置。为了突出”From Scratch”的特点（都是标题没选好的缘故），所以下面的步骤稍显有些啰嗦，老司机大可不必阅读，直接跳过就好。

近几年AI大火，深度学习作为AI领域最火的研究子方向，从最早的RBM、Auto-encoder、最原始的CNN、RNN到LeNet、AlexNet、VGG、GoogLeNet、ResNet等多样化的深度网络，深度学习的算法和模型层出不穷，发展迅猛，但所有这些模型的低层原理和子单元却是大同小异殊途同归的。Simon Haykins 这本书详细解读了神经网模型的底层原理、中层的方法论和思想总结、上层复杂模型的构建和应用，虽然这本书出版比较早，但其中的基础原理和方法论一点也不过时，对于理解神经网络和深度学习模型很有帮助，非常值得仔细研读。

以下是精读过程中，做的一些简要的记录，对该书感兴趣而又没有时间细读全书的同学，可以根据以下内容，选择性的挑选相关章节阅读 :) （个人认为前三部分内容是比较普适性的方法论，讲得比较精彩，推荐精读）

一、每日优鲜徐正

15岁上大学，其实保送原因很简单，就是因为数学拿了全国奥林匹克竞赛一等奖
科大少年班数学+工商管理双学位
01年911，出国三次拒签，初恋在国外，比较失落，就算出国也会回来，大机会在国内
数学是一个研究模型和方法论的学科

一个CEO的三要素

一个叫硬件，硬件就像 CPU、内存一样，比如说人的智商、情商、体力、精力等
第二叫思维模型，就是操作系统：对一个事务抽离出来，抽象化思考的低层能力，数学是把任何一个事务抽象化的能力，能够想背后的问题
第三是那些软件，它上面装的各种应用，今天怎么融资，明天怎么带队伍等

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。

特征选择主要有两个功能：

减少特征数量、降维，使模型泛化能力更强，减少过拟合
增强对特征和特征值之间的理解

拿到数据集，一个特征选择方法，往往很难同时完成这两个目的。通常情况下，我们经常不管三七二十一，选择一种自己最熟悉或者最方便的特征选择方法（往往目的是降维，而忽略了对特征和数据理解的目的）。

在许多机器学习相关的书里，很难找到关于特征选择的内容，因为特征选择要解决的问题往往被视为机器学习的一种副作用，一般不会单独拿出来讨论。

本文将结合Scikit-learn提供的例子介绍几种常用的特征选择方法，它们各自的优缺点和问题。

腾讯没有梦想

原创 2018-05-05 潘乱乱翻书

腾讯总办，左起：汤道生(SNG)/James（首席战略官）/任宇昕（COO兼IEG MIG OMG）/马化腾（CEO）/刘炽平（总裁）/张小龙（WXG）

腾讯正在丧失产品能力和创业精神，变成一家投资公司。

这家快20岁的公司正在变得功利和短视，他的强项不再是产品业务，而是投资财技。

回归模型评估常用的有四种方法，分别是：平均绝对值误差、均方误差、均方根误差和R平方值，如下表所示：

指标	描述	metrics方法
Mean Absolute Error(MAE)	平均绝对误差	from sklearn.metrics import mean_absolute_error
Mean Square Error(MSE)	均方误差	from sklearn.metrics import mean_squared_error
Root Mean Square Error(RMSE)	均方根误差	from sklearn.metrics import root_mean_squared_error
R-Squared	R平方值	from sklearn.metrics import r2_score

更多评估指标参见 sklearn 官方文档：sklearn.metrics 文档.

饿了么元数据管理实践之路

一、背景

大数据挑战

阿里巴巴大数据之路笔记

探秘Spotify的Echo Nest

利用IntelliJ IDEA与Maven开始Scala之旅

一. IntelliJ IDEA安装及配置

1.1 IntelliJ IDEA下载及安装

Spark在Windows下的环境搭建

《Neural Networks: A Comprehensive Foundation》读书笔记

《腾讯大学-CEO来了》笔记

一、每日优鲜徐正

一个CEO的三要素

【Python机器学习】结合sklearn介绍常用特征选择方法

【潘乱】腾讯没有梦想

腾讯没有梦想

【Python机器学习】回归模型评估方法总结

一、背景

大数据挑战

一. IntelliJ IDEA安装及配置

1.1 IntelliJ IDEA下载及安装

一、每日优鲜 徐正

一个CEO的三要素

腾讯没有梦想

一、每日优鲜徐正