一、背景
大数据挑战
大数据时代,饿了么面临数据管理、数据使用、数据问题等多重挑战。具体可以参考下图:

大数据时代,饿了么面临数据管理、数据使用、数据问题等多重挑战。具体可以参考下图:


原书pdf:https://github.com/singgel/BIGDATA_LINE/tree/master
原文链接:https://zhuanlan.zhihu.com/p/32140719,多篇笔记合并到一篇,有删改。

他们将其称作 TrufflePig,它是专门的播放列表生成工具。输入诸如“伴舞适合程度”、年代范围或者情感的参数,Truffle Pig 就会呈现与你的“Lovesick 90s Party Starters”歌单相符的推荐歌曲。
Truffle Pig 只是 Spotify1 亿美元收购回来的 The Echo Nest 秘密工作室的新音乐发明之一。该团队在 Spotify 纽约总部给我接受了并入 The Echo Nest 的 Spotify 打算如何做推荐服务,如何利用正版音乐整合其它的应用,如何通过融合人工 DJ 与算法来呈现最好的歌曲。
首先在 CHOOSE YOUR EDITION 这里选择Community版本,这个版本是免费提供的,对我们的Spark使用来说,用这个版本已经足够了。如下图所示:

直接点击黑色的 DOWNLOAD 按钮会默认开始下载Windows版本的IntelliJ IDEA,如果需要其他平台的版本,可以点击旁边的 .EXE ,然后在打开的下拉菜单中,选择相应平台即可。
由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoop的下载和配置。为了突出”From Scratch”的特点(都是标题没选好的缘故),所以下面的步骤稍显有些啰嗦,老司机大可不必阅读,直接跳过就好。

近几年AI大火,深度学习作为AI领域最火的研究子方向,从最早的RBM、Auto-encoder、最原始的CNN、RNN到LeNet、AlexNet、VGG、GoogLeNet、ResNet等多样化的深度网络,深度学习的算法和模型层出不穷,发展迅猛,但所有这些模型的低层原理和子单元却是大同小异殊途同归的。Simon Haykins 这本书详细解读了神经网模型的底层原理、中层的方法论和思想总结、上层复杂模型的构建和应用,虽然这本书出版比较早,但其中的基础原理和方法论一点也不过时,对于理解神经网络和深度学习模型很有帮助,非常值得仔细研读。
以下是精读过程中,做的一些简要的记录,对该书感兴趣而又没有时间细读全书的同学,可以根据以下内容,选择性的挑选相关章节阅读 :) (个人认为前三部分内容是比较普适性的方法论,讲得比较精彩,推荐精读)

15岁上大学,其实保送原因很简单,就是因为数学拿了全国奥林匹克竞赛一等奖
科大少年班 数学+工商管理双学位
01年911,出国三次拒签,初恋在国外,比较失落,就算出国也会回来,大机会在国内
数学是一个研究模型和方法论的学科
一个叫硬件,硬件就像 CPU、内存一样,比如说人的智商、情商、体力、精力等
第二叫思维模型,就是操作系统:对一个事务抽离出来,抽象化思考的低层能力,数学是把任何一个事务抽象化的能力,能够想背后的问题
第三是那些软件,它上面装的各种应用,今天怎么融资,明天怎么带队伍等
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。
特征选择主要有两个功能:
减少特征数量、降维,使模型泛化能力更强,减少过拟合
增强对特征和特征值之间的理解
拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自己最熟悉或者最方便的特征选择方法(往往目的是降维,而忽略了对特征和数据理解的目的)。
在许多机器学习相关的书里,很难找到关于特征选择的内容,因为特征选择要解决的问题往往被视为机器学习的一种副作用,一般不会单独拿出来讨论。
本文将结合Scikit-learn提供的例子介绍几种常用的特征选择方法,它们各自的优缺点和问题。
原创 2018-05-05 潘乱 乱翻书

腾讯总办,左起:汤道生(SNG)/James(首席战略官)/任宇昕(COO兼IEG MIG OMG)/马化腾(CEO)/刘炽平(总裁)/张小龙(WXG)
腾讯正在丧失产品能力和创业精神,变成一家投资公司。
这家快20岁的公司正在变得功利和短视,他的强项不再是产品业务,而是投资财技 。
回归模型评估常用的有四种方法,分别是:平均绝对值误差、均方误差、均方根误差和R平方值,如下表所示:
| 指标 | 描述 | metrics方法 |
|---|---|---|
| Mean Absolute Error(MAE) | 平均绝对误差 | from sklearn.metrics import mean_absolute_error |
| Mean Square Error(MSE) | 均方误差 | from sklearn.metrics import mean_squared_error |
| Root Mean Square Error(RMSE) | 均方根误差 | from sklearn.metrics import root_mean_squared_error |
| R-Squared | R平方值 | from sklearn.metrics import r2_score |
更多评估指标参见 sklearn 官方文档:sklearn.metrics 文档.