一、Spark 1.X
spark 2.X开始,三者的关系发生了变化,可以参考《且谈Apache Spark的API三剑客:RDD、DataFrame和Dataset》 ,在2.X中DataFrame=DataSet[Row],其实是不知道类型。下面介绍是1.X,以免误导大家。
RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。
RDD和DataFrame

spark 2.X开始,三者的关系发生了变化,可以参考《且谈Apache Spark的API三剑客:RDD、DataFrame和Dataset》 ,在2.X中DataFrame=DataSet[Row],其实是不知道类型。下面介绍是1.X,以免误导大家。
RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。


Flink系列视频教程:https://github.com/flink-china/flink-training-course
基础篇 https://ververica.cn/developers/flink-training-course-basics/
进阶篇 https://ververica.cn/developers/flink-training-course-advanced/
运维篇 https://ververica.cn/developers/flink-training-course-operation/

对于数据分析,产品、运营需要懂多少才算懂?
数据分析能力对于产品和运营人员都是重要的,有多重要?我们直接上数据。

Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay Inc. 开发并贡献至开源社区,它能在亚秒内查询巨大的 Hive 表。
原文链接: https://juejin.cn/post/6844903585742848013
github项目: https://github.com/scarlettgin/cyclical_series_predict
公司平台上有不同的api,供内部或外部调用,这些api承担着不同的功能,如查询账号、发版、抢红包等等。日志会记录下每分钟某api被访问了多少次,即一个api每天会有1440条记录(1440分钟),将每天的数据连起来观察,有点类似于股票走势的意思。我想通过前N天的历史数据预测出第N+1天的流量访问情况,预测值即作为合理参考,供新一天与真实值做实时对比。当真实流量跟预测值有较大出入,则认为有异常访问,触发报警。
我放了一份样例数据在data文件夹下,看一下数据大小和结构
data = pd.read_csv(filename)
print('size: ',data.shape)
print(data.head())

作者: 康凯森
8月11日,由 Kyligence 主办、美团点评协办的 Apache Kylin Meetup@北京,在美团公司总部圆满落幕。本文整理自当天美团大数据工程师、Apache Kylin Committer康凯森的演讲实录,全文共6600字,阅读时间大约15分钟。或点击视频,观看Meetup现场实录。
本次分享的内容主要分为3部分,首先我会介绍下Kylin On HBase的问题,也就是我们为什么要为Kylin实现一个新的存储引擎,其次我会介绍下我们Kylin新存储引擎探索的过程,这部分会解释我们为什么选择了Druid作为Kylin的存储引擎,最后我会介绍下Kylin On Druid的整体架构,核心原理和Kylin On Druid的成果。 下面的分享中Kylin On Druid有时会简称为KOD。

关于在VCS中SVN和Git之间的迁移(Clone)这个部分网上已经有大批的文章介绍,而且都非常不错,能够满足我们的常见的需求,这里介绍的是我自己整理的一些技巧和使用中出现的一些问题和疑问。
阅读本篇文章,请先有一些Git和SVN的使用经验(又是经验,经验到底是什么?我都不知道)。
今天的实验对象是,把 http://code.google.com/p/jdbcdslog-exp/ 这个使用SVN管理的project迁移到 Git上面,Git托管网站选择github。SVN迁移到Git,当然要清楚git svn 命令了。
首先请在github上面创建一个repository,这个简单,就不说了,然后就是使用强大的git了。
$ git svn init https://jdbcdslog-exp.googlecode.com/svn/ -s
$ git svn fetch
SHOW PROCESSLIST显示哪些线程正在运行。您也可以使用mysqladmin processlist语句得到此信息。如果您有SUPER权限,您可以看到所有线程。否则,您只能看到您自己的线程(也就是,与您正在使用的MySQL账户相关的线程)。如果有线程在update或者insert 某个表,此时进程的status为updating 或者 sending data。
如果您得到“too many connections”错误信息,并且想要了解正在发生的情况,本语句是非常有用的。MySQL保留一个额外的连接,让拥有SUPER权限的账户使用,以确保管理员能够随时连接和检查系统(假设您没有把此权限给予所有的用户)。
Elasticsearch(简称ES)是一个基于Apache Lucene(TM)的开源搜索引擎,无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。
Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎,无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。
但是,Lucene只是一个库。想要发挥其强大的作用,你需使用Java并要将其集成到你的应用中。Lucene非常复杂,你需要深入的了解检索相关知识来理解它是如何工作的。
Elasticsearch也是使用Java编写并使用Lucene来建立索引并实现搜索功能,但是它的目的是通过简单连贯的RESTful API让全文搜索变得简单并隐藏Lucene的复杂性。
曾宇先生,腾讯公司副总裁。 2002年加入腾讯,曾负责腾讯研发线管理,后续担任互动娱乐事业群研发部总经理,负责游戏、互娱相关的技术研发及管理工作,2012年升任公司VP,16年起主要负责移动互联网事业群技术管理工作,继续参与公司级技术管理工作。

腾讯的职业发展通道大概有6级,1级是初入者,2级是有经验者,3级是骨干,4级是专家,5级和6级是权威和资深权威。我认为1、2级主要是学习、执行、改进的循环,在这个过程中你的经验不断增长;3级可以对交付负责,交付过程中持续思考和总结,跳出自己做的事情,宏观看待它们在整个战略中的位置,就可以走到4级。以前Tony(编者注:腾讯主要创始人张志东,曾任职公司CTO)对4级的要求就是什么事找这个人,他都能解决,自己解决不了就会主动去找其他资源来解决。我对技术通道4级的定义就是能在组织里起技术掌控的作用。