这是很早前(2012年底)小龙在腾讯内部的8h分享,15年下半年有个一起封陪的小伙伴离职创业了,离职前在朋友圈提到了了这个分享,才知道有这个仅内部的闭门分享,于是也完整的听了一遍,做了一些关键信息的笔记。在很长一段时间里,这个分享都没有对外公开的资料,最近看到一个相对完整的资料是15年9月的这个:164页PPT

以下是我个人观看的笔记:

微信背后的产品观——张小龙,2012年8月,准备了半年,平时的想法记录。

微信回顾

✔433天,1亿用户。10年11月19日立项,11年1月发布1.0,5月2.0,10月3.0,12年4月4.0
✔成为移动互联网新入口

Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。

在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比较深入的理解。对这一过程的理解不仅帮助我们解决了一些Hive的bug,也有利于我们优化Hive SQL,提升我们对Hive的掌控力,同时有能力去定制一些需要的功能。

本文翻译自英文文章,原文作者 ReddyNHema,以下是译文。

我在IT行业工作超过14年,但技术为满足业务需求而快速演进的步伐仍然令我惊叹不已。技术计算的发展历程从最早占据整个房间的计算机,到大型机,再到个人电脑,然后是Web和SaaS应用,接着是移动设备,如今又到了云计算和物联网时代。

正是这段漫长的发展历程,使得大数据成为了世界上最新的自然资源。大数据的价值不言自明,而企业对能够释放这些价值的强大分析能力的需求日益迫切。企业领导者不再质疑数据中是否蕴含价值,他们只想知道如何提取这些价值,以更好地了解客户并满足关键业务需求。

这种需求催生了一代数据丰富、分析驱动的企业,它们热切地关注着大数据和分析领域的趋势。下面让我们深入了解IBM如何帮助客户找到创新的大数据解决方案。

1. 数据化驱动的创新


数据是竞争优势的新基础。利用数据和高级分析的企业能够将洞察转化为创新,创建高效的新业务流程,为战略决策提供信息支撑,并在多个方面超越同行。

一、背景介绍

最近1~2年电商行业飞速发展,各种创业公司犹如雨后春笋大量涌现,商家通过各种活动形式的补贴来获取用户、培养用户的消费习惯。

但任何一件事情都具有两面性,高额的补贴、优惠同时了也催生了"羊毛党"。

"羊毛党"的行为距离欺诈只有一步之遥,他们的存在严重破环了活动的目的,侵占了活动的资源,使得正常的用户享受不到活动的直接好处。

今天主要分享下腾讯自己是如何通过大数据、用户画像、建模来防止被刷、恶意撞库的。


在线音乐服务已经成为了大势所趋。但是如何在这个领域胜出呢?答案只有一个: 针对每一个用户量身打造最适合他音乐品味的歌单 。Spotify 就在这方面给我们做了很好的示范。它不是人们所想象的那样单纯凭借智能算法来做到这一切,真正有效的方式是人工筛选与计算机算法有机结合起来!

Spotify 上有一个播放歌单「Discover Weekly」。这个列表每周一就会收录各式各样的歌曲,做全面的更新.有一些歌也许耳熟能详,有一些也许从来没听过,但是它们无一例外的全部击中每一个用户的内心。人们纷纷表示这个歌单里面每一首都要值得收藏! Spotify 似乎有着一种洞悉每一个人内心喜好的魔力,对每一个人的音乐品味都了如指掌!

TA(Tencent Analytics,腾讯分析)是一款面向第三方站长的免费网站分析系统,在数据稳定性、及时性方面广受站长好评,其秒级的实时数据更新频率也获得业界的认可。本文将从实时数据处理、数据存储等多个方面带你深入探寻TA的系统架构及实现原理。

网站分析(Web Analytics)主要指的是基于网站的用户浏览行为,对网站的点击流数据和运营数据进行分析,以监控网站的运营状况,为网站的优化提供决策依据。网站分析系统已成为站长日常运营必不可少的工具,业界比较流行的网站分析系统主要有Google Analytics、CNZZ和百度统计等产品。

TA作为网站分析产品的后起之秀在社区分析、用户画像、网站工具等多方面形成了自己的特色,其秒级的实时数据更新频率更是业界翘楚。在数据稳定性、准确性和及时性方面,TA在站长圈也是享有良好的口碑。随着接入业务量的不断发展,TA日均需要处理和计算的数据量达到TB级。如此庞大的数据量想要达到秒级实时且保证系统的高可用并非件易事。

TA的实时计算框架借鉴了一些业界流行的流式计算系统的思路。虽然在构建系统中遇到了一些问题,但由于海量数据的实时处理、实时存储具备一定的典型性与通用性,所以将TA的解决方案分享出来,希望能给大家一些启示。

Google C++ Style Guide是业界最为著名的C++编程规范之一。本文对其核心要点进行梳理总结,涵盖头文件管理、命名规范、类设计、内存管理等方面。

1. 头文件(Header Files)

通常每个 .cc 文件应该有一个配套的 .h 文件. 常见的例外情况包括单元测试和仅有 main() 函数的 .cc 文件.
正确使用头文件会大大改善代码的可读性和执行文件的大小、性能.

  • 每个.cc文件都应有一个对应的.h文件
  • 使用#define保护头文件防止多重包含,格式:PROJECT_PATH_FILE_H_
  • 尽量使用前置声明(Forward Declarations)减少 #include 的数量
  • 内联函数不超过10行

这一阵子一直都在忙着写论文,改论文,改论文,再改论文,还是该论文,上周末终于抽出一点时间去离杭州不远的徽杭古道玩了两天,这周又忙于专利、预审、写开题报告、考驾照等等等,所以拖到现在才写这个游记(其实主要是帖照片了),我也是醉了。

下面是徽杭古道安徽绩溪入口处,大约12点左右就到这儿了。注意要在这个地方买票哦(全价¥68),检票口在后面。。。

匆匆又一年。

这段时间一直都在忙着写毕业论文,快一个月没有更新博客了,昨天是2014最后一天,也是学校举行的第一个学生节,在去紫荆港吃免费晚餐前将论文的模板提交到了github,这也是2014年最后一次commit了。在校园的最后一个跨年和元旦,就这样一个人在风雨操场看现场晚会度过了。今天是新年的第一天,又是一个人宅在实验室边听着二次元plus萌系的SNH48的『化作樱花树』边写着这篇本该昨天写的年终总结。