硅谷观察之大数据篇【下】：硅谷巨头们的大数据玩法-mysql教程-PHP中文网

首页

数据库

mysql教程

硅谷观察之大数据篇【下】：硅谷巨头们的大数据玩法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:12 PM

巨头数据玩法硅谷观察

硅谷观察之大数据篇的【上】篇中，我把硅谷地区大数据生长状况基本梳理了一个相对完整的形状出来。有朋友看了【下】的预告后在微博上给我留言说，听说下篇要介绍一些公司的大数据部门情况，问能不能点名加个Google尤其是Google Maps，因为特别想知道这个世界

硅谷观察之大数据篇的【上】篇中，我把硅谷地区大数据生长状况基本梳理了一个相对完整的形状出来。有朋友看了【下】的预告后在微博上给我留言说，听说下篇要介绍一些公司的大数据部门情况，问能不能点名加个Google尤其是Google Maps，因为特别想知道这个世界上最大的搜索引擎以及每天必不可少的出行神器是怎么当一个挖掘机的。
于是，上周我又去了Google采访。本篇将一共呈现硅谷四大不同类型的公司如何玩转大数据，其中包括了著名FLAG中的三家（Apple在大数据这块来说表现并不突出）。
本篇内容来自对Evernote AI负责人Zeesha Currimbhoy、LinkedIn大数据部门资深总监Simon Zhang、前Facebook基础架构工程师Ashish Thusoo和Google大数据部门一线工程师及Google Maps相关负责人的专访。Enjoy~~
Evernote：今年新建AI部门剑指深度学习
Evernote的全球大会上，CEO Phil Libin提到，Evernote的一个重要方向就是“让Evernote变成一个强大的大脑”。要实现这个目标，就不得不提他们刚刚整合改组的Augmented Intelligence团队（以下简称AI team）。我在斯坦福约到AI team的manager Zeesha Currimbhoy，在此分析一下从她那里得到的一手资料。
是什么

今年早些时候，这个2岁的数据处理团队改组为由Zeesha带领的Augmented Intelligence team，总共十人不到，很低调，平日几乎听不到声响。他们究竟在做什么？

与我们常说的AI（artificial Intelligence）不同，Evernote的团队名叫做Augmented Intelligence，通常情况下简称为IA。

Zeesha显然是这个团队里元老级的人物：“我是在2012年加入Evernote的，直接加入到了当时刚刚建立的数据处理团队，这也就是现在AI team的雏形。我们最开始的项目都是简单易行的小项目，比如按照你的个人打字方式来优化用户的输入体验。”

传统意义上的AI指的是通过大量数据和算法让机器学会分析并作出决定。而这里讲到IA则是让电脑进行一定量的运算，而终极目的是以之武装人脑，让人来更好的做决定。这两个概念在具体实施中自然有不少相通之处，但是其出发点却是完全不同的。

这个区别也是Evernote AI team的亮点所在。作为一个笔记记录工具，Evernote与Google之类的搜索引擎相比，最大的区别就是它非常的个人化。用户所储存的笔记、网站链接、照片、视频等都是他思维方式和关注点的体现。

从哪来

Zeesha小组的初衷便是，通过分析用户储存的笔记来学习其思维方式，然后以相同的模式从第三方数据库（也就是互联网上的各种开源信息）抽取信息推送给用户，从而达到帮助用户思考的过程。从这个意义上讲，Zeesha版的未来Evernote更像是一个大脑的超级外挂，为人脑提供各种强大的可理解的数据支持。

目前整个团队的切入点是很小而专注的。

“我们不仅仅是帮助用户做搜索，更重要的是在正确的时间给用户推送正确的信息。”

实现这个目标的第一步就是给用户自己的笔记分类，找到关联点。今年早些时候，Evernote已经在Mac的英文版上实行了一项叫做“Descriptive Search”的功能。用户可以直接描述想要搜索的条目，Evernote就会自动返回所有相关信息。

例如，用户可以直接搜索“2012后在布拉格的所有图片”，或者“所有素食菜单”。不管用户的笔记是怎样分类的，Decriptive Search都可以搜索到相关的信息并且避免返回过大范围的数据。而这还仅仅是AI team长期目标的开始，这个团队将在此基础上开发一系列智能化的产品。

到哪去

不用说，这样一个新创团队自然也面临这诸多方面的挑战。当下一个比较重要的技术难点就是Evernote用户的数据量。虽然Evernote的用户量已经达到了一亿，但是由于整个团队的关注点在个人化分析，外加隐私保护等诸多原因，AI team并没有做跨用户的数据分析。

这样做的结果就是团队需要分析一亿组各不相同的小数据组。比如，假设我只在Evernote上面存了10个笔记，那Evernote也应该能够通过这些少量的数据来分析出有效结果。当然，这些技术的直接结果是用户用Evernote越多，得到的个性化用户体验就越好。长期来讲，也是一个可以增加用户黏性的特点。

不过Zeesha也坦言：“的确，我们都知道没有大数据就没有所谓的智能分析。但是我们现在所做的正是在这样的前提下来找到新的合适的算法。”她并没有深入去讲目前团队所用的是什么思路，但是考虑到这个领域一时还没有很成功的先例，我们有理由期待在Zeesha带领下的Evernote AI team在近期做出一些有意思的成果。

Facebook：大数据主要用于外部广告精准投放和内部交流

Facebook有一个超过30人的团队花了近4年的时间才建立了Facebook的数据处理平台。如今，Facebook仍需要超过100名工程师来支持这个平台的日常运行。可想而知，光是大数据分析的基础设施就已经是一个耗时耗力的项目了。

Facebook的一大价值就在于其超过13.5亿活跃用户每天发布的数据。而其大数据部门经过七八年的摸索，才在2013年把部门的key foundation定位成广告的精准投放，开始建了一整套自己的数据处理系统和团队。并进行了一系列配套的收购活动，比如买下世界第二大广告平台Atlas。

据前Facebook Data Infrastructure Manager Ashish Thusoo介绍，Facebook的数据处理平台是一个self-service, self-managing的平台，管理着超过1 Exabyte的数据。公司内部的各个部门可以直接看到处理过的实时数据，并根据需求进一步分析。

目前公司超过30%的团队，包括工程师、Product Managers、Business Analysts等多个职位人群每个月都一定会使用这项服务。这个数据处理平台的建立让各个不同部门之间可以通过数据容易地交流，明显改变了公司的运行方式。

追溯历史，Facebook最早有大数据的雏形是在2005年，当时是小扎克亲自做的。方法很简单：用Memcache和MySQL进行数据存储和管理。

很快bug就显现了，用户量带来数据的急速增大，使用Memcache和MySQL对Facebook的快速开发生命周期（改变-修复-发布）带来了阻碍，系统同步不一致的情况经常发生。基于这个问题的解决方案是每秒100万读操作和几百万写操作的TAO(“The Associations and Objects”)分布式数据库，主要解决特定资源过量访问时服务器挂掉的bug。

小扎克在2013年第一季度战略时提到的最重点就是公司的大数据方向，还特别提出不对盈利做过多需求，而是要求基于大数据来做好以下三个功能：

发布新的广告产品。比如类似好友，管理特定好友和可以提升广告商精确投放的功能。
除与Datalogix, Epsilon,Acxiom和BlueKai合作外，以加强广告商定向投放广告的能力。
通过收购Atlas Advertising Suite，加强广告商判断数字媒体广告投资回报率（ROI）。

LinkedIn：大数据如何直接支持销售和变现赚钱

LinkedIn大数据部门的一个重要功用是分析挖掘网站上巨大的用户和雇主信息，并直接用来支持销售并变现。其最核心团队商业分析团队的总监Simon Zhang说，现在国内大家都在讨论云，讨论云计算，讨论大数据，讨论大数据平台，但很少有人讲：我如何用数据产生更多价值，通俗点讲，直接赚到钱。

但这个问题很重要，因为关系到直接收入。四年半前 LinkedIn内所有用户的简历里抽取出来大概有 300万公司信息，作为销售人员不可能给每个公司都打电话，所以问题来了：哪家公司应该打？打了后会是个有用的call？

销售们去问Simon，他说只有通过数据分析。而这个问题的答案在没有大数据部门之前这些决策都是拍脑袋想象的。

Simon和当时部门仅有的另外三个同事写出了一个模型后发现：真正买LinkedIn服务的人，在决定的那个环节上，其实是一线的产品经理，和用LinkedIn在上面猎聘的那些人。但他们做决策后是上面的老板签字，这是一个迷惑项。数据分析结果出来后，他们销售人员改变投放策略，把目标群体放在这些中层的管理人身上，销售转化率瞬间增加了三倍。

那时LinkedIn才 500 个人，Simon一个人支持 200名销售人员。他当时预测谷歌要花 10 个 Million美金在猎聘这一块上，销售人员说，Simon，这是不可能的事。

“但是数据就是这么显示的，只有可能多不会少。我意识到，一定要流程化这个步骤。”

今天LinkedIn 的“猎头”这块业务占据了总收入的60%。是怎么在四年里发展起来的，他透露当时建造这个模型有以下这么几个步骤：

分析每个公司它有多少员工。
分析这个公司它招了多少人。
分析人的位置功能职位级别一切参数，这些都是我们模型里面的各种功能。然后去分析，他们内部有多少HR 员工，有多少负责猎头的人，他们猎头的流失率，他们每天在Linkedin的活动时间是多少。

这是LinkedIn大数据部门最早做的事情。

Simon告诉36氪，公司内部从大数据分析这一个基本项上，可以不断迭代出新产品线LinkedIn的三大商业模型是人才解决方案、市场营销解决方案和付费订阅，也是我们传统的三大收入支柱。事实上我们还有一个，也就是第四个商业模型，叫“销售解决方案”，已经在今年7 月底上线。

这是卖给企业级用户的。回到刚才销售例子，LinkedIn大数据系统是一个牛逼的模型，只需要改动里面一下关键字，或者一个参数，就可以变成另一个产品。“我们希望能帮到企业级用户，让他们在最快的速度里知道谁会想买你的东西。”

虽然这第四个商业模式目前看来对收入的贡献还不多，只占1%，但anyway有着无限的想象空间，公司内部对这个产品期待很高。“我还不能告诉你它的增长率，但这方向代表的是趋势，Linkedin 的 B2B 是一个不用怀疑的大的趋势。”Simon说。

Google：一个闭环的大数据生态圈

作为世界上最大的搜索引擎，Google和大数据的关系又是怎样的呢？感谢微博上留言的朋友，这可确实是一个很有意思的议题。

Google在大数据方面的基础产品最早是2003年发布的第一个大规模商用分布式文件系统GFS（Google File System），主要由MapReduce和Big Table这两部分组成。前者是用于大数据并行计算的软件架构，后者则被认为是现代NOSQL数据库的鼻祖。

GFS为大数据的计算实现提供了可能，现在涌现出的各种文件系统和NOSQL数据库不可否认的都受到Google这些早期项目的影响。

随后2004和2006年分别发布的Map Reduce和BigTable，奠定了Google三大大数据产品基石。这三个产品的发布都是创始人谢尔盖-布林和拉里-佩奇主导的，这两人都是斯坦福大学的博士，科研的力量渗透到工业界，总是一件很美妙的事。

2011年，Google推出了基于Google基础架构为客户提供大数据的查询服务和存储服务的BigQuery，有点类似于Amazon的AWS，虽然目前从市场占有率上看与AWS还不在一个数量级，但价格体系更有优势。Google通过这个迎上了互联网公司拼服务的风潮，让多家第三方服务中集成了BigQuery可视化查询工具。抢占了大数据存储和分析的市场。

BigQuery和GAE（Google App Engine）等Google自有业务服务器构建了一个大数据生态圈，程序创建，数据收集，数据处理和数据分析等形成了闭环。

再来看Google的产品线，搜索，广告，地图，图像，音乐，视频这些，都是要靠大数据来支撑，根据不同种类数据建立模型进行优化来提升用户体验提升市场占有率的。

单独说一下Google maps，这个全球在移动地图市场拥有超过40%的市场占有率的产品，也是美国这边的出行神器。它几乎标示了全球有互联网覆盖的每个角落，对建筑物的3D视觉处理也早在去年就完成，这个数据处理的工作量可能是目前最大的了，但这也仅限于数据集中的层面。真正的数据分析和挖掘体现在：输入一个地点时，最近被最多用户采用的路径会被最先推荐给用户。

Google还把Google+，Panoramio和其他Google云平台的图片进行了标记和处理，将图片内容和地理位置信息地结合在一起，图像识别和社交系统评分处理后，Google能够把质量比较高的的图片推送给用户，优化了用户看地图时的视觉感受。

大数据为Google带来了丰厚的利润，比如在美国你一旦上网就能感觉到时无处不在的Google广告（AdSense）。当然，它是一把双刃剑，给站长们带来收入的同时，但如何平衡用户隐私的问题，是大数据处理需要克服的又一个技术难关，或许还需要互联网秩序的进一步完善去支持。

像在【上】中所说，除Facebook等几个很领先的公司外，大部分公司要么还没有能力自行处理数据的能力。最后附上两个例子，想说这边的大公司没有独立大数据部门也是正常的，采取外包合作是普遍现象：

Pinterest：

Pinterest曾尝试自行通过Amazon EMR建立数据处理平台，但是因为其稳定性无法控制和数据量增长过快的原因，最终决定改为使用Qubole提供的服务。在Qubole这个第三方平台上，Pinterest有能力处理其0.7亿用户每天所产生的海量数据，并且能够完成包括ETL、搜索、ad

hoc query等不同种类的数据处理方式。尽管Pinterest也是一个技术性公司，也有足够优秀的工程师来建立数据处理团队，他们依然选择了Qubole这样的专业团队来完成数据处理服务。

Nike:

不仅仅硅谷的互联网公司，众多传统企业也逐渐开始使用大数据相关技术。一个典型的例子就是Nike。Nike从2012年起与API服务公司Apigee合作，一方面，他们通过Apigee的API完善公司内部的数据管理系统，让各个部门的数据进行整合，使得公司内部运行更加顺畅、有效率。另一方面，他们也通过API开发Nike Fuel Band相关的移动产品。更是在2014年开启了Nike+

FuelLab项目，开放了相关API，使得众多的开放者可以利用Nike所收集的大量数据开发数据分析产品，成功地连接了Nike传统的零售业务，新的科技开发，和大数据价值。

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

解读CRISP-ML（Q）：机器学习生命周期流程Apr 08, 2023 pm 01:21 PM

译者 | 布加迪审校 | 孙淑娟目前，没有用于构建和管理机器学习（ML）应用程序的标准实践。机器学习项目组织得不好，缺乏可重复性，而且从长远来看容易彻底失败。因此，我们需要一套流程来帮助自己在整个机器学习生命周期中保持质量、可持续性、稳健性和成本管理。图1. 机器学习开发生命周期流程使用质量保证方法开发机器学习应用程序的跨行业标准流程（CRISP-ML（Q））是CRISP-DM的升级版，以确保机器学习产品的质量。CRISP-ML（Q）有六个单独的阶段：1. 业务和数据理解2. 数据准备3. 模型

人工智能的环境成本和承诺Apr 08, 2023 pm 04:31 PM

人工智能(AI)在流行文化和政治分析中经常以两种极端的形式出现。它要么代表着人类智慧与科技实力相结合的未来主义乌托邦的关键，要么是迈向反乌托邦式机器崛起的第一步。学者、企业家、甚至活动家在应用人工智能应对气候变化时都采用了同样的二元思维。科技行业对人工智能在创建一个新的技术乌托邦中所扮演的角色的单一关注，掩盖了人工智能可能加剧环境退化的方式，通常是直接伤害边缘人群的方式。为了在应对气候变化的过程中充分利用人工智能技术，同时承认其大量消耗能源，引领人工智能潮流的科技公司需要探索人工智能对环境影响的

找不到中文语音预训练模型？中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1]，HuBERT [2] 和 WavLM [3] 等语音预训练模型，通过在多达上万小时的无标注语音数据（如 Libri-light ）上的自监督学习，显著提升了自动语音识别（Automatic Speech Recognition, ASR），语音合成（Text-to-speech, TTS）和语音转换（Voice Conversation，VC）等语音下游任务的性能。然而这些模型都没有公开的中文版本，不便于应用在中文语音研究场景。 WenetSpeech [4] 是

条形统计图用什么呈现数据Jan 20, 2021 pm 03:31 PM

条形统计图用“直条”呈现数据。条形统计图是用一个单位长度表示一定的数量，根据数量的多少画成长短不同的直条，然后把这些直条按一定的顺序排列起来；从条形统计图中很容易看出各种数量的多少。条形统计图分为：单式条形统计图和复式条形统计图，前者只表示1个项目的数据，后者可以同时表示多个项目的数据。

自动驾驶车道线检测分类的虚拟-真实域适应方法Apr 08, 2023 pm 02:31 PM

arXiv论文“Sim-to-Real Domain Adaptation for Lane Detection and Classification in Autonomous Driving“，2022年5月，加拿大滑铁卢大学的工作。虽然自主驾驶的监督检测和分类框架需要大型标注数据集，但光照真实模拟环境生成的合成数据推动的无监督域适应（UDA，Unsupervised Domain Adaptation）方法则是低成本、耗时更少的解决方案。本文提出对抗性鉴别和生成（adversarial d

数据通信中的信道传输速率单位是bps，它表示什么Jan 18, 2021 pm 02:58 PM

数据通信中的信道传输速率单位是bps，它表示“位/秒”或“比特/秒”，即数据传输速率在数值上等于每秒钟传输构成数据代码的二进制比特数，也称“比特率”。比特率表示单位时间内传送比特的数目，用于衡量数字信息的传送速度；根据每帧图像存储时所占的比特数和传输比特率，可以计算数字图像信息传输的速度。

数据分析方法有哪几种Dec 15, 2020 am 09:48 AM

数据分析方法有4种，分别是：1、趋势分析，趋势分析一般用于核心指标的长期跟踪；2、象限分析，可依据数据的不同，将各个比较主体划分到四个象限中；3、对比分析，分为横向对比和纵向对比；4、交叉分析，主要作用就是从多个维度细分数据。

15年软件架构师经验总结：在ML领域，初学者踩过的五个坑Apr 11, 2023 pm 07:31 PM

数据科学和机器学习正变得越来越流行，这个领域的人数每天都在增长。这意味着有很多数据科学家在构建他们的第一个机器学习模型时没有丰富的经验，而这也是错误可能会发生的地方。近日，软件架构师、数据科学家、Kaggle 大师 Agnis Liukis 撰写了一篇文章，他在文中谈了谈在机器学习中最常见的一些初学者错误的解决方案，以确保初学者了解并避免它们。Agnis Liukis 拥有超过 15 年的软件架构和开发经验，他熟练掌握 Java、JavaScript、Spring Boot、React.JS

See all articles