search
HomeDatabaseMysql Tutorial个性化离线实时分析系统pora
个性化离线实时分析系统poraJun 07, 2016 pm 04:29 PM
businesspersonaliseanalyzeScenesreal timeOfflinesystemalong with

1.业务场景 伴随着市场和技术的发展,个性化已经成为淘宝搜索的一个重要目标。简单来说,个性化就是让每个用户在使用淘宝搜索时都能够获取自己最想要的结果,而不再是千篇一律的展示。实现个性化最直接的手段就是通过分析用户的历史行为日志,为用户打上不同

1.业务场景
伴随着市场和技术的发展,个性化已经成为淘宝搜索的一个重要目标。简单来说,个性化就是让每个用户在使用淘宝搜索时都能够获取自己最想要的结果,而不再是千篇一律的展示。实现个性化最直接的手段就是通过分析用户的历史行为日志,为用户打上不同的标签,在搜索中根据这些标签来展示最贴近的结果。
在淘宝,用户属性分析是通过每天在云梯上定时运行的map reduce job来完成的,产出结果导入我们的在线kv存储ups中,搜索引擎通过查询ups获取用户属性来为用户返回个性化的结果。在云梯上执行的全量计算能够进行复杂的模型计算,并且由于利用了云梯强大的计算能力,计算全部用户几十天的日志也只需花费几个小时。
全量计算的不足之处在每次计算的输入数据都是前一天到前N天的日志,无法将用户当天的行为考虑进去,因此得到的用户属性永远是滞后一天的,无法将某些用户当前的属性很好地反映出来。实时增量弥补了这一空缺,通过实时分析用户的行为日志,将最新的用户属性反馈给搜索引擎,能够为用户展现最贴近其当前需求的结果。

2.系统需求
结合我们的业务场景和现状,对实时分析系统大致有以下几点需求。
(1)不影响在线查询的效率。这是一个最基本的需求,也决定了我们系统的定位:离线分析,将相对较重的分析过程放在离线阶段完成,在线过程只需要查询离线计算产出的结果即可。
(2)实时。既然称为实时系统,这也是一个起码的要求。至于要多实时,初步的目标是从用户一次行为发生到最后的属性更新在几秒内完成。
(3)可水平扩展。个性化是一个需要长期打磨的系统工程,在不同的阶段对系统的容量自然有不同的需求,这就需要我们的系统能够具备良好的水平扩展能力。
(4)能应对复杂多变的业务。算法同学会在个性化方面做各种尝试,我们系统需要提供便利的方式来支持这些尝试,最好是能够将相对公用的东西与具体的业务逻辑剥离开,简单来说,就是算法逻辑插件化。
(5)高效。实时分析每天需要处理的日志量是巨大的,但是在其业务价值没有得到足够证明之前,是不可能占用太多的机器资源的,因此高效也成为了我们的一个基本需求。

3.系统架构
说到实时分析,前提是实时日志收集,这方面淘宝已经有了一套的强大的日志收集和分发系统–TimeTunnel,俗称TT,TT的延迟在几百毫秒以内,并且提供根据游标来取消息的功能,基本满足了我们消息对消息实时性和完整性的需求。全量计算的输出是实时分析系统的另一个重要的数据源,因为我们写入到ups提供给搜索引擎的是用户属性的最终结果,合并全量和增量的过程需要在实时分析系统中完成。全量计算是在云梯上完成的,结果存放在hdfs中,hdfs不能够提供记录级别的操作,考虑到我们的系统需求,必须要有另外一个提供高效的记录级操作的存储系统来保存这些数据。此外,由于算法逻辑通常会将用户近两天的行为都考虑进去,我们还需要保存用户近期的行为记录。我们选择hbase作为全量结果和近期行为数据的存储介质,一是由于hbase具有良好的水平扩展性,二是由于我们对hbase的使用比较熟悉。在计算系统的选型上,我们选择了人见人爱的开源系统storm.各个组件的选型确定,整个系统的架构也就出来了。
系统架构

(1)全量数据的导入。首先通过distcp方式将云梯上的数据拷贝到我们的hadoop集群中,然后使用bulk-load方式将数据导入到hbase表中。bulk-load是hbase提供的一种高效的数据批量导入工具,具体使用方法可以参考 http://hbase.apache.org/book/arch.bulk.load.html。 全量导入过程每天运行一次,我们会根据日期新建对应的表。
(2)全量数据的切换和删除。为了让运行在storm中的实时分析拓扑检测并使用到新全量表,我们另外创建了一张全量数据索引表,每次导入到新的全量数据表时更新对应的索引,实时分析拓扑定期扫描索引,在检测到索引更新时自动切换到使用新表。
(3)消息完整性的保证。实时分析拓扑中会保存消息处理的游标,并定期刷入到hbase中,这样即使在节点失败或者拓扑重启的情况下也能够恢复游标,处理堆积的消息。

4.实时分析拓扑
当一条日志进入pora系统后,首先通过解析器解析出若干字段,然后通过过滤逻辑来判断该条日志是否需要进行分析,如果需要,则会根据这些字段执行需要的join操作,例如将用户、宝贝的信息补全,然后将join好的日志以及用户的近期行为和全量属性传递给系统中的算法插件,依次进行分析,最后将最新的用户属性更新到ups中,提供给外部使用。分析流程对应于storm的拓扑结构大致如下:
(1)parser. 负责解析日志,根据配置文件取出需要的字段来。
(2)filter. 过滤逻辑,根据某些规则过滤掉一些不感兴趣的用户日志。
(3)joiner. 日志中的字段往往不能够提供完整的信息,需要一个join过程来补全字段。在当前的实现中,我们会根据日志中的”行为”字段来使用不同的join方式。
(4)analyzer. 主体分析逻辑。我们将这部分做成了一个 framework + plugins 的结构,其中framework负责取全量属性、取近期行为、取当前行为,合并计算结果。每个plugin只需要实现analyze(全量属性 + 近期行为 + 当前行为)的方法。framework对用户属性进行了字段切分,每个plugin只需要关心自己处理的那个字段即可。
在joiner和analyzer阶段,我们做了一个很小的批量处理,不一定每条日志都会触发计算,只有当累积够一定条数后,才做一次集中处理,这样在latency方面会有一些损失,但是能够将对hbase的访问打包,提高hbase的读写性能,从而大大提高系统的qps.这个批量的大小是可配的,用户可以根据场景选择配置,在qps和latency之间做trade-off,当配置为1的时候,就是完全的单条计算。
(5)updater.负责将analyzer计算后发生更新的用户属性发送到ups中,继而提供给搜索引擎使用。

5.系统监控
监控是一个线上系统必不可少的一部分。我们除了使用了一些基础的机器状态监控外,hbase集群还使用了集团hbase团队开发的专用监控系统,非常直观。此外,我们还需要一些业务指标的监控,例如我们的qps,latency,gap(日志处理时间与日志生产时间质检单 间隔),这方面也花费了我们一些心思。例如latency的监控,storm ui本身提供了即时数字的显示,但是没有我们想要的曲线图(或许0.9版本中会有吧)。最后我们选择了基于hbase的监控绘图工具openTSDB。我们通过借助storm的ack机制来统计消息处理的latency,打印到日志中,然后使用一个脚本来搜集这些信息发送给openTSDB服务器来展示曲线。
pora目前在淘宝个性化搜索中稳定运行,每天处理几十亿的日志信息,平均延迟在秒级。

6.经验教训
(1).zookeeper集群独立。因为zookeeper无论对于hbase还是storm都是至关重要的,最好将其单独搞一个负载较低的集群。
(2).hbase表的预分区。尽量将请求分散到各个节点上,至于预分区的原则,就根据业务场景来制定了。例如我们在存储用户全量属性数据时是按照用户名做哈希取模的。
(3).storm使用经验
(a).根据需要修改默认参数。这点是显然的,storm的默认参数并不能符合每个业务场景的需要,在storm源码中的conf/defaults.xml目录下有各个参数的默认取值,用户可根据需要修改。
(b).emit tuple时一定要new list.出于效率的考虑,storm底层的发送线程不会对该list进行深拷贝,会直接使用。如果用户不小心修改了该list,会导致一些莫名其妙的失误。
(c).重启supervopior前删除本地data目录。storm的supervisor会在本地data目录保存一些状态信息,在某些情况下这些状态与zk中的最新状态并不能保持一致,如果不删除data目录,容易导致supervisor重启失败。

Statement
The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn
无法打开Win10个性化选项无法打开Win10个性化选项Jan 11, 2024 pm 04:06 PM

很多小伙伴发现win10系统更新后,打不开个性化设置了,一直显示该文件没有与之相关的程序来执行操作,请安装一个程序,这是怎么一回事呢?使用winR打开“运行”,右键删除整个ms-seeting,就可以打开了。具体的一起来看看吧。win10打开个性化的方法1、首先我们按“Win+R”呼出运行,点击输入“services.msc”,之后回车确定。2、然后我们在弹出来的窗口中点击打开“windowsupdate”,将启动类型设置成“禁用”。3、然后我们把C:\Windows中的SoftwareDist

keep健身如何离线使用keep健身如何离线使用Mar 09, 2024 pm 07:22 PM

keep健身如何离线使用?在keep健身APP中是可以离线使用地图,多数的用户不知道如何离线使用健身地图,接下来就是小编为用户带来的keep健身离线使用方法图文教程,感兴趣的用户快来一起看看吧!keep使用教程keep健身如何离线使用1、首先打开keep软件,右下角点击【我的】专区选择右上角【设置】按钮;2、之后跳转到下图的设置功能页,滑动页面选择【运动设置】;3、接着在运动设置页面,点击【离线地图】选项;4、然后在已下载地图功能页,右上角【城市列表】功能;5、最后在城市列表的页面选择地图即可离

美图天天换!Windows 11 聚焦桌面和锁屏设置全攻略美图天天换!Windows 11 聚焦桌面和锁屏设置全攻略Mar 25, 2024 am 09:01 AM

Windows11的聚焦功能能够自动更新你的桌面壁纸、主题和锁屏界面,每天为你呈现精选的风景、城市和动物等美图。这些图片均来源于Bing搜索,不仅可以让用户体验更加个性化,还会偶尔在锁屏界面上展示实用的建议和小贴士,为用户带来额外的惊喜和帮助。使用Windows11聚焦桌面方法1:设置Windows聚焦桌面壁纸1按Windows+I快捷键打开「设置」,选择「个性化」>「背景」。2在「个性化设置背景」下拉列表中,选择「Windows聚焦」选项。选择Windows聚焦壁纸

Linux 系统离线安装DockerLinux 系统离线安装DockerFeb 27, 2024 pm 03:30 PM

在Linux系统中,离线安装Docker通常发生在以下情况:在某些部署环境下,可能会受到网络限制或防火墙设置的影响,导致无法直接通过Docker的官方仓库在线安装Docker。出于安全考虑,有些环境不允许直接连接外部网络,因此需要采取离线方式来安装和更新软件。稳定性要求:对于对稳定性要求较高的系统,离线安装可确保Docker与其他系统组件兼容,避免在线更新可能带来的潜在风险。下面我们看下具体的操作方法。1.下载安装包docker所有离线包路径http://get.daocloud.io/dock

七猫小说如何个性化书籍七猫小说如何个性化书籍Mar 02, 2024 am 10:40 AM

使用小猫小说的过程中,软件会为我们推荐一些感兴趣的书籍,怎样设置个性化书籍推荐呢?下面为大家介绍一下具体的操作方法。打开手机上的“七猫免费小说”应用程序后,找到页面右下角的“我的”选项,并在该页面底部查找“设置”功能。点击打开“设置”选项。2.来到设置页面后,其中有一个“隐私设置”,看到后在上面点击进入。3.接下来在隐私设置页面里找到“个性化书籍推荐”,在它的后面显示有一个开关按钮,在上面点击滑块把它设置为彩色的状态即为开启该功能,软件就会根据自己的阅读喜好来推荐可能感兴趣的书籍了。

如何在 Windows 11 中立即打开实时字幕如何在 Windows 11 中立即打开实时字幕Jun 27, 2023 am 08:33 AM

如何在Windows11中立即打开实时字幕1.在键盘上预赢+按Ctrl+L2.点击同意3.将显示一个弹出窗口,显示准备以英语(美国)添加字幕(取决于您的首选语言)4.此外,您还可以通过单击齿轮按钮来过滤亵渎?偏好?过滤脏话相关文章如何修复Windows服务器中的激活错误代码0xc004f069Windows上的激活过程有时会突然转向显示包含此错误代码0xc004f069的错误消息。虽然激活过程已经联机,但一些运行WindowsServer的旧系统可能会遇到此问题。通过这些初步检查,如果这些检查不

PHP实时图表生成技术详解PHP实时图表生成技术详解Jun 28, 2023 am 08:55 AM

在今天的Web应用开发中,实时的数据展示是非常重要的一部分,很多应用需要实时地可视化呈现数据。在如今的大数据时代,数据分析和可视化已经成为必不可少的工具。从日常生活中的股票行情、气象预报、网络流量监控到工业生产质量、人口普查、客户增长率等,实时可视化都有重要的应用场景。本文将会详细介绍一种PHP实时图表生成技术。一、实时图表生成技术介绍实时图表生成是指当数据

番茄小说个性化开关在哪番茄小说个性化开关在哪Feb 27, 2024 pm 04:58 PM

在数字化阅读的时代,个性化推荐已成为许多阅读软件的核心功能之一。番茄小说作为一款备受欢迎的小说阅读软件,其个性化推荐功能更是为用户带来了全新的阅读体验。那么很多用户们可能还不清楚究竟该如何开启番茄小说的个性化推荐功能,那么还不了解的小伙伴们就请继续阅读下文。番茄小说个性化开关在哪答案:【番茄小说】-【我的】-【设置图标】-【关于番茄】-【了解与管理广告推送】。具体步骤:1、首先打开番茄小说软件,进入到首页中后我们点击右下角的【我的】;2、然后来到我的页面中后可以开电脑能使用的功能有很多,在这里我

See all articles

Hot AI Tools

Undresser.AI Undress

Undresser.AI Undress

AI-powered app for creating realistic nude photos

AI Clothes Remover

AI Clothes Remover

Online AI tool for removing clothes from photos.

Undress AI Tool

Undress AI Tool

Undress images for free

Clothoff.io

Clothoff.io

AI clothes remover

AI Hentai Generator

AI Hentai Generator

Generate AI Hentai for free.

Hot Article

Hot Tools

PhpStorm Mac version

PhpStorm Mac version

The latest (2018.2.1) professional PHP integrated development tool

Dreamweaver Mac version

Dreamweaver Mac version

Visual web development tools

Notepad++7.3.1

Notepad++7.3.1

Easy-to-use and free code editor

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

This project is in the process of being migrated to osdn.net/projects/mingw, you can continue to follow us there. MinGW: A native Windows port of the GNU Compiler Collection (GCC), freely distributable import libraries and header files for building native Windows applications; includes extensions to the MSVC runtime to support C99 functionality. All MinGW software can run on 64-bit Windows platforms.

SublimeText3 Mac version

SublimeText3 Mac version

God-level code editing software (SublimeText3)