文章表500万条数据，每天会有10万条数据更新，从更新的10万条中随机选3000条做数据研究，如果做到高效？-php教程-PHP中文网

首页

后端开发

php教程

文章表500万条数据，每天会有10万条数据更新，从更新的10万条中随机选3000条做数据研究，如果做到高效？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 pm 08:17 PM

mysqlphp

题目是一道面试题
我的想法是另起一张表，存放今天更新的10万条都有哪些;
我只想到这个第一步，接下来该怎么做我还不知道怎么去实现;
假设按我这样的思路，我就算知道了每天更新的是哪10万条数据,那我还是得去500万条中找出3000条数据哦
不知道各位兄弟，有啥好的想法呢？

回复内容：

10W中的3000条，概率是3%

那么只要在保存文章时，按照3%的概率，把本次更新文章保存到缓存中

这种缓存用redis的set类型最好，set类型不会保存重复的元素，所以文章反复更新也不会在列表里面产生多个结果

key的格式可以用"analyze:list:(Y-m-d)"

然后这个缓存可以设置为48小时过期，如果有需要的话，每天可以拿前一天的缓存归档到数据库

考虑到随机概率的误差，可以把3%放大到5%，最后肯定会记录得超过3000，但是也不会超太多，反正最后只拿3000条来用就行了

把每次更新都记录起来的话，无论是记录到缓存还是数据库，其实大部分的记录是没用的，不如按照概率先过滤一遍

其实记录每条文章的update_time也可以，我觉得where update_time >= ? and update_time

优点：
1、没有update_time字段也能玩，对现有表结构无要求，给生产环境的数据库加字段是件麻烦事
2、万一生产环境的数据库负载比较高，order by random()查询导致数据库卡死也不好，这样的话，最好是读写分离架构，在只读库上查询才行，产生了架构要求，我这个设计完全是个旁路记录，除了redis之外没要求
3、需要多少才记多少，额外IO少

一些粗陋的想法，仅供参考
分区
500万条，为了方便。根据数据的更新时间进行数据库分区（没用过mysql分区的看这个，在文章后面讲了），
比如说按照月份，我假设你这500万条数据是一年的，那么分成12份，每个区大约算42万条记录
这样，当使用更新时间进行搜索的时候，mysql就会根据你的更新时间去选择分区，
也就是被搜索的数据是在这42万条里面去找（这肯定要比你在500万里面快多了，当然你要是按照天来分，那会更快）

加缓存
这没啥，就是你每天写入mysql的时候取3000条数据写入redis或者mongodb里面，做研究就不从mysql里面读了。用php从缓存里面读

多进程
你说的要做研究嘛，我假设你的研究算法很复杂。你去学学swoole，开三个进程，一个进程处理1000个数据，最后汇总结果

取出当日更新的10万

id放入一个数组在数组中随机取出3000个id

用select in读取指定的3000条记录

<code>SELECT id FROM table WHERE date_refresh = 20120329

SELECT * FROM table WHERE id IN (id_0, id_1, id_2, ..., id_2999)
</code>

https://www.zhihu.com/question/20151242

首先，我会使用缓存的方式，将每天更新的数据的主键 记录下来。
从缓存中，随机获取3000 个主键
拿着这3000 个主键，使用 IN 查询，获取对应的数据。

浅陋分析，勿笑。

1.获取id区间

<code>select max(id) as max_id, min(id) as min_id 
from (
   select id from article_tb where update_time >= '2016-02-26 00:00:00'
) 
</code>

update_time有索引，id为自增长id
2.随机获取

<code>select * 
from article_tb 
where id >= min_id and id </code>

查询3000次

<code>// STEP 1 : 获取当天文章ID区间
// maxId -> select max(id) from news where 当天时间限定
// minId -> select min(id) from news where 当天时间限定


// STEP 2 : 取得随机ID
// 因为你一天有10万数据，数据总量有很高
// 所以避免使用MYSQL中的随机

$minId = 5000000;
$maxId = 5100000;
$i = 0;
$resultIds = [];
while(true){
    $randId = rand($minId,$maxId);
    if(in_array($randId, $resultIds)){
        continue;
    }
    
    // 查询验证
    // 根据你的需要验证数据是否是审核的呀，是否是正常数据呀
    // 如果正常就载入到结果数组中。
    $resultIds[] = $randId;
    $i++;
    
    if($i==3000){
        break;
    }
}

// 到这里结果已经有了
// 可以储存到结果集用其他方式分页进行研究或者浏览。</code>

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

PHP的当前状态：查看网络开发趋势Apr 13, 2025 am 12:20 AM

PHP在现代Web开发中仍然重要，尤其在内容管理和电子商务平台。1)PHP拥有丰富的生态系统和强大框架支持，如Laravel和Symfony。2)性能优化可通过OPcache和Nginx实现。3)PHP8.0引入JIT编译器，提升性能。4)云原生应用通过Docker和Kubernetes部署，提高灵活性和可扩展性。

PHP与其他语言：比较Apr 13, 2025 am 12:19 AM

PHP适合web开发，特别是在快速开发和处理动态内容方面表现出色，但不擅长数据科学和企业级应用。与Python相比，PHP在web开发中更具优势，但在数据科学领域不如Python；与Java相比，PHP在企业级应用中表现较差，但在web开发中更灵活；与JavaScript相比，PHP在后端开发中更简洁，但在前端开发中不如JavaScript。

PHP与Python：核心功能Apr 13, 2025 am 12:16 AM

PHP和Python各有优势，适合不同场景。1.PHP适用于web开发，提供内置web服务器和丰富函数库。2.Python适合数据科学和机器学习，语法简洁且有强大标准库。选择时应根据项目需求决定。

PHP：网络开发的关键语言Apr 13, 2025 am 12:08 AM

PHP是一种广泛应用于服务器端的脚本语言，特别适合web开发。1.PHP可以嵌入HTML，处理HTTP请求和响应，支持多种数据库。2.PHP用于生成动态网页内容，处理表单数据，访问数据库等，具有强大的社区支持和开源资源。3.PHP是解释型语言，执行过程包括词法分析、语法分析、编译和执行。4.PHP可以与MySQL结合用于用户注册系统等高级应用。5.调试PHP时，可使用error_reporting()和var_dump()等函数。6.优化PHP代码可通过缓存机制、优化数据库查询和使用内置函数。7