文章表500万条数据，每天会有10万条数据更新，从更新的10万条中随机选3000条做数据研究，如果做到高效？-php教程-PHP中文網

首頁

後端開發

php教程

文章表500万条数据，每天会有10万条数据更新，从更新的10万条中随机选3000条做数据研究，如果做到高效？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 pm 08:17 PM

mysqlphp

题目是一道面试题
我的想法是另起一张表，存放今天更新的10万条都有哪些;
我只想到这个第一步，接下来该怎么做我还不知道怎么去实现;
假设按我这样的思路，我就算知道了每天更新的是哪10万条数据,那我还是得去500万条中找出3000条数据哦
不知道各位兄弟，有啥好的想法呢？

回复内容：

10W中的3000条，概率是3%

那么只要在保存文章时，按照3%的概率，把本次更新文章保存到缓存中

这种缓存用redis的set类型最好，set类型不会保存重复的元素，所以文章反复更新也不会在列表里面产生多个结果

key的格式可以用"analyze:list:(Y-m-d)"

然后这个缓存可以设置为48小时过期，如果有需要的话，每天可以拿前一天的缓存归档到数据库

考虑到随机概率的误差，可以把3%放大到5%，最后肯定会记录得超过3000，但是也不会超太多，反正最后只拿3000条来用就行了

把每次更新都记录起来的话，无论是记录到缓存还是数据库，其实大部分的记录是没用的，不如按照概率先过滤一遍

其实记录每条文章的update_time也可以，我觉得where update_time >= ? and update_time

优点：
1、没有update_time字段也能玩，对现有表结构无要求，给生产环境的数据库加字段是件麻烦事
2、万一生产环境的数据库负载比较高，order by random()查询导致数据库卡死也不好，这样的话，最好是读写分离架构，在只读库上查询才行，产生了架构要求，我这个设计完全是个旁路记录，除了redis之外没要求
3、需要多少才记多少，额外IO少

一些粗陋的想法，仅供参考
分区
500万条，为了方便。根据数据的更新时间进行数据库分区（没用过mysql分区的看这个，在文章后面讲了），
比如说按照月份，我假设你这500万条数据是一年的，那么分成12份，每个区大约算42万条记录
这样，当使用更新时间进行搜索的时候，mysql就会根据你的更新时间去选择分区，
也就是被搜索的数据是在这42万条里面去找（这肯定要比你在500万里面快多了，当然你要是按照天来分，那会更快）

加缓存
这没啥，就是你每天写入mysql的时候取3000条数据写入redis或者mongodb里面，做研究就不从mysql里面读了。用php从缓存里面读

多进程
你说的要做研究嘛，我假设你的研究算法很复杂。你去学学swoole，开三个进程，一个进程处理1000个数据，最后汇总结果

取出当日更新的10万

id放入一个数组在数组中随机取出3000个id

用select in读取指定的3000条记录

<code>SELECT id FROM table WHERE date_refresh = 20120329

SELECT * FROM table WHERE id IN (id_0, id_1, id_2, ..., id_2999)
</code>

https://www.zhihu.com/question/20151242

首先，我会使用缓存的方式，将每天更新的数据的主键 记录下来。
从缓存中，随机获取3000 个主键
拿着这3000 个主键，使用 IN 查询，获取对应的数据。

浅陋分析，勿笑。

1.获取id区间

<code>select max(id) as max_id, min(id) as min_id 
from (
   select id from article_tb where update_time >= '2016-02-26 00:00:00'
) 
</code>

update_time有索引，id为自增长id
2.随机获取

<code>select * 
from article_tb 
where id >= min_id and id </code>

查询3000次

<code>// STEP 1 : 获取当天文章ID区间
// maxId -> select max(id) from news where 当天时间限定
// minId -> select min(id) from news where 当天时间限定


// STEP 2 : 取得随机ID
// 因为你一天有10万数据，数据总量有很高
// 所以避免使用MYSQL中的随机

$minId = 5000000;
$maxId = 5100000;
$i = 0;
$resultIds = [];
while(true){
    $randId = rand($minId,$maxId);
    if(in_array($randId, $resultIds)){
        continue;
    }
    
    // 查询验证
    // 根据你的需要验证数据是否是审核的呀，是否是正常数据呀
    // 如果正常就载入到结果数组中。
    $resultIds[] = $randId;
    $i++;
    
    if($i==3000){
        break;
    }
}

// 到这里结果已经有了
// 可以储存到结果集用其他方式分页进行研究或者浏览。</code>

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

PHP行動：現實世界中的示例和應用程序Apr 14, 2025 am 12:19 AM

PHP在電子商務、內容管理系統和API開發中廣泛應用。 1)電子商務：用於購物車功能和支付處理。 2)內容管理系統：用於動態內容生成和用戶管理。 3)API開發：用於RESTfulAPI開發和API安全性。通過性能優化和最佳實踐，PHP應用的效率和可維護性得以提升。

PHP：輕鬆創建交互式Web內容Apr 14, 2025 am 12:15 AM

PHP可以輕鬆創建互動網頁內容。 1)通過嵌入HTML動態生成內容，根據用戶輸入或數據庫數據實時展示。 2)處理表單提交並生成動態輸出，確保使用htmlspecialchars防XSS。 3)結合MySQL創建用戶註冊系統，使用password_hash和預處理語句增強安全性。掌握這些技巧將提升Web開發效率。

PHP和Python：比較兩種流行的編程語言Apr 14, 2025 am 12:13 AM

PHP和Python各有優勢，選擇依據項目需求。 1.PHP適合web開發，尤其快速開發和維護網站。 2.Python適用於數據科學、機器學習和人工智能，語法簡潔，適合初學者。

PHP的持久相關性：它還活著嗎？Apr 14, 2025 am 12:12 AM

PHP仍然具有活力，其在現代編程領域中依然佔據重要地位。 1)PHP的簡單易學和強大社區支持使其在Web開發中廣泛應用；2)其靈活性和穩定性使其在處理Web表單、數據庫操作和文件處理等方面表現出色；3)PHP不斷進化和優化，適用於初學者和經驗豐富的開發者。

PHP的當前狀態：查看網絡開發趨勢Apr 13, 2025 am 12:20 AM

PHP在現代Web開發中仍然重要，尤其在內容管理和電子商務平台。 1)PHP擁有豐富的生態系統和強大框架支持，如Laravel和Symfony。 2)性能優化可通過OPcache和Nginx實現。 3)PHP8.0引入JIT編譯器，提升性能。 4)雲原生應用通過Docker和Kubernetes部署，提高靈活性和可擴展性。

PHP與其他語言：比較Apr 13, 2025 am 12:19 AM

PHP適合web開發，特別是在快速開發和處理動態內容方面表現出色，但不擅長數據科學和企業級應用。與Python相比，PHP在web開發中更具優勢，但在數據科學領域不如Python；與Java相比，PHP在企業級應用中表現較差，但在web開發中更靈活；與JavaScript相比，PHP在後端開發中更簡潔，但在前端開發中不如JavaScript。

PHP與Python：核心功能Apr 13, 2025 am 12:16 AM

PHP和Python各有優勢，適合不同場景。 1.PHP適用於web開發，提供內置web服務器和豐富函數庫。 2.Python適合數據科學和機器學習，語法簡潔且有強大標準庫。選擇時應根據項目需求決定。

PHP：網絡開發的關鍵語言Apr 13, 2025 am 12:08 AM

PHP是一種廣泛應用於服務器端的腳本語言，特別適合web開發。 1.PHP可以嵌入HTML，處理HTTP請求和響應，支持多種數據庫。 2.PHP用於生成動態網頁內容，處理表單數據，訪問數據庫等，具有強大的社區支持和開源資源。 3.PHP是解釋型語言，執行過程包括詞法分析、語法分析、編譯和執行。 4.PHP可以與MySQL結合用於用戶註冊系統等高級應用。 5.調試PHP時，可使用error_reporting()和var_dump()等函數。 6.優化PHP代碼可通過緩存機制、優化數據庫查詢和使用內置函數。 7

See all articles