首頁 >後端開發 >php教程 >php实现含有redis命令的原子操作

php实现含有redis命令的原子操作

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原創
2016-06-06 20:08:091670瀏覽

在做一个爬虫,其中有一部分是评论数据。因为评论数太多,所以想要将爬取下来的评论进行分表。
目前的思路是:
每个表保存100万条数据(1-1000000保存在table1,1000001-2000000保存在table2)。

在redis创建一个String键comment:totalNum,保存数据库中已有的评论数。

根据 comment:totalNum 来确定评论的主键id以及保存到哪个表中。

目前思路是:

<code>$id = $redis->get( 'comment:totalNum' );
$tableName = getTableName( $id );
$sql = "insert xxx";
$res = $db->mysql_query( 'sql' );
if( $res ){
    $redis->incr( 'comment:totalNum' );
}
</code>

因为考虑用多线程,所以当一个表快要到100万条数据时,就会有一个问题:
如果一个进程获取了comment:totalNum为1000000,判断可以放在表一中,然后去执行对数据库的操作,但是如果此时也有一个进程获取了comment:totalNum的值,那么也会进行对数据库的操作,结果就会是数据库中增加了两条记录,一条主键为1,000,000,一条主键为1,000,001,不符合初衷。

所以我想问一下,有没有比较好的方法,能实现:

<code>原子操作 start
    $id = $redis->get( 'comment:totalNum' );
    $tableName = getTableName( $id );
    $sql = "insert xxx";
    $res = $db->mysql_query( 'sql' );
    if( $res ){
        $redis->incr( 'comment:totalNum' );
    }
原子操作 end
</code>

回复内容:

在做一个爬虫,其中有一部分是评论数据。因为评论数太多,所以想要将爬取下来的评论进行分表。
目前的思路是:
每个表保存100万条数据(1-1000000保存在table1,1000001-2000000保存在table2)。

在redis创建一个String键comment:totalNum,保存数据库中已有的评论数。

根据 comment:totalNum 来确定评论的主键id以及保存到哪个表中。

目前思路是:

<code>$id = $redis->get( 'comment:totalNum' );
$tableName = getTableName( $id );
$sql = "insert xxx";
$res = $db->mysql_query( 'sql' );
if( $res ){
    $redis->incr( 'comment:totalNum' );
}
</code>

因为考虑用多线程,所以当一个表快要到100万条数据时,就会有一个问题:
如果一个进程获取了comment:totalNum为1000000,判断可以放在表一中,然后去执行对数据库的操作,但是如果此时也有一个进程获取了comment:totalNum的值,那么也会进行对数据库的操作,结果就会是数据库中增加了两条记录,一条主键为1,000,000,一条主键为1,000,001,不符合初衷。

所以我想问一下,有没有比较好的方法,能实现:

<code>原子操作 start
    $id = $redis->get( 'comment:totalNum' );
    $tableName = getTableName( $id );
    $sql = "insert xxx";
    $res = $db->mysql_query( 'sql' );
    if( $res ){
        $redis->incr( 'comment:totalNum' );
    }
原子操作 end
</code>

1.mysql 基本上是单表1000w 数据,100w 量很小,不要急着分表
2.分表要根据需求来处理.
现在你需要保存聊天记录,可以根据时间维度进行分表,先做个统计,一天的数据量能达到多少,计算下大概多久可以达到1000w 的数据量,假设一个月数据量到达1000w, 那么就一个月一张表.

说下你现在方案问题,依赖性较强, redis 挂了或者数据丢失,你就需要手动处理.
如果按你现在的方案来做,要解决的是这个冲突问题,可以使用 redis的 watch 和 事务功能.
Talk is cheap. Show me the code

<code>$num = $redis->get("num");

$redis->watch("num");

//开启 mysql 事务
begin()
//根据 num 插入数据到指定表中
insert  xxxxxx
//开启 redis 事务,进行递增
$redis->multi();
$redis->incr("num");
$incr = $redis->exec();
//如果在这期间,其他进程更改了 num 的值,会返回 false, 没有就返回递增后的值
if(! $incr )
{
    //回滚
}else{
    //提交 mysql 事务
}
</code>

根据评论的id号 取模 表的数量 然后在每个表平均的插入数据 你觉得是不是好点? 原子操作都可以不要了

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn