Home >Backend Development >PHP Tutorial >php实现含有redis命令的原子操作

php实现含有redis命令的原子操作

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOriginal
2016-06-06 20:08:091669browse

在做一个爬虫,其中有一部分是评论数据。因为评论数太多,所以想要将爬取下来的评论进行分表。
目前的思路是:
每个表保存100万条数据(1-1000000保存在table1,1000001-2000000保存在table2)。

在redis创建一个String键comment:totalNum,保存数据库中已有的评论数。

根据 comment:totalNum 来确定评论的主键id以及保存到哪个表中。

目前思路是:

<code>$id = $redis->get( 'comment:totalNum' );
$tableName = getTableName( $id );
$sql = "insert xxx";
$res = $db->mysql_query( 'sql' );
if( $res ){
    $redis->incr( 'comment:totalNum' );
}
</code>

因为考虑用多线程,所以当一个表快要到100万条数据时,就会有一个问题:
如果一个进程获取了comment:totalNum为1000000,判断可以放在表一中,然后去执行对数据库的操作,但是如果此时也有一个进程获取了comment:totalNum的值,那么也会进行对数据库的操作,结果就会是数据库中增加了两条记录,一条主键为1,000,000,一条主键为1,000,001,不符合初衷。

所以我想问一下,有没有比较好的方法,能实现:

<code>原子操作 start
    $id = $redis->get( 'comment:totalNum' );
    $tableName = getTableName( $id );
    $sql = "insert xxx";
    $res = $db->mysql_query( 'sql' );
    if( $res ){
        $redis->incr( 'comment:totalNum' );
    }
原子操作 end
</code>

回复内容:

在做一个爬虫,其中有一部分是评论数据。因为评论数太多,所以想要将爬取下来的评论进行分表。
目前的思路是:
每个表保存100万条数据(1-1000000保存在table1,1000001-2000000保存在table2)。

在redis创建一个String键comment:totalNum,保存数据库中已有的评论数。

根据 comment:totalNum 来确定评论的主键id以及保存到哪个表中。

目前思路是:

<code>$id = $redis->get( 'comment:totalNum' );
$tableName = getTableName( $id );
$sql = "insert xxx";
$res = $db->mysql_query( 'sql' );
if( $res ){
    $redis->incr( 'comment:totalNum' );
}
</code>

因为考虑用多线程,所以当一个表快要到100万条数据时,就会有一个问题:
如果一个进程获取了comment:totalNum为1000000,判断可以放在表一中,然后去执行对数据库的操作,但是如果此时也有一个进程获取了comment:totalNum的值,那么也会进行对数据库的操作,结果就会是数据库中增加了两条记录,一条主键为1,000,000,一条主键为1,000,001,不符合初衷。

所以我想问一下,有没有比较好的方法,能实现:

<code>原子操作 start
    $id = $redis->get( 'comment:totalNum' );
    $tableName = getTableName( $id );
    $sql = "insert xxx";
    $res = $db->mysql_query( 'sql' );
    if( $res ){
        $redis->incr( 'comment:totalNum' );
    }
原子操作 end
</code>

1.mysql 基本上是单表1000w 数据,100w 量很小,不要急着分表
2.分表要根据需求来处理.
现在你需要保存聊天记录,可以根据时间维度进行分表,先做个统计,一天的数据量能达到多少,计算下大概多久可以达到1000w 的数据量,假设一个月数据量到达1000w, 那么就一个月一张表.

说下你现在方案问题,依赖性较强, redis 挂了或者数据丢失,你就需要手动处理.
如果按你现在的方案来做,要解决的是这个冲突问题,可以使用 redis的 watch 和 事务功能.
Talk is cheap. Show me the code

<code>$num = $redis->get("num");

$redis->watch("num");

//开启 mysql 事务
begin()
//根据 num 插入数据到指定表中
insert  xxxxxx
//开启 redis 事务,进行递增
$redis->multi();
$redis->incr("num");
$incr = $redis->exec();
//如果在这期间,其他进程更改了 num 的值,会返回 false, 没有就返回递增后的值
if(! $incr )
{
    //回滚
}else{
    //提交 mysql 事务
}
</code>

根据评论的id号 取模 表的数量 然后在每个表平均的插入数据 你觉得是不是好点? 原子操作都可以不要了

Statement:
The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn