多进程多线程访问数据库

如何让多进程多线程访问数据库,而不会选择相同的数据,这在设计分布式程序的时候经常用到,多台机器的多个进程,每个进程都有多个线程,每个线程要从数据库里取数据来处理,要实现不能漏取数据,也不能重复取数据,这里给出答案

创建一个数据表,如下,一个自增列,一个表示rss链接地址

多进程多线程访问数据库_数据库CREATE   TABLE   [ dbo ] . [ Rss_RssSources ] (
多进程多线程访问数据库_数据库 
[ SourceId ]   [ int ]   IDENTITY ( 1 , 1 NOT   NULL ,
多进程多线程访问数据库_数据库 
[ Link ]   [ varchar ] ( 1024 NOT   NULL
多进程多线程访问数据库_数据库
ON   [ PRIMARY ]  

先放1w条数据

多进程多线程访问数据库_数据库declare   @i   int
多进程多线程访问数据库_数据库
set   @i   =   1
多进程多线程访问数据库_数据库
while   @i   < 10000
多进程多线程访问数据库_数据库
begin
多进程多线程访问数据库_数据库 
select   @i   =   @i   + 1
多进程多线程访问数据库_数据库 
insert   into   [ Rss_RssSources ]   values ( newid ())
多进程多线程访问数据库_数据库
end  

再创建一个锁表,一个字段表示是否已经锁定的资源,另一个表示已经读取的rss源的最大id

多进程多线程访问数据库_数据库create   table  Rss_RssSourceLock
多进程多线程访问数据库_数据库(
多进程多线程访问数据库_数据库IsLock 
bit ,
多进程多线程访问数据库_数据库MaxSourceId 
int
多进程多线程访问数据库_数据库)

初始化数据

多进程多线程访问数据库_数据库insert   into  Rss_RssSourceLock  values  ( 0 , 0

下面我们要设计一个存储过程,让这个存储过程每次返回10个rss源,知道返回所有的rss源,要求无遗漏,无重复返回。如下

多进程多线程访问数据库_数据库CREATE   PROCEDURE   [ dbo ] . [ USP_GetRssSources ]
多进程多线程访问数据库_数据库
AS
多进程多线程访问数据库_数据库
BEGIN
多进程多线程访问数据库_数据库
if   exists ( select   *   from  Rss_RssSourceLock  with (READPAST)  where  IsLock  =   0 )
多进程多线程访问数据库_数据库
begin
多进程多线程访问数据库_数据库 
declare   @select_count   int
多进程多线程访问数据库_数据库 
begin   tran
多进程多线程访问数据库_数据库  
update  Rss_RssSourceLock  set  IsLock  =   1
多进程多线程访问数据库_数据库
多进程多线程访问数据库_数据库  
if   object_id ( ' tempdb..#t ' is   not   null   
多进程多线程访问数据库_数据库   
drop   table  #t
多进程多线程访问数据库_数据库
多进程多线程访问数据库_数据库  
select   top   10  a. *   into  #t  from   [ Rss_RssSources ]   as  a
多进程多线程访问数据库_数据库  
inner   join  Rss_RssSourceLock  as  b
多进程多线程访问数据库_数据库  
on  a.SourceId  >  b.MaxSourceId
多进程多线程访问数据库_数据库  
order   by  a. [ SourceId ]
多进程多线程访问数据库_数据库
多进程多线程访问数据库_数据库  
select   @select_count   =   count ( * from  #t
多进程多线程访问数据库_数据库
多进程多线程访问数据库_数据库  
update  Rss_RssSourceLock  set  IsLock  =   0 ,MaxSourceId  =  MaxSourceId  +   @select_count
多进程多线程访问数据库_数据库
多进程多线程访问数据库_数据库  
select   *   from  #t
多进程多线程访问数据库_数据库 
commit   tran
多进程多线程访问数据库_数据库
end
多进程多线程访问数据库_数据库
END
多进程多线程访问数据库_数据库
多进程多线程访问数据库_数据库

1、如果锁表里显示没有进程正在读取rss源(IsLock = 0),那么就返回从最大的rss源id往后的10个rss源,否则返回空。
2、用with(READPAST)表示忽略锁住的行,如果另一个进程正在执行update Rss_RssSourceLock的语句,并且在事务提交前,update语句会锁住这些要更新的行,而Rss_RssSourceLock表就一行数据,这时候select Rss_RssSourceLock表并且忽略被锁的行肯定是没数据的,所以本次存储过程执行会返回空。
3、begin tran和commit tran保证了即使本次存储过程出错,也不会让Rss_RssSourceLock表处于IsLock = 1的脏数据状态,如果处于这种状态,后面的进程执行存储过程就永远也返回不了数据了。
4、因为有时候一次选取的记录可能不够10条,所以这里用了个临时表来暂存记录,再算出来选取的条数,最后更新Rss_RssSourceLock表的MaxSourceId字段。但用临时表肯定会增加数据库的压力,这里不知道用表变量是不是会改善性能,暂时先这样了。
5、应用里调用这个存储过程,如果返回了数据,就进行处理,如果没返回数据,就sleep几秒才执行,直到返回数据。

我测试了一下,应该没问题,俺是数据库菜鸟,有高手的话给指点指点有没有隐患和bug