服务器之家:专注于VPS、云服务器配置技术及软件下载分享
分类导航

Mysql|Sql Server|Oracle|Redis|MongoDB|PostgreSQL|Sqlite|DB2|mariadb|Access|数据库技术|

服务器之家 - 数据库 - Redis - Redis BloomFilter布隆过滤器原理与实现

Redis BloomFilter布隆过滤器原理与实现

2022-11-27 14:02~庞贝 Redis

你在开发或者面试过程中,有没有遇到过 海量数据需要查重,缓存穿透怎么避免等等这样的问题呢?下面这个东西超棒,好好了解下,面试过关斩将,凸显你的不一样

Bloom Filter 概念

布隆过滤器(英语:Bloom Filter)是1970年由一个叫布隆的小伙子提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。

Bloom Filter 原理

布隆过滤器的原理是,当一个元素被加入集合时,通过K个散列函数将这个元素映射成一个位数组中的K个点,把它们置为1。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检元素一定不在;如果都是1,则被检元素很可能在。这就是布隆过滤器的基本思想。

Bloom Filter跟单哈希函数Bit-Map不同之处在于:Bloom Filter使用了k个哈希函数,每个字符串跟k个bit对应。从而降低了冲突的概率

Redis BloomFilter布隆过滤器原理与实现

缓存穿透

Redis BloomFilter布隆过滤器原理与实现

每次查询都会直接打到DB

简而言之,言而简之就是我们先把我们数据库的数据都加载到我们的过滤器中,比如数据库的id现在有:1、2、3

那就用id:1 为例子他在上图中经过三次hash之后,把三次原本值0的地方改为1

下次数据进来查询的时候如果id的值是1,那么我就把1拿去三次hash 发现三次hash的值,跟上面的三个位置完全一样,那就能证明过滤器中有1的

反之如果不一样就说明不存在了

那应用的场景在哪里呢?一般我们都会用来防止缓存击穿

简单来说就是你数据库的id都是1开始然后自增的,那我知道你接口是通过id查询的,我就拿负数去查询,这个时候,会发现缓存里面没这个数据,我又去数据库查也没有,一个请求这样,100个,1000个,10000个呢?你的DB基本上就扛不住了,如果在缓存里面加上这个,是不是就不存在了,你判断没这个数据就不去查了,直接return一个数据为空不就好了嘛。

这玩意这么好使那有啥缺点么?有的,我们接着往下看

Bloom Filter的缺点

bloom filter之所以能做到在时间和空间上的效率比较高,是因为牺牲了判断的准确率、删除的便利性

存在误判,可能要查到的元素并没有在容器中,但是hash之后得到的k个位置上值都是1。如果bloom filter中存储的是黑名单,那么可以通过建立一个白名单来存储可能会误判的元素。

删除困难。一个放入容器的元素映射到bit数组的k个位置上是1,删除的时候不能简单的直接置为0,可能会影响其他元素的判断。可以采用Counting Bloom Filter

常见问题

1、为何要使用多个哈希函数?

Hash本身就会面临冲突,如果只使用一个哈希函数,那么冲突的概率会比较高。例如长度100的数组,如果只使用一个哈希函数,添加一个元素后,添加第二个元素时冲突的概率为1%,添加第三个元素时冲突的概率为2%…但如果使用两个哈希函数,添加一个元素后,添加第二个元素时冲突的概率降为万分之4(四种可能的冲突情况,情况总数100x100)

go语言实现

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
package main
import (
    "fmt"
    "github.com/bits-and-blooms/bitset"
)
//设置哈希数组默认大小为16
const DefaultSize = 16
//设置种子,保证不同哈希函数有不同的计算方式
var seeds = []uint{7, 11, 13, 31, 37, 61}
//布隆过滤器结构,包括二进制数组和多个哈希函数
type BloomFilter struct {
    //使用第三方库
    set *bitset.BitSet
    //指定长度为6
    hashFuncs [6]func(seed uint, value string) uint
}
//构造一个布隆过滤器,包括数组和哈希函数的初始化
func NewBloomFilter() *BloomFilter {
    bf := new(BloomFilter)
    bf.set = bitset.New(DefaultSize)
 
    for i := 0; i < len(bf.hashFuncs); i++ {
        bf.hashFuncs[i] = createHash()
    }
    return bf
}
//构造6个哈希函数,每个哈希函数有参数seed保证计算方式的不同
func createHash() func(seed uint, value string) uint {
    return func(seed uint, value string) uint {
        var result uint = 0
        for i := 0; i < len(value); i++ {
            result = result*seed + uint(value[i])
        }
        //length = 2^n 时,X % length = X & (length - 1)
        return result & (DefaultSize - 1)
    }
}
//添加元素
func (b *BloomFilter) add(value string) {
    for i, f := range b.hashFuncs {
        //将哈希函数计算结果对应的数组位置1
        b.set.Set(f(seeds[i], value))
    }
}
//判断元素是否存在
func (b *BloomFilter) contains(value string) bool {
    //调用每个哈希函数,并且判断数组对应位是否为1
    //如果不为1,直接返回false,表明一定不存在
    for i, f := range b.hashFuncs {
        //result = result && b.set.Test(f(seeds[i], value))
        if !b.set.Test(f(seeds[i], value)) {
            return false
        }
    }
    return true
}
func main() {
    filter := NewBloomFilter()
    filter.add("asd")
    fmt.Println(filter.contains("asd"))
    fmt.Println(filter.contains("2222"))
    fmt.Println(filter.contains("155343"))
}

输出结果如下:

true
false
false

到此这篇关于Redis BloomFilter布隆过滤器原理与实现的文章就介绍到这了,更多相关Redis BloomFilter内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家!

原文链接:https://blog.csdn.net/qq_53267860/article/details/127169993

延伸 · 阅读

精彩推荐
  • RedisCentOS系统中Redis数据库的安装配置指南

    CentOS系统中Redis数据库的安装配置指南

    Redis是一个基于主存存储的数据库,性能很强,这里我们就来看一下CentOS系统中Redis数据库的安装配置指南,包括将Redis作为系统服务运行的技巧等,需要的朋友可...

    zhoutk5282019-10-29
  • RedisRedis下载部署并加入idea应用的小结

    Redis下载部署并加入idea应用的小结

    这篇文章主要介绍了Redis下载部署并加入idea应用,需要的朋友可以参考下...

    蓝多多的小仓库10672022-11-25
  • Redisredis的2种持久化方案深入讲解

    redis的2种持久化方案深入讲解

    这篇文章主要给大家介绍了关于redis的2种持久化方案的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用redis具有一定的参考学习价值,...

    zhxiansheng2332019-11-23
  • RedisRedis集群搭建全记录

    Redis集群搭建全记录

    本文给大家总结了redis集群的概念等基础知识,以及个人在搭建redis集群是所遇到的问题及解决方法,非常的详细,有需要的小伙伴可以参考下 ...

    Ouka傅4652020-05-13
  • RedisRedis Scan命令的基本使用方法

    Redis Scan命令的基本使用方法

    这篇文章主要给大家介绍了关于Redis中Scan命令的基本使用方法,文中通过示例代码介绍的非常详细,对大家学习或者使用Redis具有一定的参考学习价值,需...

    smartsi3002020-03-01
  • RedisRedis篇:单线程 Reactor 模型

    Redis篇:单线程 Reactor 模型

    纯内存访问,所有数据都在内存中,所有的运算都是内存级别的运算,内存响应时间的时间为纳秒级别。因此 redis 进程的 cpu 基本不存在磁盘 I/O 等待时间...

    潜行前行7762022-01-04
  • RedisRedis服务器的启动过程分析

    Redis服务器的启动过程分析

    这篇文章主要介绍了Redis服务器的启动过程分析,本文讲解了初始化Redis服务器全局配置、加载配置文件、初始化服务器、加载数据、开始网络监听等内容,需...

    Redis技术网2692019-10-23
  • RedisRedis和Memcached的区别详解

    Redis和Memcached的区别详解

    这篇文章主要介绍了Redis和Memcached的区别详解,本文从各方面总结了两个数据库的不同之处,需要的朋友可以参考下 ...

    Redis教程网2062019-10-22