Recent Posts

Hadoop

less than 1 minute read

简介 Hadoop是一个开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它的设计是从单个服务器扩展到数千个机器,每个都提供本地计算和存储 适合 大规模数据 流式数据(写一次,读多次) 商用硬件(一般硬件)

HyperLogLog算法

less than 1 minute read

HyperLogLog简介 HyperLogLog算法简称HLL,作用是提供不精确的去重计数。存在以下特点: 代码实现较难 能够使用极少的内存统计巨量数据。例:在Redis中实现的HyperLogLog,仅需12K内存就能统计 **264** 条数据 计数存在一定误差,且误差率整体较低。标准误差为 ...

快速幂取模

less than 1 minute read

原理讲解 幂取模即求 $a^b \% mod$。 最基础的方法是可以通过循环累乘,最后取模,时间复杂度为O(n)

ZooKeeper

less than 1 minute read

ZooKeeper是一个分布式的开源分布式应用程序协调服务,是Google的Chubby的一个开源实现,Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等

布隆过滤器 Bloom Filter

less than 1 minute read

由一个很长的二进制向量和一系列随机映射函数组成。布隆过滤器可用于检索一个元素是否在一个集合里