将想要的状态,
以“彩色”在大脑中呈现!

标签:海量数据处理

数据结构与算法

海量数据处理 本章习题

ProMonkey阅读(248)评论(0)赞(0)

本章海量数据的习题 1有100W个关键字,长度小于等于50字节。用高效的算法找出top10的热词,并对内存的占用不超过1MB。 提示:老题,与caopengcs讨论后,得出具体思路为: 先把100W个关键字hash映射到小文件,根据题意,1...

数据结构与算法

海量数据处理 倒排索引

ProMonkey阅读(293)评论(0)赞(0)

倒排索引(Inverted index) 方法介绍 倒排索引是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射,常被应用于搜索引擎和关键字查询的问题中。 以英文为例,下面是要被索引的文本: T0 = "i...

海量数据处理 Trie树-自猿其说
数据结构与算法

海量数据处理 Trie树

ProMonkey阅读(226)评论(0)赞(0)

Trie树(字典树) 方法介绍 1.1、什么是Trie树 Trie树,即字典树,又称单词查找树或键树,是一种树形结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是最大限度地减少...

海量数据处理 Bloom filter-自猿其说
数据结构与算法

海量数据处理 Bloom filter

ProMonkey阅读(260)评论(0)赞(0)

Bloom Filter 方法介绍 一、什么是Bloom Filter Bloom Filter,被译作称布隆过滤器,是一种空间效率很高的随机数据结构,Bloom filter可以看做是对bit-map的扩展,它的原理是: 当一个元素被加入...

海量数据处理 Bitmap-自猿其说
数据结构与算法

海量数据处理 Bitmap

ProMonkey阅读(227)评论(0)赞(0)

Bitmap 方法介绍 什么是Bit-map 所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。 来看一个具体的例子,假设我们要对...

海量数据处理 MapReduce-自猿其说
数据结构与算法

海量数据处理 MapReduce

ProMonkey阅读(268)评论(0)赞(0)

分布式处理之MapReduce 方法介绍 MapReduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE)。这样做的好处是可以在任务被分解后,可以通过大量机器进行并行计算,减...

数据结构与算法

海量数据处理 多层划分

ProMonkey阅读(231)评论(0)赞(0)

多层划分 方法介绍 多层划分法,本质上还是分而治之的思想,因为元素范围很大,不能利用直接寻址表,所以通过多次划分,逐步确定范围,然后最后在一个可以接受的范围内进行。 问题实例 1、2.5亿个整数中找出不重复的整数的个数,内存空间不足以容纳这...

数据结构与算法

海量数据处理 外排序

ProMonkey阅读(213)评论(0)赞(0)

外排序 方法介绍 所谓外排序,顾名思义,即是在内存外面的排序,因为当要处理的数据量很大,而不能一次装入内存时,此时只能放在读写较慢的外存储器(通常是硬盘)上。 外排序通常采用的是一种“排序-归并”的策略。 在排序阶段,先读入能放在内存中的数...

海量数据处理 simhash算法-自猿其说
数据结构与算法

海量数据处理 simhash算法

ProMonkey阅读(242)评论(0)赞(0)

simhash算法 方法介绍 背景 如果某一天,面试官问你如何设计一个比较两篇文章相似度的算法?可能你会回答几个比较传统点的思路: 一种方案是先将两篇文章分别进行分词,得到一系列特征向量,然后计算特征向量之间的距离(可以计算它们之间的欧氏距...

聚合实用在线工具

前往在线工具