飞道的博客

C语言实现用堆解决 TOP-K 问题

528人阅读  评论(0)

目录

TopK函数实现

如何测试

完整源码 


生活中我们经常能见到TopK问题,例如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。

所以,TopK问题即求出一组数据中前K个最大或最小的元素,一般情况下,数据量都比较大。

对于TopK问题,我们首先想到的可能是排序,对数据排好序以后,取前K个元素。但是,面对庞大的数据量时,排序并不适用,因为加载庞大的数据到内存中是个不小的消耗。

所以,对于TopK问题,最佳的解决方式是用堆

思路如下:

1.取数据前K个元素来建堆;

若要求前K个最大的元素,则建小堆;

若要求前K个最小的元素,则建大堆;

2.用剩余的N-K个元素依次与堆顶元素进行比较,若大于堆顶元素,则赋值给堆顶元素,并向下调整。(取前K个最小元素则是小于)。

将剩余N-K个元素依次与堆顶元素比较完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素。

此算法的时间复杂度为 O(N*log K)

TopK函数实现


  
  1. void PrintTopK(int* a, int n, int k)
  2. {
  3. Heap hp;
  4. //初始化堆
  5. HeapInit(&hp);
  6. //对数组的前K个元素进行建堆
  7. HeapCreate(&hp, a, k);
  8. //依次比较剩余N-K个元素与堆顶元素
  9. for ( int i = k; i < n; i++)
  10. {
  11. if (a[i] > hp.a[ 0])
  12. {
  13. //若大于则赋值
  14. hp.a[ 0] = a[i];
  15. }
  16. //向下调整
  17. AdjustDown(hp.a, k, 0);
  18. }
  19. //打印堆中的K个元素,即为TopK的元素
  20. for ( int i = 0; i < k; i++)
  21. {
  22. printf( "%d ", hp.a[i]);
  23. }
  24. }

如何测试

生成1000个小于1000000的随机数,将其中10个修改为大于1000000的数,若程序执行后可以得到这10个数,即测试成功。


  
  1. void TestTopk()
  2. {
  3. int n = 10000;
  4. int* a = ( int*) malloc( sizeof( int) * n);
  5. srand( time( 0));
  6. for ( size_t i = 0; i < n; ++i)
  7. {
  8. a[i] = rand() % 1000000;
  9. }
  10. a[ 5] = 1000000 + 1;
  11. a[ 1231] = 1000000 + 2;
  12. a[ 531] = 1000000 + 3;
  13. a[ 5121] = 1000000 + 4;
  14. a[ 115] = 1000000 + 5;
  15. a[ 2335] = 1000000 + 6;
  16. a[ 9999] = 1000000 + 7;
  17. a[ 76] = 1000000 + 8;
  18. a[ 423] = 1000000 + 9;
  19. a[ 3144] = 1000000 + 10;
  20. PrintTopK(a, n, 10);
  21. }

结果如下:

完整源码 

若对堆的知识不太了解,没关系,这里为你准备了简要但透彻的堆的讲解⇢二叉树的顺序结构——堆的概念&&实现(图文详解+完整源码 | C语言版)


  
  1. #include<stdio.h>
  2. #include<stdlib.h>
  3. #include<assert.h>
  4. #include<string.h>
  5. #include<stdbool.h>
  6. typedef int HPDataType;
  7. typedef struct Heap
  8. {
  9. HPDataType* a; //存储数据
  10. int size; //堆有效数据的大小
  11. int capacity; //堆的容量
  12. }Heap;
  13. //给出一个数组,对它进行建堆
  14. void HeapCreate(Heap* php, HPDataType* a, int n);
  15. //堆的初始化
  16. void HeapInit(Heap* php);
  17. //对申请的内存释放
  18. void HeapDestroy(Heap* php);
  19. //添加数据
  20. void HeapPush(Heap* php, HPDataType data);
  21. //删除数据
  22. void HeapPop(Heap* php);
  23. //向上调整算法
  24. void AdjustUp(HPDataType* a, int child);
  25. //向下调整算法
  26. void AdjustDown(HPDataType* a, int n, int parent);
  27. //打印堆的数据
  28. void HeapPrint(Heap* php);
  29. //判断堆是否为空
  30. bool HeapEmpty(Heap* php);
  31. //返回堆的大小
  32. int HeapSize(Heap* php);
  33. //返回堆顶的数据
  34. HPDataType HeapTop(Heap* php);
  35. //交换函数
  36. void Swap(HPDataType* p1, HPDataType* p2);
  37. void PrintTopK(int* a, int n, int k)
  38. {
  39. Heap hp;
  40. HeapInit(&hp);
  41. //对数组的前K个元素进行建堆
  42. HeapCreate(&hp, a, k);
  43. //依次比较剩余N-K个元素与堆顶元素
  44. for ( int i = k; i < n; i++)
  45. {
  46. if (a[i] > hp.a[ 0])
  47. {
  48. //若大于则赋值
  49. hp.a[ 0] = a[i];
  50. }
  51. //向下调整
  52. AdjustDown(hp.a, k, 0);
  53. }
  54. //打印堆中的K个元素,即为TopK的元素
  55. for ( int i = 0; i < k; i++)
  56. {
  57. printf( "%d ", hp.a[i]);
  58. }
  59. }
  60. void TestTopk()
  61. {
  62. int n = 10000;
  63. int* a = ( int*) malloc( sizeof( int) * n);
  64. srand( time( 0));
  65. for ( size_t i = 0; i < n; ++i)
  66. {
  67. a[i] = rand() % 1000000;
  68. }
  69. a[ 5] = 1000000 + 1;
  70. a[ 1231] = 1000000 + 2;
  71. a[ 531] = 1000000 + 3;
  72. a[ 5121] = 1000000 + 4;
  73. a[ 115] = 1000000 + 5;
  74. a[ 2335] = 1000000 + 6;
  75. a[ 9999] = 1000000 + 7;
  76. a[ 76] = 1000000 + 8;
  77. a[ 423] = 1000000 + 9;
  78. a[ 3144] = 1000000 + 10;
  79. PrintTopK(a, n, 10);
  80. }
  81. int main()
  82. {
  83. TestTopk();
  84. return 0;
  85. }
  86. void HeapCreate(Heap* php, HPDataType* a, int n)
  87. {
  88. assert(php);
  89. php->a = (HPDataType*) malloc( sizeof(HPDataType) * n);
  90. if (php->a == NULL)
  91. {
  92. perror( "malloc fail");
  93. exit( -1);
  94. }
  95. //将数组的内容全部拷贝到堆中
  96. memcpy(php->a, a, sizeof(HPDataType) * n);
  97. php->size = php->capacity = n;
  98. //建堆算法
  99. for ( int i = (n - 1 - 1) / 2; i >= 0; i--)
  100. {
  101. AdjustDown(php->a, n, i);
  102. }
  103. }
  104. void HeapInit(Heap* php)
  105. {
  106. assert(php);
  107. php->a = NULL;
  108. php->size = php->capacity = 0;
  109. }
  110. void HeapPrint(Heap* php)
  111. {
  112. assert(php);
  113. for ( int i = 0; i < php->size; i++)
  114. {
  115. printf( "%d ", php->a[i]);
  116. }
  117. }
  118. void HeapDestroy(Heap* php)
  119. {
  120. assert(php);
  121. free(php->a);
  122. php->a = NULL;
  123. php->capacity = php->size = 0;
  124. }
  125. void HeapPush(Heap* php, HPDataType data)
  126. {
  127. assert(php);
  128. //如果容量不足就扩容
  129. if (php->size == php->capacity)
  130. {
  131. int newCapacity = php->capacity == 0 ? 4 : php->capacity * 2;
  132. HPDataType* tmp = (HPDataType*) realloc(php->a, sizeof(HPDataType) * newCapacity);
  133. if (tmp == NULL)
  134. {
  135. perror( "realloc fail");
  136. exit( -1);
  137. }
  138. php->a = tmp;
  139. php->capacity = newCapacity;
  140. }
  141. //添加数据
  142. php->a[php->size] = data;
  143. php->size++;
  144. //将新入堆的data进行向上调整
  145. AdjustUp(php->a, php->size - 1);
  146. }
  147. void HeapPop(Heap* php)
  148. {
  149. assert(php);
  150. assert(php->size > 0);
  151. //将堆顶的数据与堆尾交换
  152. Swap(&php->a[ 0], &php->a[php->size - 1]);
  153. php->size--;
  154. //将此时堆顶的data向下调整
  155. AdjustDown(php->a, php->size, 0);
  156. }
  157. void AdjustDown(HPDataType* a, int n, int parent)
  158. {
  159. assert(a);
  160. //先默认较大的为左孩子
  161. int child = parent * 2 + 1;
  162. while (child < n)
  163. {
  164. //如果右孩子比左孩子大,就++
  165. if (a[child] > a[child + 1] && child + 1 < n)
  166. {
  167. child++;
  168. }
  169. //建大堆用'>',小堆用'<'
  170. if (a[child] < a[parent])
  171. {
  172. Swap(&a[child], &a[parent]);
  173. parent = child;
  174. child = parent * 2 + 1;
  175. }
  176. else
  177. {
  178. break;
  179. }
  180. }
  181. }
  182. void AdjustUp(HPDataType* a, int child)
  183. {
  184. int parent = (child - 1) / 2;
  185. while (child > 0)
  186. {
  187. //建大堆用'>',小堆用'<'
  188. if (a[child] > a[parent])
  189. {
  190. Swap(&a[child], &a[parent]);
  191. child = parent;
  192. parent = (child - 1) / 2;
  193. }
  194. else
  195. {
  196. break;
  197. }
  198. }
  199. }
  200. HPDataType HeapTop(Heap* php)
  201. {
  202. assert(php);
  203. assert(php->size > 0);
  204. return php->a[ 0];
  205. }
  206. int HeapSize(Heap* php)
  207. {
  208. assert(php);
  209. return php->size;
  210. }
  211. bool HeapEmpty(Heap* php)
  212. {
  213. assert(php);
  214. return !php->size;
  215. }
  216. void Swap(HPDataType* p1, HPDataType* p2)
  217. {
  218. HPDataType tmp = *(p1);
  219. *(p1) = *(p2);
  220. *(p2) = tmp;
  221. }


转载:https://blog.csdn.net/gllll_yu/article/details/129171498
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场