溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

怎么從100億URL中找出相同的URL

發布時間：2022-01-15 13:58:00 來源：億速云閱讀：146 作者：iii 欄目：大數據

這篇文章主要介紹“怎么從100億URL中找出相同的URL”，在日常操作中，相信很多人在怎么從100億URL中找出相同的URL問題上存在疑惑，小編查閱了各式資料，整理出簡單好用的操作方法，希望對大家解答”怎么從100億URL中找出相同的URL”的疑惑有所幫助！接下來，請跟著小編一起來學習吧！

題目描述

給定 a、b 兩個文件，各存放 50 億個 URL，每個 URL 各占 64B，內存限制是 4G。請找出 a、b 兩個文件共同的 URL。

解答思路

每個 URL 占 64B，那么 50 億個 URL占用的空間大小約為 320GB。

5, 000, 000, 000 * 64B ≈ 5GB * 64 = 320GB

由于內存大小只有 4G，因此，我們不可能一次性把所有 URL 加載到內存中處理。對于這種類型的題目，一般采用分治策略，即：把一個文件中的 URL 按照某個特征劃分為多個小文件，使得每個小文件大小不超過 4G，這樣就可以把這個小文件讀到內存中進行處理了。

思路如下：

首先遍歷文件 a，對遍歷到的 URL 求 hash(URL) % 1000 ，根據計算結果把遍歷到的 URL 存儲到 a0, a1, a2, ..., a999，這樣每個大小約為 300MB。使用同樣的方法遍歷文件 b，把文件 b 中的 URL 分別存儲到文件 b0, b1, b2, ..., b999 中。

這樣處理過后，所有可能相同的 URL 都在對應的小文件中，即 a0 對應 b0, ..., a999 對應 b999，不對應的小文件不可能有相同的 URL。那么接下來，我們只需要求出這 1000 對小文件中相同的 URL 就好了。

接著遍歷 ai( i∈[0,999] )，把 URL 存儲到一個 HashSet 集合中。然后遍歷 bi 中每個 URL，看在 HashSet 集合中是否存在，若存在，說明這就是共同的 URL，可以把這個 URL 保存到一個單獨的文件中。

到此，關于“怎么從100億URL中找出相同的URL”的學習就結束了，希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習，快去試試吧！若想繼續學習更多相關知識，請繼續關注億速云網站，小編會繼續努力為大家帶來更多實用的文章！

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
如何解決Xilinx 7系列時鐘輸入的差分相關問題
下一篇新聞：
springboot整合quartz定時任務框架的方法是什么

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女