只需三步,Google 講述搜索奧秘
互聯網搜索是一個永恆的話題,只要我們存在於這個數字化的世界,搜索需求就會實時存在。雖然我們每天都在用搜索,但對於它的工作原理,除非是專業人士,還很難懂得其中的奧秘。為此,Google 在 3 月 1 日上線了一張巨幅的圖譜,講述了 Google 搜索的工作原理。圖譜簡潔清晰,還伴有動畫,如果對搜索感興趣,那麼可以好好看看這幅圖。
Google 分三部分講述整個過程,分別是抓取和索引、算法公式、去除垃圾網站。在第一步中,Google 先建立索引,應用爬蟲通過超鏈抓取網站,一旦被爬蟲抓取,頁面幾秒內就被索引。用戶搜索時並不是檢索實時更新的萬維網,而是檢索 Google 的緩存,只不過 Google 的緩存也在快節奏的更新,保證最新的索引內容。
第二步則是計算用戶輸入的關鍵詞。先要識別拼寫是否正確,給出備用方案,還要分析多義詞等。搜索詞的處理必須十分快速,然後從索引中抽取緩存數據,將結果呈現出來,當然,結果的呈現要經過十分重要的一步:計算 PageRank 值。通過調整 PageRank 值是搜索變現的一個基本方式。
最後,Google 還要和垃圾網站作鬥爭,剔除無用的搜索,提升搜索質量。
雖然要經過三步,但整個過程不到 1 秒就完成了。也就是這短短的不到 1 秒,造就了互聯網的技術和商業神話,支撐起 Google 每年數百億美元的收入。
看完圖譜,在網頁的最下方,計算了你打開此網頁的時間內,已經響應了的搜索次數。我算了一下,平均下來大約是 3.8 萬次每秒,每天約為 33 億次,搜索已經深入互聯網的骨髓,感興趣的朋友趕緊去看看吧。
其實谷歌以前就做了很多類似的產品講解圖,包括 Knowledge Graph 、Search by Image、Instant Pages 等,點擊這裡可以查看聚合頁面。
資料來源:ifanr
Google 分三部分講述整個過程,分別是抓取和索引、算法公式、去除垃圾網站。在第一步中,Google 先建立索引,應用爬蟲通過超鏈抓取網站,一旦被爬蟲抓取,頁面幾秒內就被索引。用戶搜索時並不是檢索實時更新的萬維網,而是檢索 Google 的緩存,只不過 Google 的緩存也在快節奏的更新,保證最新的索引內容。
第二步則是計算用戶輸入的關鍵詞。先要識別拼寫是否正確,給出備用方案,還要分析多義詞等。搜索詞的處理必須十分快速,然後從索引中抽取緩存數據,將結果呈現出來,當然,結果的呈現要經過十分重要的一步:計算 PageRank 值。通過調整 PageRank 值是搜索變現的一個基本方式。
最後,Google 還要和垃圾網站作鬥爭,剔除無用的搜索,提升搜索質量。
雖然要經過三步,但整個過程不到 1 秒就完成了。也就是這短短的不到 1 秒,造就了互聯網的技術和商業神話,支撐起 Google 每年數百億美元的收入。
看完圖譜,在網頁的最下方,計算了你打開此網頁的時間內,已經響應了的搜索次數。我算了一下,平均下來大約是 3.8 萬次每秒,每天約為 33 億次,搜索已經深入互聯網的骨髓,感興趣的朋友趕緊去看看吧。
其實谷歌以前就做了很多類似的產品講解圖,包括 Knowledge Graph 、Search by Image、Instant Pages 等,點擊這裡可以查看聚合頁面。
資料來源:ifanr