優化思路：搜索引擎算法之複製網頁

SEO優化公司 · 發表於 2016-2-19 15:12:24

引擎斷定複製網頁一般都基於這麼一個思惟：

爲每個網頁計算出一組信息指紋（Fingerprint），若兩個網頁有必定命量雷同的信息指紋，則認爲這兩個網頁的內容重疊性很高，也就是說兩個網頁是內容複製的。

很多引擎斷定內容複製的辦法都不太一樣，主如果以下兩點的不合：

1、枷⒚鶓息指紋（Fingerprint）的算法；

4、MD5(Con(Ti))=MD5(Con(Tj))並且Wi-Wj的平方除以Wi和Wj的平方之和小於某個闕值a，則認爲兩者是複製網頁。
2、斷定信息指紋的類似程度的參數。

在描述具體的算法前，先說清跋扈兩點：

1、什麼是信息指紋？

以上肯定無法覆蓋一個大年夜型引擎複製網頁的所有方面，他們必定還有一些幫助的信息指紋斷定，本文作爲一個思路，給做引擎優化的一個思路。

信息指紋就是把網頁琅綾擎正文信息，提取必定的信息，可所以關鍵字、詞、句子或者段落及其在網頁琅綾擎的權重等，對它進行加密，如MD5加密，大年夜而形成的一個字符串。信息指紋如同人的指紋，只要內容不雷同，信息指紋就不一樣。

2、算法提取的信息不是針半數張網頁

3、MD5(Sort(Ti))=MD5(Sort(Tj)),兩個網頁前n個關鍵詞一樣，權重可以不一樣，也認爲是複製網頁。

而是把網站琅綾擎合營的部分如導航條、logo、版權等信息（這些稱之爲網頁的“噪音”）過濾掉落後剩下的文本。

分段簽名算法

這種算法是按照必定的規矩把網頁切成N段，對每一段進行簽名，形成每一段的信息指紋。如不雅這N個信息指紋琅綾擎有M個雷同時（m是體系定義的闕值），則認爲兩者是複製網頁。

這種算法對於小範圍的斷定複製網頁是很好的一種算法，然則對於像google如許海量的引擎來說，算法的複雜度相當高。

基於關鍵詞典複製網頁算法

像google這類引擎，他在抓取網頁的時刻都邑記下以下網頁信息：

1、網頁中出現的關鍵詞（中文分詞技巧）以及每個關鍵詞典權重（關鍵詞密度）。

2、提取meta descrīption或者每個網頁的512個字節的有效文字。

關於第2點，baidu和google有所不合，google是提取你的meta descrīption，如不雅沒有萌芽關鍵字相幹的512個字節，而百度是直接提取後者。這一點大年夜家應用過的都有所領會。

在以下算法描述中，我們商定幾個信息指紋變量：

Pi表示第i個網頁；

該網頁權重最高的N個關鍵詞構成集合Ti={t1,t2,...tn}，其對應的權重爲Wi={w1,w2,...wi}

摘要信息用Des(Pi)表示，前n個關鍵詞拼成的字符串用Con(Ti)表示，對這n個關鍵詞排序後形成的字符串用Sort(Ti)表示。

以上信息指紋都用MD5函數進行加密。

基於關鍵詞典複製網頁算法有以下5種：

1、MD5(Des(Pi))=MD5(Des(Pj)),就是嗣魅摘要信息完全一樣，i和j兩個網頁就認爲是複製網頁。

2、MD5(Con(Ti))=MD5(Con(Tj)),兩個網頁前n個關鍵詞及其權重的排序一樣，就認爲是複製網頁。

5、MD5(Sort(Ti))=MD5(Sort(Tj))並且Wi-Wj的平方除以Wi和Wj的平方之和小於某個闕值a，則認爲兩者是複製網頁。

關於第4和第5的那個闕值a,主如果因爲前一個斷定前提下，照樣話苄很多網頁被誤傷，引擎開闢根據權重的分佈比例進行調節，防止誤傷。

這個是北大年夜天網引擎的去重算法（可以參考：《引擎--道理、技巧與體系》一書），以上5種算法運行的時刻，算法的效不雅取決於N，就是關鍵詞數量標拔取。當然啦，選的數量越多，斷定就會越精確，然則誰知而來的計算速度也會減慢下來。所以必須推敲一個計算速度和去重精確率的均衡。據天網實驗結不雅，10個閣下關鍵詞最恰當。

跋文

請作者接洽本站，及時附註您的姓名。接洽郵箱:edu#chinaz.com（把#改爲@）。

SEO外包 · 發表於 2016-8-23 14:36:33

很不錯的一家公司，服務態度很好，比較親切，很快的解決了我的問題，BOB游戏APP網絡很贊

SEO外包 · 發表於 2016-8-23 15:02:28

這個網站裏面內容做的真好。下次我做網站也要做這樣的。版面也很漂亮，跟其他人的網站看起來很獨特。

snfqp2898 · 發表於 2016-8-23 14:26:58

之前找BOB游戏APP網絡做了個企業網站，效果做得很好，而且服務也不錯，辦事的效率挺高的，處理問題方面也很迅速，值得一試！真心的！

2507684787 · 發表於 2016-8-23 14:21:26

網站製作都是按照我們客戶的要求來定製的，直到我們客戶滿意爲止，售後有保證，問題解決及時。

snfqp2898 · 發表於 2016-8-23 14:52:49

很感謝BOB游戏APP網絡的劉總和他們團隊、給我留下了很深刻的印象，希望我們接下來的合作一直愉快下去！

布魯斯科尼 · 發表於 2016-10-24 19:19:09

和BOB游戏APP網絡合作兩年多了，網站、優化都是交給他們

SEO服務 · 發表於 2016-10-24 19:25:49

之前找了一家做外貿網站做得不好後來讓BOB游戏APP網絡給重做了，做出來效果還不錯，在這裏建議可以到這家公司看看，我個人覺得技術是一方面，更加重要的是服務方面，BOB游戏APP網絡在這方面做的挺好，還幫忙上傳產品和處理產品圖片，支持一下吧

2507684787 · 發表於 2016-10-24 19:25:53

BOB游戏APP網絡公司挺大的我在他們公司做了整合營銷感覺還不錯效果蠻好服務也很好啊每週都有那個SEO報告和整合營銷報告作爲外包公司這點做得還比較細緻了給一個贊吧支持下好公司

SEO優化公司 · 發表於 2016-10-24 18:49:54

很不錯的公司，服務很全面，很細心，很多問題都處理的不錯，朋友也介紹過來了，

網站都沒優化好排名，哪來的客戶？還等什麼？

網站優化公司自己網站的優化不好怎麼能優化上客戶的網站？

現在誰還會點百度推廣？百度推廣已淪爲最低轉換率的網絡營銷模式了！

優化思路：搜索引擎算法之複製網頁

網站優化如何利用META標籤提升網站關鍵詞排

爲什麼爲了更好的SEO優化而在網站上拼命寫

如何做好網站的站內優化以及網站建設的SEO

網站如何用三個方法做到讓用戶和搜索引擎都

爲何現在較少的網站優化站外這一個非常重要

網站優化做不好怎麼辦?SEO服務分析網站優化

歸納總結網站推廣中seo優化爲何離不開多元

美麗說的SEOseo多牛

讓SEO服務更專業

關於我們

行業聚合

精彩SEO教程，快速SEO查詢

關注我們