齊寧:搜索引擎知識 網頁查重技術

[複製鏈接]
查看: 3580|回覆: 20

1584

主題

1萬

回帖

5萬

積分

管理員

Rank: 9Rank: 9Rank: 9

積分
58749
發表於 2016-2-23 15:57:19 | 顯示全部樓層 |
網頁查重技巧來源竽暌冠複製檢陳技巧,即斷定一個文件內容是否存在抄襲、複製別的一個或多個文件的技巧。


  1993年Arizona大年夜學的Manber(Google現副總裁、工程師)推出了一個sif對象,尋找類似文件。1995年Stanford大年夜學的Brin(Sergey Brin,Google開創人之一)和Garcia-Molina等人在“數字圖書不雅”工程中初次提出文本複製檢測機制COPS(Copy Protection System)體系與響應算法[Sergey Brin et al 1995]。之後這種檢測反覆技巧被應用到引擎中,根本的核心技巧既比較類似。


  網頁和R單的文檔不合,網頁的特別屬性具有內容和格局等標記,是以在內容和格局上的雷同類似構成了4種網頁類似的類型。
1、兩個頁面內容格局完全雷同。
2、兩個頁面內容雷同,但格局不合。
3、兩個頁面部分內容雷同並且格局雷同。
4、兩個頁面部分重要雷同但格局不合。


實現辦法:


網頁查重,起首將網頁整頓成爲一個具有標題和正文的文檔,來便利查重。所以網頁查重又叫“文檔查重”。“文檔查重”一般被分爲三個步調,一、特點採取。二、類似度計算和評價。三、消重。


1.特點採取
我們在斷定類似物的時刻,一般是才能用不變的特點進行比較,文件查重第一步也是進行特點採取。也就是將文檔內容分化,由若幹構成文檔的特點集合表示,這一步是爲了方面後面的特點比較計算類似度。
特點採取有很多辦法,我們這裏重要說兩種比較經典的算法,“I-Match算法”、“Shingle算法”。
“I-Match算法”是不依附於完全的信息分析,而是應用數據集合的統計特點來採取文檔的重要特點,將非重要特點擯棄。
“Shingle算法”經由過程採取多個特點詞彙,比較兩個特點集合的類似程度實現文檔查重。


                                                               
2.類似度計算和評價
  對於引擎來說,反覆的網頁內容是異常有害的。反覆網頁的存在意味着這些網頁就要被引擎多處理一次。更有害的是引擎的索引製造中可能會在索引庫裏索引兩份雷同的網頁。當有人萌芽時,在結不雅中就會出現反覆的網頁鏈接。所以無論是大年夜體驗照樣體系效力檢索質量來嗣魅這些重負網頁都是有害處的。


特點採取完畢後,就須要進行特點比較,因網頁查重第二步就是類似度計算和評價。
I-Match算法的特點只有一個,當輸入一篇文檔,根據詞彙的IDF值(逆文本頻率指數,Inverse document frequency縮寫爲IDF)過濾出一些關鍵特點,即一篇文┞仿中特別高和特別低頻的詞彙往往不克不及反竽暌功這篇文┞仿的本質。是以經由過程文檔中去掉落高頻和低頻詞彙,並且計算出這篇文檔的獨一的Hash值(Hash簡單的說就是把數據值映射爲地址。把數據值作爲輸入,經計算後即可獲得地址值。),那些Hash值雷同的文檔就是反覆的。


Shingle算法是採取多個特點進行比較,所以處理起來比較複雜一些,比較的辦法是完全一致的Shingle個數。然後除以兩個文檔的Shingle總數減去一致的Shingle個數,這種辦法計算出的數值爲“Jaccard 係數”,它可以斷定集合的類似度。Jaccard 係數的計算辦法集合的交集除以集合的並集。


3.消重
   對於刪除反覆內容,引擎推敲到浩瀚收錄身分,所以應用了最簡單的最實用的辦法。先被爬蟲抓取的頁面同時很大年夜程度也包管了優先保存原創網頁。


   網頁查重工作是體系中弗成缺氨贍,刪除了反覆的頁面,所以引擎的其他環節也會削減很多不須要的麻煩,節儉了索引存儲空間、削減了萌芽成本、進步了PageRank枷⒚效力。便利了引擎用戶。


本文首發 齊寧收集營銷策劃 www.qi-ning.com 轉載請註明作者信息。感謝!
齊寧 MSN: i@qining.org
回覆

0

主題

1萬

回帖

4萬

積分

論壇元老

Rank: 8Rank: 8

積分
44163
發表於 2016-8-17 06:58:52 | 顯示全部樓層
我們公司的項目就是在BOB游戏APP網絡公司做的,一家很負責的公司,一些問題都會考慮的很好。很尊重我們這些客戶的意見。
回覆 支持 反對

0

主題

1萬

回帖

4萬

積分

論壇元老

Rank: 8Rank: 8

積分
44163
發表於 2016-8-17 07:18:04 | 顯示全部樓層
與深圳BOB游戏APP網絡合作了快一年的時間,將我公司網絡推廣的業務交給了他們,我們是做快速消費品食品行業的,開發意向度高的新客戶是我們的生命線之一,他們給我做的關鍵詞“深圳糖果批發”、“果凍採購哪家好”像這樣的都排在了百度首頁,3個月時間,果然和合同上的時間一致。每天都能保證有意向的詢盤,去年12月份一個意向客戶訂單12萬。
回覆 支持 反對

0

主題

1萬

回帖

3萬

積分

論壇元老

Rank: 8Rank: 8

積分
31847
發表於 2016-8-17 07:28:04 | 顯示全部樓層
這家整合營銷做的非常不錯,關鍵詞非常穩定,給我們帶了很多有效的客戶,非常感謝BOB游戏APP網絡。
回覆 支持 反對

0

主題

1萬

回帖

4萬

積分

論壇元老

Rank: 8Rank: 8

積分
44163
發表於 2016-8-17 07:10:47 | 顯示全部樓層
他們的營銷型網站做的非常不錯,服務也很好。第一推薦的哦。可以去盯下。
回覆 支持 反對

1584

主題

1萬

回帖

5萬

積分

管理員

Rank: 9Rank: 9Rank: 9

積分
58749
 樓主| 發表於 2016-8-17 07:50:05 | 顯示全部樓層
我談過的合作對象有好幾家,但是這家的服務態度是最好的,在技術不變的基礎上,我更願意跟服務態度好的合作
回覆 支持 反對

0

主題

406

回帖

812

積分

高級會員

Rank: 4

積分
812
發表於 2021-2-24 04:35:53 | 顯示全部樓層
濟南專業網站優化公司
回覆 支持 反對

0

主題

410

回帖

820

積分

高級會員

Rank: 4

積分
820
發表於 2021-2-24 16:06:38 | 顯示全部樓層
霍城網站優化公司
回覆 支持 反對

0

主題

414

回帖

828

積分

高級會員

Rank: 4

積分
828
發表於 2021-2-25 02:40:04 | 顯示全部樓層
網站建設優化公司
回覆 支持 反對

0

主題

386

回帖

772

積分

高級會員

Rank: 4

積分
772
發表於 2021-2-25 18:03:40 | 顯示全部樓層
上海寶山網站seo優化公司
回覆 支持 反對

您需要登錄後纔可以回帖 登錄 | 立即註冊

本版積分規則

精彩推薦

網站優化如何利用META標籤提升網站關鍵詞排

2017-07-04 陝西

爲什麼爲了更好的SEO優化而在網站上拼命寫

2018-02-27 泰安

如何做好網站的站內優化以及網站建設的SEO

2018-02-27 淄博

網站如何用三個方法做到讓用戶和搜索引擎都

2018-02-27 青島

爲何現在較少的網站優化站外這一個非常重要

2018-02-27 菏澤

網站優化做不好怎麼辦?SEO服務分析網站優化

2017-06-23 海南

歸納總結網站推廣中seo優化爲何離不開多元

2018-02-27 日照

美麗說的SEOseo多牛

2016-06-07 四平

讓SEO服務更專業

  • 拓客網絡服務有限公司
  • 客服電話:13410526041
  • 深圳市南山區西麗硅谷
    大學城創業園C區117

精彩SEO教程,快速SEO查詢

關注我們

Copyright 福建SEO優化  Powered by©拓客網絡優化公司  技術支持:福建SEO優化服務公司