網站重複內容的8個原因和對應解決方案
什麼是重複內容?
重複內容是在網絡上的多個 URL 上的相同內容。因為不止一個 URL顯示相同的內容,搜索引擎不知道哪個URL 在搜索結果中列出得更高。因此,他們可能會將這兩個 URL 排名較低,並優先考慮其他網頁。
為什麼要防止網站上的重複內容?
重複內容意味著類似的內容出現在網絡上的多個位置 (URL),因此搜索引擎不知道在搜索結果中顯示哪個 URL。這會損害網頁的排名,而且當人們開始鏈接到相同內容的不同版本時,問題只會變得更糟。
另外,如果您的內容非常稀薄,並且結合了逐字複製的內容,甚至可能會因試圖欺騙用戶而面臨 Google 的手動操作懲罰。
導致出現重複內容的原因有哪些?
1. 技術人員對URL的誤解導致的重複內容
由於開發人員不像瀏覽器甚至用戶那樣思考,更不用說搜索引擎蜘蛛了。以http://www.example.com/keyword-x/和http://www.example.com/article-category/keyword-x/為例,如果你問開發者,他們會說它只存在一次。在開發者看來,該文章的唯一標識符是該文章在數據庫中的 ID,而不是 URL。但是對於搜索引擎來說,URL 是一段內容的唯一標識符。所以需要你像開發人員解釋清楚這一點,甚至可以為他們提供解決方案。
2. 會話ID導致的URL重複
會話是訪問者在您的網站上所做操作的簡要歷史記錄,包含諸如購物車中的物品之類的內容。為了使訪問者從一個頁麵點擊到另一個頁面時保持該會話,該會話的唯一標識符(稱為會話 ID)需要存儲在某處。最常見的解決方案是使用 cookie 來實現。但是,搜索引擎通常不存儲 cookie。
此時,某些系統會退回到在 URL 中使用會話 ID。這意味著網站上的每個內部鏈接都會將該會話 ID 添加到其 URL,並且由於該會話 ID 對於該會話是唯一的,因此它會創建一個新 URL,因此會重複內容。
3. 用於跟踪和排序的 URL 參數
重複內容的另一個原因是使用不會更改頁面內容的 URL 參數,例如在跟踪鏈接中。你看,對一個搜索引擎來說,http://www.example.com/keyword-x/和http://www.example.com/keyword-x/?source=rssURL 是不一樣的。後者可能使您可以跟踪人們的來源,但也可能使您更難獲得良好的排名-這是非常不希望的副作用!
當然,這不僅僅適用於跟踪參數。它適用於您可以添加到不會更改重要內容的 URL 的每個參數,無論該參數是用於“更改一組產品的排序”還是“顯示另一個側邊欄”:所有這些都會導致重複內容。
4. 抓取工具和內容聯合
其他網站使用抓取工具抓取使用或手動複製您的內容,不論你是否同意。當它們不鏈接到您的原始文章時,搜索引擎必須處理同一篇文章的另一個版本。此時您的網站越受歡迎,您將獲得越多的抓取工具,從而使這個問題變得越來越大。
5. 參數順序
另一個常見的原因是 CMS 不使用乾淨整潔的 URL,而是使用類似 的 URL /?id=1&cat=2,其中 ID 指的是文章,cat 指的是類別。 URL/?cat=2&id=1將在大多數網站系統中呈現相同的結果,但對於搜索引擎來說它們是完全不同的。
6. 評論分頁
在WordPress 以及其他一些系統中,可以選擇對您的評論進行分頁。這導致內容在文章 URL 中重複,文章 URL + /comment-page-1/、/comment-page-2/ 等。
7. 適合打印的頁面
如果您的內容管理系統創建了適合打印的頁面,並且您從文章頁面鏈接到這些頁面,那麼 Google 通常會找到它們,除非您特別阻止它們。您希望 Google 顯示哪個版本?帶有您的廣告和周邊內容的那個,還是只顯示您的文章的那個?
8. WWW 與非 WWW
當您的網站的兩個版本都可以訪問時,WWW 與非 WWW 重複內容。另一種不太常見但我也見過的情況是 HTTP 與HTTPS重複內容,兩者都提供相同的內容。
使用 Google 運算符來發現您的網站或內容是否存在重複內容問題
1. example.com intitle:“關鍵字 X”
此運算符可以用來識別你網站上包含關鍵字 X 文章的所有 URL
站點:example.com intitle:“關鍵字 X”
Google 將向您顯示 example.com 上包含該關鍵字的所有頁面。您對查詢的該部分進行的越具體,就越intitle容易清除重複的內容。
2.intitle:”關鍵字 X – 為什麼它很棒”
此運算符可以來識別網絡上的重複內容。
Google 會為您提供與該標題匹配的所有網站。有時甚至值得從你的文章中搜索一兩個完整的句子,因為一些爬蟲可能會改變標題。
避免上述重複內容的簡單修復方法有哪些?
您的 URL 中是否有會話 ID?
這些通常可以在您的系統設置中禁用。
你有重複的打印友好頁面嗎?
這些是完全沒有必要的:您應該只使用打印樣式表。
您是否在 WordPress 中使用評論分頁?
您應該在 99% 的網站上禁用此功能(在設置 » 討論下)。
你的參數順序不同嗎?
告訴您的程序員構建一個腳本以始終以相同的順序放置參數(這通常稱為 URL 工廠)。
是否存在跟踪鏈接問題?
在大多數情況下,您可以使用基於hash tag的活動跟踪,而不是基於參數的活動跟踪。
您有 WWW 與非 WWW 的問題嗎?
選擇一個並通過將一個重定向到另一個來堅持下去 。您還可以在 Google 網站管理員工具中設置首選項,但您必須聲明兩個版本的域名。
重複內容的實用解決方案有哪些?
需要確認內容的規範 URL,告知谷歌哪個是規範化的URL, 有四種解決重複內容問題的方法,按優先順序排列:
1. 不創建重複的內容
2. 將重複內容重定向到規範 URL
3. 向重複頁面添加規範鏈接元素
4. 將重複頁面的 HTML 鏈接添加到規範頁面