防止在 WordPress 中抓取博客內容的初學者指南
已發表: 2023-03-09您是否正在尋找一種方法來防止垃圾郵件發送者和詐騙者使用內容抓取工具竊取您的 WordPress 博客文章?
作為網站所有者,看到有人在未經許可的情況下竊取您的內容,將其貨幣化,在 Google 中的排名超過您,並竊取您的觀眾,這是非常令人沮喪的。
在本文中,我們將介紹什麼是博客內容抓取,如何減少和防止內容抓取,甚至如何利用內容抓取來為自己謀取利益。
什麼是 WordPress 中的博客內容抓取?
博客內容抓取是指從多個來源獲取內容並在另一個站點上重新發布。 通常,這是通過您博客的 RSS 提要自動完成的。
不幸的是,以這種方式竊取您的 WordPress 博客內容非常容易且非常普遍。 如果它發生在你身上,那麼你就會明白它會帶來多大的壓力和沮喪。
有時,您的內容將被簡單地複制並直接粘貼到另一個網站,包括您的格式、圖像、視頻等。
其他時候,您的內容將在未經您許可的情況下重新發布,並附上署名和返回您網站的鏈接。 雖然這可以幫助您的 SEO,但您可能希望僅將原始內容託管在您的網站上。
為什麼內容抓取器會竊取內容?
我們的一些用戶問我們為什麼爬蟲正在竊取內容。 通常,內容盜竊的主要動機是從您的辛勤工作中獲利:
- 聯盟佣金:不誠實的聯盟營銷商可能會使用您的內容通過搜索引擎為他們的網站帶來流量,以推廣他們的利基產品。
- 潛在客戶生成:律師和房地產經紀人可能會花錢請人添加內容並在他們的社區中獲得權威,卻沒有意識到它正在從其他來源中獲取。
- 廣告收入:博客所有者可能會抓取內容以“為了社區的利益”在特定的利基市場創建知識中心,然後在網站上貼上廣告。
是否有可能完全防止內容抓取?
在本文中,我們將向您展示一些可以用來減少和防止內容抓取的步驟。 但不幸的是,沒有辦法完全阻止一個堅定的小偷。
這就是為什麼我們在本文的最後一節介紹瞭如何利用內容抓取工具。 雖然您不能總是阻止小偷,但您可以通過他們從您那裡偷走的內容獲得一些流量和收入。
當您發現有人抓取了您的內容時,您應該怎麼做?
由於不可能完全阻止爬蟲,您可能有一天會發現有人正在使用他們從您的博客中竊取的內容。 您可能想知道發生這種情況時該怎麼辦。
以下是人們在處理內容抓取工具時採用的一些方法:
- 什麼都不做:你可能會花很多時間與爬蟲作鬥爭,所以一些受歡迎的博主決定什麼也不做。 谷歌已經將知名網站視為權威,但較小的網站並非如此。 所以我們認為這種方法並不總是最好的。
- 撤下:在這裡您可以聯繫刮板並要求他們撤下內容。 如果他們拒絕,則您提交刪除通知。 您可以在我們的指南中了解如何輕鬆查找和刪除 WordPress 中被盜的內容。
- 利用優勢:雖然我們積極致力於從 WPBeginner 中刪除內容,但我們也使用一些技術來獲取流量並從爬蟲中賺錢。 您可以在下面的“利用內容抓取工具”部分了解如何操作。
話雖如此,讓我們來看看如何防止 WordPress 中的博客抓取。 由於這是一份綜合指南,我們提供了一個目錄以便於導航。
- 版權或商標您博客的名稱和徽標
- 讓你的 RSS 提要更難抓取
- 禁用引用通告和 Pingback
- 阻止 Scraper 訪問您的 WordPress 網站
- 防止 WordPress 中的圖像盜用
- 不鼓勵手動複製您的內容
- 利用內容抓取工具
1.版權或商標您的博客名稱和徽標
商標和版權法保護您的知識產權、品牌和業務免受許多法律挑戰。 這包括非法使用您的受版權保護的材料或您的品牌名稱和徽標。
您應該在您的網站上清楚地顯示版權聲明。 雖然您的內容自動受版權法保護,但顯示通知會讓您知道您的內容受版權保護,他們不能將您受保護的財產用於商業用途。
例如,您可以在 WordPress 頁腳中添加帶有動態日期的版權聲明。 這將使您的版權聲明保持最新。
這可能會阻止一些用戶竊取它。 如果您確實需要發送停止和終止信函或提交 DCMA 投訴以刪除您被盜的內容,它也會有所幫助。
您也可以在線申請版權登記。 這個過程可能很複雜,但幸運的是有低成本的法律服務可以幫助小企業和個人。
在我們的指南中了解如何為您的博客名稱和徽標註冊商標和版權。
2. 讓你的 RSS 提要更難抓取
由於博客內容抓取通常是通過您博客的 RSS 提要自動完成的,所以讓我們看看您可以對您的提要進行一些有用的更改。
不要在您的 WordPress RSS 提要中包含完整的帖子內容
您可以在 RSS 提要中只包含每篇文章的摘要,而不是完整內容。 這包括摘錄以及帖子元數據,例如日期、作者和類別。
博客社區中肯定存在關於是否擁有完整 RSS 提要或摘要提要的爭論。 我們現在不談這個,只是說只有摘要的優點之一是它有助於防止內容被抓取。
您可以通過在 WordPress 管理面板中轉到設置 » 閱讀來更改設置。 您需要選擇“摘錄”選項,然後單擊“保存更改”按鈕。
現在 RSS 提要將只顯示您文章的摘錄。 如果有人通過您的 RSS 提要竊取您的內容,那麼他們只會得到摘要,而不是完整的帖子。
如果您想調整摘要,那麼您可以查看我們關於如何自定義 WordPress 摘錄的指南。
優化您的 RSS 提要以防止刮擦
還有其他方法可以優化您的 WordPress RSS 提要以保護您的內容、獲得更多反向鏈接、增加您的網絡流量等等。 最好的方法之一是延遲帖子出現在 RSS 提要中。
好處是,當您延遲帖子出現在您的 RSS 提要中時,您可以讓搜索引擎有時間在您的內容出現在其他地方(例如 scraper 的網站)之前對其進行抓取和索引。 然後搜索引擎會將您的網站視為權威。
最安全和最簡單的方法是使用 WPCode,因為它有一個自動將正確的自定義代碼添加到 WordPress 的方法。
有關詳細說明,請參閱我們的指南,了解如何延遲帖子出現在您的 WordPress RSS 提要中。
3. 禁用 Trackbacks、Pingbacks 和 REST API
在博客的早期,引入了 trackbacks 和 pingbacks 作為博客相互通知鏈接的一種方式。 當有人鏈接到您博客上的帖子時,他們的網站會自動向您的網站發送 ping。
然後,此 pingback 將出現在您博客的評論審核隊列中,並帶有指向其網站的鏈接。 如果您批准,他們就會從您的網站獲得反向鏈接和提及。
這使垃圾郵件發送者有動力抓取您的網站並發送引用通告。 幸運的是,您可以禁用 trackbacks 和 pingbacks 以減少爬蟲竊取您內容的理由。
有關更多信息,請查看我們關於在所有未來帖子中禁用引用的指南。 您可能還想了解如何禁用現有 WordPress 帖子的引用和 ping。
禁用 WordPress REST API
除了 trackbacks 和 pingbacks,我們還建議禁用 WordPress REST API,因為它可以讓垃圾郵件發送者更容易抓取您的內容。
我們有一份關於如何禁用 WordPress REST API 的詳細指南。
您需要做的就是安裝並激活免費的 WPCode 插件,並使用其預製代碼片段來禁用 REST API。
4. 阻止爬蟲訪問您的 WordPress 網站
阻止爬蟲竊取您的內容的一種方法是取消他們對您網站的訪問權限。 您可以通過阻止他們的 IP 地址來手動執行此操作,但大多數用戶會發現使用安全插件(例如 Web 應用程序防火牆)更容易。
使用安全插件阻止爬蟲(推薦)
手動阻止抓取器很棘手並且需要大量工作。 特別是因為許多黑客嘗試和攻擊都是使用來自世界各地的各種隨機 IP 地址進行的。 跟上所有這些隨機 IP 地址幾乎是不可能的。
這就是為什麼您需要 Web 應用程序防火牆 (WAF),例如 WordFence 或 Securi。 它們通過監控您的網站流量並在常見安全威脅到達您的 WordPress 網站之前阻止它們,充當您的網站和所有傳入流量之間的屏障。
對於 WPBeginner 網站,我們使用 Sucuri。 它是一種網站安全服務,可使用網站應用程序防火牆保護您的網站免受此類攻擊。
基本上,您所有的網站流量都經過安全服務的服務器,在那裡檢查是否存在可疑活動。 它們會自動阻止可疑的 IP 地址訪問您的網站。 了解 Sucuri 如何幫助我們在 3 個月內阻止 450,000 次 WordPress 攻擊。
手動阻止或重定向 Scraper 的 IP 地址
高級用戶可能還希望手動阻止爬蟲的 IP 地址。 這是更多的工作,但是一旦你了解了它,你就可以專門針對爬蟲的地址。 Web 開發人員 Jeff Star 在撰寫有關他如何處理內容抓取工具的文章時建議採用這種方法。
注意:向網站文件添加代碼可能很危險。 即使是一個小錯誤也可能導致您的網站出現重大錯誤。 這就是為什麼我們只向高級用戶推薦此方法。
您可以通過訪問 WordPress 託管帳戶的 cPanel 儀表板中的“原始訪問日誌”來找到抓取工具的 IP 地址。 您需要查找請求數量異常高的 IP 地址並記錄下來,例如將它們複製到單獨的文本文件中。
提示:您需要確保最終不會阻止您自己、合法用戶或搜索引擎訪問您的網站。 複製一個看起來可疑的 IP 地址並使用在線 IP 查找工具來查找更多相關信息。
一旦您確信該 IP 地址屬於某個爬蟲,您可以使用 cPanel 的“IP Blocker”工具或通過在您的根 .htaccess 文件中添加如下代碼來阻止它:
Deny from 123.456.789
確保將代碼中的 IP 地址替換為要阻止的 IP 地址。 您可以通過在同一行中輸入以空格分隔的多個 IP 地址來阻止它們。
有關詳細說明,請參閱我們關於如何在 WordPress 中阻止 IP 地址的指南。
Jeff 建議您可以向他們發送虛擬 RSS 提要,而不是簡單地阻止爬蟲。 您可以創建充滿 Lorem Ipsum 和煩人圖像的提要,甚至可以將它們直接發送回他們自己的網站,從而導致無限循環並使他們的服務器崩潰。
要將它們重定向到虛擬提要,您需要將這樣的代碼添加到您的 .htaccess 文件中:
RewriteCond %{REMOTE_ADDR} 123\.456\.789\.
RewriteRule .* http://dummyfeed.com/feed [R,L]
5. 防止 WordPress 中的圖像盜用
您需要保護的不僅僅是您的書面內容。 您還應該防止 WordPress 中的圖像盜用。
與文本一樣,沒有辦法完全阻止人們竊取您的圖像,但是有很多方法可以阻止 WordPress 網站上的圖像盜竊。
例如,您可以禁用 WordPress 圖像的熱鏈接。 這意味著如果有人抓取您的內容,他們的圖片將不會加載到他們的網站上。
它還將減少您的服務器負載和帶寬使用,提高您的 WordPress 速度和性能。
或者,您可以為您的圖片添加水印以表明您的信譽。 這將清楚地表明爬蟲竊取了您的內容。
您可以在我們的 4 種防止 WordPress 圖像盜用方法指南中學習這兩種技術以及其他保護圖像的方法。
6. 不鼓勵手動複製您的內容
雖然大多數爬蟲使用自動工具,但一些內容竊賊可能會嘗試手動複製您的全部或部分內容。
使這更困難的一種方法是防止他們複製和粘貼您的文本。 您可以通過讓他們更難選擇您網站上的文本來做到這一點。
要了解如何停止手動複製您的內容,請參閱我們的分步指南,了解如何在 WordPress 中防止文本選擇和復制/粘貼。
但是,這並不能完全保護您的內容。 請記住,精通技術的用戶仍然可以查看源代碼或使用檢查工具來複製他們想要的任何內容。 此外,此方法不適用於所有網絡瀏覽器。
另外,請記住,並非每個複制您的文本的人都是內容竊賊。 例如,有些人可能想複製標題以在社交媒體上分享您的帖子。
這就是為什麼我們建議您僅在您認為您的網站真正需要時才使用此方法。
7. 利用內容抓取工具
隨著您的博客變得越來越大,幾乎不可能停止或跟踪所有內容抓取工具。 我們仍然會發送 DMCA 投訴。 但是,我們知道還有大量其他網站正在竊取我們無法跟上的內容。
相反,我們的方法是嘗試利用內容 scaper。 當您發現自己正在從被盜內容中賺錢,或者從爬蟲網站獲得大量流量時,情況並沒有那麼糟糕。
使內部鏈接成為一種習慣,以從爬蟲中獲得流量和反向鏈接
在我們的 SEO 終極指南中,我們建議您養成內部鏈接的習慣。 通過在您的博客文章中放置指向您其他內容的鏈接,您可以增加網頁瀏覽量並降低您自己網站的跳出率。
但是在抓取方面還有第二個好處。 內部鏈接將從竊取您內容的人那裡獲得有價值的反向鏈接。 像谷歌這樣的搜索引擎使用反向鏈接作為排名信號,因此額外的反向鏈接有利於您的 SEO。
最後,這些內部鏈接可以讓您竊取爬蟲的受眾。 才華橫溢的博主將鏈接放在有趣的關鍵字上,誘使用戶點擊。 爬蟲網站的訪問者也將單擊鏈接,這將引導他們直接返回您自己的網站。
自動鏈接關鍵字與附屬鏈接以從刮板中賺錢
如果您通過聯盟營銷在您的網站上賺錢,那麼我們建議在您的 RSS 提要中啟用自動鏈接。 這將幫助您最大限度地從僅通過 RSS 閱讀器閱讀您網站的讀者那裡獲得收益。
更好的是,它將幫助您從竊取您內容的網站上賺錢。
只需使用像 ThirstyAffiliates 這樣的插件,它會自動用附屬鏈接替換指定的關鍵字。 我們在我們的指南中向您展示瞭如何自動將關鍵字與 WordPress 中的附屬鏈接鏈接起來。
在 RSS 頁腳中宣傳您的網站
您可以使用 All in One SEO 插件將自定義項目添加到您的 RSS 頁腳。 例如,您可以添加一個橫幅來宣傳您自己的產品、服務或內容。
最好的部分是這些橫幅也會出現在抓取工具的網站上。
在我們的案例中,我們總是在 RSS 提要中的帖子底部添加一點免責聲明。 通過這樣做,我們從爬蟲站點獲得了指向原始文章的反向鏈接。
這讓谷歌和其他搜索引擎知道我們是權威。 它還讓他們的用戶知道該網站正在竊取我們的內容。
有關更多提示,請查看我們的指南,了解如何在 WordPress 中控制 RSS 提要頁腳。
我們希望本教程能幫助您了解如何防止 WordPress 中的博客內容被抓取。 您可能還想查看我們的終極 WordPress 安全指南,或查看我們的 WordPress 最佳分析解決方案列表。
如果您喜歡這篇文章,請訂閱我們的 YouTube 頻道以獲取 WordPress 視頻教程。 您還可以在 Twitter 和 Facebook 上找到我們。