歡迎光臨
每天分享高質量文章

什麼是網路爬蟲?網路爬蟲如何工作? | Linux 中國

作為一個狂熱的網際網路人,你在生活中一定遇到過網路爬蟲(Web Crawler)這個詞。那麼什麼是網路爬蟲,誰使用網路爬蟲?它是如何工作的?讓我們在本文中討論這些。
— Rishabh Kandari


本文導航
編譯自 | http://www.theitstuff.com/web-crawler-web-crawlers-work 
 作者 | Rishabh Kandari
 譯者 | geekpi

作為一個狂熱的網際網路人,你在生活中一定遇到過網路爬蟲Web Crawler這個詞。那麼什麼是網路爬蟲,誰使用網路爬蟲?它是如何工作的?讓我們在本文中討論這些。

什麼是網路爬蟲?

web crawler source code sync

網路爬蟲Web Crawler也被稱為網路蜘蛛web-spider是一個在網際網路中訪問不同網站的各個頁面的網際網路軟體或者機器人。網路爬蟲從這些網頁中檢索各種資訊並將其儲存在其記錄中。這些抓取工具主要用於從網站收集內容以改善搜尋引擎的搜尋。

誰使用網路爬蟲?

大多數搜尋引擎使用爬蟲來收集來自公共網站的越來越多的內容,以便它們可以向用戶提供更多相關內容。

search engines use web crawlers

許多商業機構使用網路爬蟲專門搜尋人們的電子郵件地址和電話號碼,以便他們可以向你傳送促銷優惠和其他方案。這基本上是垃圾郵件,但這是大多數公司建立郵件串列的方式。

駭客使用網路爬蟲來查詢網站檔案夾中的所有檔案,主要是 HTML 和 Javascript。然後他們嘗試透過使用 XSS 來攻擊網站。

網路爬蟲如何工作?

網路爬蟲是一個自動化指令碼,它所有行為都是預定義的。爬蟲首先從要訪問的 URL 的初始串列開始,這些 URL 稱為種子。然後它從初始的種子頁面確定所有其他頁面的超連結。網路爬蟲然後將這些網頁以 HTML 檔案的形式儲存,這些 HTML 檔案稍後由搜尋引擎處理並建立一個索引。

網路爬蟲和 SEO

網路爬蟲對 SEO,也就是搜尋引擎最佳化Search Engine Optimization有很大的影響。由於許多使用者使用 Google,讓 Google 爬蟲為你的大部分網站建立索引非常重要。這可以透過許多方式來完成,包括不使用重覆的內容,併在其他網站上具有盡可能多的反向連結。許多網站被認為是濫用這些技巧,最終被引擎列入黑名單。

robots.txt

robots.txt 是爬蟲在抓取你的網站時尋找的一種非常特殊的檔案。該檔案通常包含有關如何抓取你的網站的資訊。一些網站管理員故意不希望他們的網站被索引也可以透過使用 robots.txt 檔案阻止爬蟲。

總結

爬蟲是一個小的軟體機器人,可以用來瀏覽很多網站,並幫助搜尋引擎從網上獲得最相關的資料。


via: http://www.theitstuff.com/web-crawler-web-crawlers-work

作者:Rishabh Kandari[2] 譯者:geekpi 校對:wxy

本文由 LCTT 原創編譯,Linux中國 榮譽推出

LCTT 譯者

geekpi ? ?
共計翻譯:654 篇
貢獻時間:1569 天


推薦文章

< 左右滑動檢視相關文章 >

點選圖片、輸入文章 ID 或識別二維碼直達

贊(0)

分享創造快樂