Crawlab(分布式爬蟲管理平臺)是一個支持Scrapy、Puppeteer、Selenium,支持Python、NodeJS等任何語言和框架的分布式爬蟲管理平臺,通過增加工作節(jié)點數(shù)量,Crawlab可以做到橫向擴(kuò)展,用戶一看便知,相信使用起來也是非常順手,歡迎有需要的用戶前來獲取winwin7分享的這款Crawlab中文版!
軟件說明
Crawlab能夠幫助用戶實現(xiàn)多語言爬蟲的目的,通過多種方式進(jìn)行安裝即可使用,軟件采用主節(jié)點的形式來快速獲取網(wǎng)站數(shù)據(jù),從而保存到本地數(shù)據(jù)中,每當(dāng)目標(biāo)站點發(fā)生變化時即會更新數(shù)據(jù),用戶還可通過相關(guān)控件來設(shè)計前端展示效果,極大的提升了程序員開發(fā)的效率。
介紹
Crawlab架構(gòu)
Crawlab的架構(gòu)包括了一個主節(jié)點(Master Node)和多個工作節(jié)點(Worker Node),以及負(fù)責(zé)通信和數(shù)據(jù)儲存的Redis和MongoDB數(shù)據(jù)庫。
主節(jié)點
主節(jié)點是整個Crawlab架構(gòu)的核心,屬于Crawlab的中控系統(tǒng)。主節(jié)點負(fù)責(zé)與前端應(yīng)用進(jìn)行通信,并通過Redis將爬蟲任務(wù)派發(fā)給工作節(jié)點。同時,主節(jié)點會同步(部署)爬蟲給工作節(jié)點,通過Redis和MongoDB的GridFS。
工作節(jié)點
工作節(jié)點的關(guān)鍵作用是實行爬蟲每日任務(wù)和儲存爬取數(shù)據(jù)信息與日志,而且根據(jù)Redis的PubSub跟主節(jié)點通訊。根據(jù)提升工作節(jié)點總數(shù),Crawlab能夠保證橫著拓展,不一樣的爬蟲每日任務(wù)能夠分派到不一樣的節(jié)點上實行。
MongoDB
MongoDB是Crawlab的運作數(shù)據(jù)庫查詢,儲存有節(jié)點、爬蟲、每日任務(wù)、計劃任務(wù)等數(shù)據(jù)信息,此外GridFS文檔儲存方法是主節(jié)點儲存爬蟲文檔并同歩到工作節(jié)點的正中間媒體。
Redis
Redis是十分受大家喜愛的Key-Value數(shù)據(jù)庫查詢,在Crawlab中關(guān)鍵完成節(jié)點間數(shù)據(jù)通訊的作用。比如,節(jié)點會將自身信息內(nèi)容根據(jù)HSET儲存在Redis的nodes哈希列表中,主節(jié)點依據(jù)哈希列表來分辨線上節(jié)點。
前面
前面是一個根據(jù)Vue-Element-Admin的單頁應(yīng)用。在其中器重了許多Element-UI的控制來適用相對應(yīng)的展現(xiàn)。