后羿采集器由前谷歌技術(shù)團(tuán)隊(duì)傾力打造,基于人工智能技術(shù),只需輸入網(wǎng)址就能自動(dòng)識(shí)別采集內(nèi)容,可視化點(diǎn)選,一鍵采集網(wǎng)頁(yè)數(shù)據(jù),全平臺(tái),Win/Mac/Linux都可用,后羿采集器無(wú)限制放心用,可后臺(tái)運(yùn)行,速度實(shí)時(shí)顯示,采集和導(dǎo)出全免費(fèi)!
后羿采集器軟件功能
1、智能識(shí)別數(shù)據(jù),小白神器
智能模式:基于人工智能算法,只需輸入網(wǎng)址就能智能識(shí)別列表數(shù)據(jù)、表格數(shù)據(jù)和分頁(yè)按鈕,不需要配置任何采集規(guī)則,一鍵采集。
自動(dòng)識(shí)別:列表、表格、鏈接、圖片、價(jià)格等。
2、可視化點(diǎn)擊,簡(jiǎn)單上手
流程圖模式:只需根據(jù)軟件提示在頁(yè)面中進(jìn)行點(diǎn)擊操作,完全符合人為瀏覽網(wǎng)頁(yè)的思維方式,簡(jiǎn)單幾步即可生成復(fù)雜的采集規(guī)則,結(jié)合智能識(shí)別算法,任何網(wǎng)頁(yè)的數(shù)據(jù)都能輕松采集。
可模擬操作: 輸入文本、點(diǎn)擊、移動(dòng)鼠標(biāo)、下拉框、滾動(dòng)頁(yè)面、等待加載、循環(huán)操作和判斷條件等。
3、支持多種數(shù)據(jù)導(dǎo)出方式
采集結(jié)果可以導(dǎo)出到本地,支持TXT、EXCEL、CSV和HTML文件格式,也可以直接發(fā)布到數(shù)據(jù)庫(kù)(MySQL、MongoDB、SQL Server、PostgreSQL)供您使用。
4、功能強(qiáng)大,提供企業(yè)級(jí)服務(wù)
后羿采集器提供豐富的采集功能,無(wú)論是采集穩(wěn)定性或是采集效率,都能夠滿足個(gè)人、團(tuán)隊(duì)和企業(yè)級(jí)采集需求。
豐富的功能: 定時(shí)采集,自動(dòng)導(dǎo)出,文件下載,加速引擎,按組啟動(dòng)和導(dǎo)出,Webhook,RESTful API,智能識(shí)別SKU和大圖等。
5、云端賬號(hào),方便快捷
創(chuàng)建后羿采集器賬號(hào)并登錄,您的所有采集任務(wù)設(shè)置都將自動(dòng)加密保存到后羿的云端服務(wù)器,無(wú)需擔(dān)心采集任務(wù)丟失,任務(wù)運(yùn)行及采集的數(shù)據(jù)均在您本地,而且非常安全,只有您自己在本地登錄客戶端后才能查看。后羿采集器對(duì)賬號(hào)沒(méi)有終端綁定限制,您切換終端時(shí)采集任務(wù)也會(huì)同步更新,任務(wù)管理方便快捷。
6、全平臺(tái)支持,無(wú)縫切換
同時(shí)支持Windows、Mac和Linux全操作系統(tǒng)的采集軟件,各平臺(tái)版本完全相同,無(wú)縫切換。
使用教程
自定義采集百度搜索結(jié)果數(shù)據(jù)的方法
一、創(chuàng)建采集任務(wù)
1、啟動(dòng)后羿采集器,進(jìn)入主界面,選擇自定義采集并點(diǎn)擊創(chuàng)建任務(wù)按鈕創(chuàng)建 “自定義采集任務(wù)”;
2、輸入百度搜索的URL,包括三種方式。
手動(dòng)輸入:在輸入框中直接輸入U(xiǎn)RL,多個(gè)URL時(shí)須要換行分割。
點(diǎn)擊從文件中讀取方式:用戶選擇一個(gè)存放URL的文件,文件中可以有多個(gè)URL地址,地址須要換行分割。
批量添加方式:通過(guò)添加并調(diào)整地址參數(shù)生成多個(gè)有規(guī)律的地址。
二、自定義采集流程
1、點(diǎn)擊創(chuàng)建后自動(dòng)打開(kāi)第一個(gè)URL進(jìn)而進(jìn)入自定義設(shè)置頁(yè)面,默認(rèn)已經(jīng)創(chuàng)建了開(kāi)始、打開(kāi)網(wǎng)頁(yè)、結(jié)束的流程塊。底部模板區(qū)用于拖拽到畫(huà)布中生成新的流程塊;點(diǎn)擊打開(kāi)網(wǎng)頁(yè)中的屬性按鈕,可修改打開(kāi)的網(wǎng)址;
2、添加輸入文字流程塊:在底部模板區(qū)中拖拽輸入文字塊到打開(kāi)網(wǎng)頁(yè)塊后面附近,當(dāng)出現(xiàn)陰影區(qū)域的時(shí)候可以松開(kāi)鼠標(biāo),此時(shí)會(huì)自動(dòng)連接,添加完成;
3、生成完整流程圖:仿照上面添加輸入文字流程塊的拖拽流程添加新塊;
關(guān)鍵步驟塊設(shè)置介紹
定時(shí)等待用于等待前面打開(kāi)網(wǎng)頁(yè)完成。
點(diǎn)擊輸入框Xpath屬性按鈕,在屬性菜單中點(diǎn)擊圖標(biāo)進(jìn)行點(diǎn)選網(wǎng)頁(yè)中的輸入框,點(diǎn)擊輸入文本屬性按鈕,在菜單中輸入要搜索的文本。
用于設(shè)置點(diǎn)擊開(kāi)始搜索按鈕,點(diǎn)擊元素的xpath屬性按鈕,在菜單中點(diǎn)擊點(diǎn)選圖標(biāo),然后點(diǎn)擊網(wǎng)頁(yè)中的百度一下按鈕即可。
用于設(shè)置循環(huán)加載下一列表頁(yè)。在循環(huán)塊內(nèi)部的循環(huán)條件塊中設(shè)置詳細(xì)條件,此處點(diǎn)擊操作按鈕,選擇單個(gè)元素,然后在屬性菜單中點(diǎn)擊元素的xpath屬性按鈕,同上進(jìn)行點(diǎn)選網(wǎng)頁(yè)中的下一頁(yè)按鈕。循環(huán)次數(shù)屬性按鈕可默認(rèn)為0,即不限制點(diǎn)擊下一頁(yè)的次數(shù)。
用于設(shè)置循環(huán)抽取列表頁(yè)中的數(shù)據(jù)。在循環(huán)塊內(nèi)部的循環(huán)條件塊中設(shè)置詳細(xì)條件,此處點(diǎn)擊操作按鈕,選擇不固定元素列表,然后在屬性菜單中點(diǎn)擊元素的xpath屬性按鈕,然后在網(wǎng)頁(yè)中連續(xù)點(diǎn)選兩次抽取第一塊和第二塊元素。循環(huán)次數(shù)屬性按鈕可默認(rèn)為0,即不限制列表中收取字段的數(shù)量。
用于執(zhí)行點(diǎn)擊下一頁(yè)按鈕操作,點(diǎn)擊元素xpath屬性按鈕,選擇使用當(dāng)前循環(huán)中元素的xpath選項(xiàng)。
同理用于設(shè)置網(wǎng)頁(yè)加載等待時(shí)間。
用于設(shè)置在列表頁(yè)抽取的字段規(guī)則,點(diǎn)擊屬性按鈕中使用循環(huán)中的元素按鈕,選擇使用循環(huán)中的元素選項(xiàng)。點(diǎn)擊元素模板屬性按鈕在字段表格中點(diǎn)擊加減進(jìn)行添加刪除字段,添加字段使用點(diǎn)選操作,即點(diǎn)擊加號(hào)后鼠標(biāo)移動(dòng)到網(wǎng)頁(yè)元素上點(diǎn)擊選擇。
4、點(diǎn)擊開(kāi)始采集,啟動(dòng)采集。
三、數(shù)據(jù)采集及導(dǎo)出
1、采集任務(wù)運(yùn)行中;
2、采集完成后,選擇“導(dǎo)出數(shù)據(jù)”可以把數(shù)據(jù)都導(dǎo)出到本地文件;
3、選擇“導(dǎo)出方式”,將采集好的數(shù)據(jù)導(dǎo)出,這里可以選擇excel作為導(dǎo)出為格式;
4、采集數(shù)據(jù)導(dǎo)出后如下圖。