GooSeeker也叫集客搜網(wǎng)絡(luò)爬蟲是一款集采集網(wǎng)頁文字、圖片、表格、超鏈接等多種網(wǎng)頁元素與一身的網(wǎng)絡(luò)爬蟲工具。它的抓取不限深度和廣度,網(wǎng)頁和內(nèi)容都可以采集,軟件支持集成化圖形界面、抓取規(guī)則自動生成、隨機(jī)延遲、抓取結(jié)果本地存儲、高仿真模擬點(diǎn)擊等功能。而且這款網(wǎng)絡(luò)爬蟲工具還可以很好的幫助用戶輕松的抓取網(wǎng)頁上自己想要抓取的網(wǎng)頁數(shù)據(jù)。喜歡的朋友趕快來下載哦!
功能說明
1、集成化圖形界面
包括網(wǎng)頁結(jié)構(gòu)窗口、工作臺、顯示窗口等子窗口。選取被抓取內(nèi)容時,三個子窗口聯(lián)動,并顯示HTML節(jié)點(diǎn)的重要屬性
2、抓取規(guī)則自動生成
可以指定抓取內(nèi)容,定義抓取結(jié)果存放結(jié)構(gòu)(整理箱),然后將網(wǎng)頁內(nèi)容分別映射給整理箱中的抓取內(nèi)容,MS謀數(shù)臺即可自動生成抓取規(guī)則
3、原始網(wǎng)頁內(nèi)容糾錯
網(wǎng)頁的發(fā)布者在寫網(wǎng)頁的時候可能存在語法和詞法錯誤,只要是火狐
瀏覽器能打開的,都能定義抓取規(guī)則并進(jìn)行抓取
4、防屏蔽抓取
有些目標(biāo)網(wǎng)站可能根據(jù)點(diǎn)擊行為特征屏蔽網(wǎng)絡(luò)爬蟲的過度訪問,集搜客GooSeeker采用技術(shù)手段盡量避免被屏蔽
5、清理運(yùn)行狀態(tài)
使用ADSL等動態(tài)分配地址的部署方式,定期撥號更換IP地址,也可在火狐瀏覽器上清除cookie和緩存
使用教程
一、定義主題名
1、打開MS謀數(shù)臺,在網(wǎng)址處粘貼需要采集數(shù)據(jù)的樣例網(wǎng)址,按回車鍵等待頁面加載。
2、然后點(diǎn)擊“彈出工作臺”,然后就會出現(xiàn)人下圖所示的頁面。
3、 在主題名處填寫規(guī)則主題名,由于主題名不能重復(fù),所以需要點(diǎn)擊查重按鈕查看當(dāng)前主題名是否可用,彈出窗顯示“該名可以使用”時就可以繼續(xù)下面操作,否則需要更改當(dāng)前主題名直至不重復(fù)。
二、定義規(guī)則
1、點(diǎn)擊要采集的內(nèi)容,這里點(diǎn)導(dǎo)航欄,可以看到導(dǎo)航欄變成黃底,表示被選中的信息。
2、再點(diǎn)擊一次,會彈出一個輸入框,輸入抓取內(nèi)容名稱,然后點(diǎn)擊“勾號”。
3、輸入第一個抓取內(nèi)容時,會彈出創(chuàng)建整理箱的彈窗,輸入整理箱名稱后,點(diǎn)擊確認(rèn)。
4、彈出工作臺就可以看到工作臺頁面已經(jīng)建立了整理箱抓取內(nèi)容。
5、點(diǎn)擊測試按鈕,彈出提示框,勾選關(guān)鍵內(nèi)容是為了給爬蟲執(zhí)行采集提供判斷標(biāo)志,對于頁面一定會出現(xiàn)的內(nèi)容可以勾上"關(guān)鍵內(nèi)容"。
6、 這里給商品名勾選關(guān)鍵內(nèi)容。
7、 點(diǎn)擊測試,可以看到下方輸出信息會顯示采集內(nèi)容??梢钥吹侥壳安杉降闹皇且粋€商品的信息,要把整個頁面上結(jié)構(gòu)相同的商品信息都采集下來,就需要做樣例復(fù)制。
三、樣例復(fù)制
1、在創(chuàng)建規(guī)則工作臺,點(diǎn)擊列表,勾選啟用樣例復(fù)制。注意:只有容器節(jié)點(diǎn)才能啟用樣例復(fù)制。
2、選擇第一個樣例節(jié)點(diǎn),右擊-樣例復(fù)制映射-第一個。
3、同理對第二個商品做樣例復(fù)制。
4、可以看到樣例復(fù)制處顯示樣例復(fù)制的編號,再點(diǎn)擊測試,可以看到輸出信息已經(jīng)有多個商品信息。
5、點(diǎn)擊右上方存規(guī)則,再點(diǎn)擊爬數(shù)據(jù)。
6、可以看到DS打數(shù)機(jī)在運(yùn)行采集數(shù)據(jù)。
四、查看采集結(jié)果文件
數(shù)據(jù)以XML格式 默認(rèn)存放在C盤用戶文件夾的DataScraperWorks 中,可通過DS打數(shù)機(jī)的“文件-存儲路徑”來自定義結(jié)果文件的存儲路徑。、
五、xml轉(zhuǎn)excel
每采集一個網(wǎng)頁,就會得到一個xml數(shù)據(jù)文件,如果是連續(xù)翻頁采集,那么每翻一頁都會生成一個xml文件,通過把xml轉(zhuǎn)為excel,可以合并到一個excel文件中,以供進(jìn)一步的處理。
軟件特色
1、直觀標(biāo)注采數(shù)據(jù)
不用程序思維,不要技術(shù)基礎(chǔ),點(diǎn)擊想要的內(nèi)容,軟件自動管理所選內(nèi)容,自動放進(jìn)整理箱
2、可視化免編程
操作簡單,完全可視化操作,無需編程基礎(chǔ),熟悉電腦操作即可輕松掌握
3、模板資源套用
在抓取規(guī)則的詳情頁面,您可以仔細(xì)考察一個規(guī)則的抓取結(jié)果是否滿足您的需要,如果滿足,只需點(diǎn)擊“下載”按鈕,即可在會員中心一鍵啟動集搜客網(wǎng)絡(luò)爬蟲,抓取到你想要的數(shù)據(jù)
4、通用網(wǎng)絡(luò)爬蟲
采用功能強(qiáng)大的火狐瀏覽器內(nèi)核,所見即所得
5、會員互助抓取
這是爬蟲群并行抓取的一種特殊情形,利用這個功能,可以低成本快速匯集海量數(shù)據(jù)
6、不限深度不限廣度
以盡量低的成本獲得數(shù)據(jù),而且只獲取需要的網(wǎng)頁內(nèi)容
7、抓取指數(shù)圖表
集搜客網(wǎng)絡(luò)爬蟲具有強(qiáng)大的圖表數(shù)據(jù)抓取能力,而且提供一個開發(fā)者擴(kuò)展接口,允許技術(shù)基礎(chǔ)高的用戶用Javascript自定義更高級的網(wǎng)絡(luò)爬蟲動作
8、本地化存儲保護(hù)隱私
把所有采集結(jié)果數(shù)據(jù)直接存儲在用戶個人電腦上,便于用戶對采集結(jié)果數(shù)據(jù)做各種處理
9、自動登錄驗證碼識別
具有自動登錄功能,只需要設(shè)置相關(guān)參數(shù),就可以控制集搜客網(wǎng)絡(luò)爬蟲定期自動登錄相應(yīng)的賬號
10、定時自啟動采集
可以設(shè)置定時自動采集,完全無需人工干預(yù),自動采集最新數(shù)據(jù),自動實(shí)現(xiàn)持續(xù)增量數(shù)據(jù)采集
11、爬蟲群并行抓取
集搜客的并行抓取功能,一方面可以幫助個人解決效率低下的問題,另一方面也促進(jìn)社區(qū)閑散資源的整合利用
12、一鍵“集搜”啟動多爬蟲抓取數(shù)據(jù)
可選擇分布式采集的方式,把采集任務(wù)分配到多臺電腦上執(zhí)行
13、手機(jī)網(wǎng)站數(shù)據(jù)抓取
使用軟件采集手機(jī)網(wǎng)站數(shù)據(jù)和采用PC網(wǎng)站數(shù)據(jù)同樣簡單, 可視化定義抓取規(guī)則的過程完全一樣
常見問題
一、網(wǎng)絡(luò)爬蟲狀態(tài)錯誤,無法從FAILED狀態(tài)啟動爬蟲?
這個報錯是說服務(wù)器連接失敗,失敗的時候顯示為紅色狀態(tài),正常是綠色
二、保存信息結(jié)構(gòu)描述文件失?。簄ot writable?
1、主題名重復(fù)了,換個主題名就行
1、“爬蟲路線”工作臺上,如果有下級線索,也要注意不能與別人重名。都有“查重”按鈕,可以檢查一下
三、為什么謀數(shù)臺又打不開了,打數(shù)機(jī)能打開?
1、火狐自動升級后跟爬蟲不配套,就不能正常使用了,所以,安裝火狐的時候要去工具菜單->選項->高級->更新里設(shè)置不檢查更新
2、下載了更高版本或中國版火狐,里面安裝很多插件,可能影響到爬蟲的正常使用
3、電腦安裝了360等殺毒軟件,會悄悄破壞其他程序,只需禁止其安全防護(hù)功能
四、如何設(shè)置時間、
這個網(wǎng)頁一定打開DS打數(shù)機(jī)的滾屏功能,要做下面設(shè)置
1、配置-》全屏顯示,讓窗口盡量大
2、配置-》滾屏參數(shù),兩個參數(shù)設(shè)置成10,2
注意:DS打數(shù)機(jī)的超時時常不要修改更新日志
v8.8.0(2019-08-07)
1、解決Mac版菜單失靈問題
2、連續(xù)打碼增強(qiáng)成高仿真輸入
3、連續(xù)打碼處理圖片功能增加適應(yīng)性
0條評論