作者:探碼科技, 原文鏈接: http://www.tianchiyiriyou.com/dyson/651
面對互聯(lián)網(wǎng)海量的信息宙姿,政府機關(guān)花吟、企事業(yè)單位和研究機構都迫切希望獲取與自身工作相關(guān)的有價(jià)值信息滑黔,如何方便快捷地獲取這些信息就變得至關(guān)重要 了肪跋。如果采用原始的手工收集處理方式,費時(shí)費力且毫無(wú)效率,面對越來(lái)越多的信息資源,工作強度和難度可想而知。因此,政府和企業(yè)都需要一種能夠提供高質(zhì)量和高效運作的信息采集解決方案。
Dyson 網(wǎng)絡(luò )數據采集系統針對不同行業(yè)用戶(hù)的需求涵卵,適用于多源數據采集,定制化開(kāi)發(fā)并私有化部署的大規模網(wǎng)絡(luò )數據采集系統家淤。提供從數據采集,爬蟲(chóng)撰寫(xiě),任務(wù)調度,數據清洗合并到數據存儲一站式服務(wù),讓政府和企業(yè)能夠快速獲取海量的目標數據。
Dyson 網(wǎng)絡(luò )數據采集系統整個(gè)部署后工作流程如下:
通過(guò)對既有數據源進(jìn)行分類(lèi)整理、欄目劃分、字段拆解,形成一個(gè)完整的數據源分析報告,以及對采集到的信息數據進(jìn)行智能分析最終通過(guò)數據源的分析,發(fā)現數據之間的關(guān)系、規律和取值范圍,為數據采用任務(wù)做準備谤搂。
采用Docker微服務(wù)模式掛載每個(gè)采集爬蟲(chóng)程序妓蛮,通過(guò)實(shí)時(shí)任務(wù)調度系統對微服務(wù)進(jìn)行任務(wù)調度而咆,實(shí)時(shí)數據采集,實(shí)時(shí)錯誤監控。
編寫(xiě)數據清洗正則,對多源異構數據進(jìn)行清洗和合并操作,將采集的數據打包導出或者API形式對接到業(yè)務(wù)平臺。
可視化展示采集任務(wù)的實(shí)時(shí)數據。
采集頁(yè)面欄目的增加陪苟、刪除、修改以及欄目數據源查看。
爬蟲(chóng)任務(wù)可增加、刪除、修改;同時(shí)可以手工啟動(dòng)或停止爬蟲(chóng)程序,設置每個(gè)爬蟲(chóng)程序的定時(shí)啟動(dòng)、停止時(shí)間输褒。