探碼Web大數據采集系統

探碼科技基于云計算研發(fā)的探碼Web大數據采集系統——利用眾多的云計算服務(wù)器協(xié)同工 作,能快速采集大量數據,避免了一臺計算機硬件資源的瓶頸姥闪,另外隨著(zhù)行業(yè)之間對數據采集的要求越來(lái)越高,傳統post采集不能解決的技術(shù)問(wèn)題也逐步被解決花墩,以探碼Kapow/Dyson采集器為代表的新一代智能采集器锁教,能模擬人的思維样勃,模擬人的操作,從而徹底解決了ajax等技術(shù)難題。

Web大數據搭肠,探碼科技漠恰,探碼大數據

網(wǎng)頁(yè)一般是設計給人瀏覽的陵滴,所以探碼Web大數據采集系統模擬人的智能采集器的工作是非常順利的绳待,不論后臺技術(shù)是什么樱哼,當數據始終顯示在人的面前的時(shí)候,智能采集器就能開(kāi)始提取。最終把計算機的能力發(fā)揮到極致赠粘,使得計算機可以替代人完成網(wǎng)頁(yè)數據采集的工作宪迟。并且利用大數據云采集技術(shù),把計算機的計算能力也發(fā)揮到了極致。目前這一采集技術(shù)得到了越來(lái)越廣泛的應用蜜暑。各行各業(yè)只要是從網(wǎng)絡(luò )上獲取一些數據或者信息浴诅,都可以使用此類(lèi)技術(shù)萄撇。

探碼Web大數據采集系統分為8個(gè)子系統,分別為大數據集群系統碴回、數據采集系統府蔗、采集數據源調研、數據爬蟲(chóng)系統达警、數據清洗系統寿谴、數據合并系統、任務(wù)調度系統妄痪、搜索引擎系統。

Web大數據,探碼科技,探碼大數據

大數據集群系統

本系統可以?xún)Υ鎀B級采集到的數據,實(shí)現數據持久化。數據存儲采用MongoDB集群方案,此方案在集群上有兩大特點(diǎn):

  • 分片:分片即MongoDB在服務(wù)器之間劃分數據的一項技術(shù)。MongoDB能夠自動(dòng)在分片之間平衡數據飒硅,并且能夠在不需要數據庫離線(xiàn)的情況下增加和刪除分片注暗。
  • 復制:為了保證高可用性,MongoDB維護了許多數據的冗余備份累讳,復制被嵌入于MongoDB篷就,并且在不需要專(zhuān)業(yè)網(wǎng)絡(luò )的情況下就可以在廣域網(wǎng)內工作。

數據采集系統

本系統配置Kapow、PhantomJS祸论、Mechanize采集環(huán)境骨惫,運行于Docker容器中,由Rancher編排容器。

采集數據源調研

本系統是在“數據爬蟲(chóng)系統”開(kāi)始之前础辉,必不可少的一個(gè)環(huán)節,經(jīng)過(guò)調研洗罩,得出需要采集頁(yè)面殷淮、過(guò)濾的關(guān)鍵字、需要提取的內容等。

數據爬蟲(chóng)系統

爬蟲(chóng)程序都是獨立的個(gè)體,結合需要的數據采集系統服務(wù)器,通過(guò)Rancher編排,自動(dòng)在DigitalOcean中啟動(dòng)爬蟲(chóng)程序,根據輸入參數拥诡,抓取到指定的數據,然后通過(guò)API發(fā)送回我們的大數據集群系統凯鸣。

數據清洗系統

本系統通過(guò)Ruby on Rails + Vue技術(shù)框架,實(shí)現Web前端展示,展示出爬蟲(chóng)程序抓取到的數據,方便我們進(jìn)行清洗。數據清洗系統主要由兩部分組成:

  • 手工清洗:通過(guò)Web前端展示出抓取到的數據,對數據進(jìn)行直觀(guān)分析伍马,得出哪些條件的數據需要刪除,哪些條件的數據需要修改藻嘱。
  • 自動(dòng)清洗:經(jīng)過(guò)手工清洗之后就轧,可能會(huì )得出一些清洗模式,這種模式適用于所有數據。我們把這種模式記錄在程序里,將來(lái)的數據只要匹配這種模式,數據將來(lái)會(huì )被自動(dòng)清洗,不再需要人工清洗。

數據合并系統

本系統通過(guò)Ruby on Rails + Vue技術(shù)框架,實(shí)現Web前端展示,對數據進(jìn)行合并。數據被清洗之后亩哨,數據合并系統會(huì )自動(dòng)匹配大數據集群中的數據可丝,通過(guò)相識度評分,關(guān)聯(lián)可能相識的數據。通過(guò)Web前端展示匹配結果猿侣,可以人工或自動(dòng)合并數據。

任務(wù)調度系統

本系統通過(guò)Ruby on Rails + Vue技術(shù)框架,Sidekiq隊列調度迅皇,Redis調度數據持久化,實(shí)現Web前端任務(wù)調度系統第焰。通過(guò)任務(wù)調度系統,可以動(dòng)態(tài)開(kāi)啟、關(guān)閉罪惯,定時(shí)啟動(dòng)爬蟲(chóng)程序。

搜索引擎系統

本系統通過(guò)ElasticSearch集群,實(shí)現搜索引擎服務(wù)顺饮。搜索引擎是PC端檢索系統能夠從大數據集群中、快速地檢索數據的必要工具,通過(guò)ElasticSearch集群,運行3個(gè)以上的Master角色保證群集系統的穩定性,2個(gè)以上Client角色保證查詢(xún)的容錯性,2個(gè)以上的Data角色保證查詢(xún)、寫(xiě)入的時(shí)效性。通過(guò)負載均衡連接Client角色,分散數據查詢(xún)壓力枣镐。

相關(guān)報道

了解更多

蜀ICP備15035023號-4