食品藥品監管信息大數據平臺.是一款基于網(wǎng)絡(luò )數據采集技術(shù),打造的食品、藥品好渠、保健品、化妝品、醫療器械全維度大數據服務(wù)平臺

食品藥品監管信息大數據平臺


是一款基于網(wǎng)絡(luò )數據采集技術(shù)佑女,打造的食品、藥品、保健品、化妝品、醫療器械全維度大數據服務(wù)平臺

隨著(zhù)食品藥品監管政務(wù)公開(kāi)工作的不斷推進(jìn),政府實(shí)施食品藥品監管數據資源目錄管理,制定數據標準,編制數據開(kāi)放目錄,制定總局數據資源年度開(kāi)放計劃无畔,并積極響應公眾開(kāi)放需求,依托國家公共信息資源統一開(kāi)放平臺和總局政府網(wǎng)站,穩步推進(jìn)食品藥品監管數據開(kāi)放。

探碼科技智慧醫藥平臺

食品藥品監管信息數據統計

探碼食品藥品監管信息大數據服務(wù)平臺主要數據源于政府食品藥品安全監管數據以及第三方數據和補充數據勾拉。據統計惜侄,截止2019年8月食品藥品監管信息數據共443,1915條數據。

探碼科技智慧醫藥平臺

食品監管信息數據

其中食品監管信息數據共159,8842條,包括134,5215條產(chǎn)品抽檢數據;18,5753條食品數據;18,816條特殊食品數據以及49058條廣告數據。

探碼科技智慧醫藥平臺

產(chǎn)品抽檢數據

產(chǎn)品抽檢數據包括:國家食品安全監督抽檢(合格產(chǎn)品)22415條;國家食品安全監督抽檢(不合格產(chǎn)品)1139039條东帅;國家保健食品安全監督抽檢(合格產(chǎn)品)130條面廷;國家保健食品安全監督抽檢(不合格產(chǎn)品)3681條;省級食品安全監督抽檢(合格產(chǎn)品)4163條;省級食品安全監督抽檢(不合格產(chǎn)品)175787條。

探碼科技智慧醫藥平臺

食品數據

食品數據包括:食品生產(chǎn)許可獲證企業(yè)(SC)162204條;食品生產(chǎn)許可獲證企業(yè)(QS)22297條;食品添加劑生產(chǎn)許可獲證企業(yè)1252條司报。

探碼科技智慧醫藥平臺

特殊食品數據

特殊食品數據包括:國家保健食品16732條;進(jìn)口保健食品780條;嬰幼兒配方乳粉產(chǎn)品配方1269條;特殊醫學(xué)用途配方食品35條现熔。

探碼科技智慧醫藥平臺

廣告數據

廣告數據包括:保健食品廣告49028條;全國收回或撤銷(xiāo)保健食品廣告30條。

探碼科技智慧醫藥平臺

藥品監管信息數據


藥品監管信息數據共283,3073條,包括6828條全國藥品抽檢數據、134,8272條藥品數據;64,7012條醫療器械數據;259960條化妝品數據;18,4117條廣告數據以及38,6884條其他相關(guān)數據引笛。

探碼科技智慧醫藥平臺

藥品數據

藥品數據包括:國產(chǎn)藥品165425條;藥品注冊228809條;中藥提取物數據3902條;國產(chǎn)藥品商品名7084條;藥品注冊相關(guān)專(zhuān)利1935條;藥物臨床試驗機構名單1546條;進(jìn)口藥品4074條;藥品生產(chǎn)企業(yè)7998條;進(jìn)口藥品商品名5614條;GMP認證15115條;藥品經(jīng)營(yíng)企業(yè)531426條;批準的藥包5808條;? 批件發(fā)送信息4348條;GSP認證352133條;中藥保護品種197條;OTC化學(xué)藥品1198條;OTC中藥說(shuō)明書(shū)范本4713條;國家基本藥物685條;中國上市藥品目錄集 非處方藥遴選及轉換目錄數據庫-化學(xué)藥品1091條;非處方藥遴選及轉換目錄數據庫-中藥3907條;藥品出口銷(xiāo)售證明878條。

探碼科技智慧醫藥平臺

醫療器械數據

國產(chǎn)器械161797條;國產(chǎn)器械(歷史數據)40840條;醫療器械標準目錄1587條;進(jìn)口器械53122條;進(jìn)口器械(歷史數據)12487條;體外診斷試劑分類(lèi)子目錄(2013版)766條;醫療器械檢測中心受檢目錄32933條;醫療器械分類(lèi)目錄1624條 ;進(jìn)口第一類(lèi)醫療器械(含第一類(lèi)體外診斷試劑)備案信息9175條;醫療器械生產(chǎn)企業(yè)(許可) 2395條;醫療器械生產(chǎn)企業(yè)(備案)2468條;醫療器械經(jīng)營(yíng)企業(yè)(許可)103679條;醫療器械經(jīng)營(yíng)企業(yè)(備案)224139條 。

探碼科技智慧醫藥平臺

化妝品數據

化妝品數據包括:國產(chǎn)特殊用途化妝品42174條;進(jìn)口化妝品213649條;國產(chǎn)非特殊用途化妝品備案檢驗機構222條;化妝品生產(chǎn)許可獲證企業(yè)(歷史數據)3880條;化妝品行政許可檢驗機構.35條。

探碼科技智慧醫藥平臺

廣告數據

廣告數據包括:藥品廣告93597條邢超;醫療器械廣告89875條哈扮;虛假廣告企業(yè)名錄82條;可發(fā)布處方藥廣告的醫學(xué)藥學(xué)專(zhuān)業(yè)刊物名單563條盾摹。

探碼科技智慧醫藥平臺

其他數據

互聯(lián)網(wǎng)藥品信息服務(wù)15669條;互聯(lián)網(wǎng)藥品交易服務(wù)992條;網(wǎng)上藥店693條;執業(yè)藥師注冊人員369530條侣侥。

探碼科技智慧醫藥平臺

需求分析

定制國家藥監局網(wǎng)站以下數據的采集規則(共12個(gè)數據庫)官網(wǎng)地址

探碼科技智慧醫藥平臺

以國產(chǎn)藥品為例(訪(fǎng)問(wèn)地址

探碼科技智慧醫藥平臺

抓取整個(gè)數據庫的每條數據的詳細信息

探碼科技智慧醫藥平臺探碼科技智慧醫藥平臺

可研究通過(guò)數據的ID號進(jìn)行抓取,通過(guò)調整抓取ID號的范圍獲取需要范圍內的數據

探碼網(wǎng)絡(luò )大數據采集系統

探碼科技基于云計算研發(fā)的探碼Web大數據采集系統——利用眾多的云計算服務(wù)器協(xié)同工作催首,能快速采集大量數據。
探碼通過(guò)網(wǎng)絡(luò )爬蟲(chóng)對相關(guān)網(wǎng)站進(jìn)行全方位實(shí)時(shí)的匯總采集麸媒。針對政府開(kāi)放數據,對相關(guān)數據字段進(jìn)行全自動(dòng)化采集,借助網(wǎng)絡(luò )爬蟲(chóng)或網(wǎng)站API,從網(wǎng)頁(yè)獲取食品藥品監管信息數據,將其統一儲存為本地數據嚣拔。
網(wǎng)絡(luò )數據采集平臺在獲得所需的數據并將其分解為有用的組件之后鹤协,通過(guò)可擴展的方法來(lái)將所有提取和解析的數據存儲在數據庫或集群中,然后創(chuàng )建一個(gè)允許用戶(hù)可及時(shí)查找相關(guān)數據集或提取的功能。
整體框架如圖:

探碼科技智慧醫藥平臺

食品藥品監管信息采集方案

食品藥品監管信息采集平臺是探碼針對政府網(wǎng)站數據量大、防爬取措施嚴格布陡、訪(fǎng)問(wèn)頻率限制等問(wèn)題提供的食品藥品監管信息大數據采集方案。
食品藥品監管信息采集平臺是探碼科技基于網(wǎng)絡(luò )數據采集技術(shù),打造的食品、藥品仗筐、保健品、化妝品、醫療器械全維度大數據服務(wù)平臺精居。它對政府開(kāi)放數據、第三方數據续革、補充數據等進(jìn)行整合并形成數據服務(wù),提升數據共享效率。

探碼科技智慧醫藥平臺

食品藥品監管信息采集技術(shù)架構

  • 采集目標:采集政府食品藥品監管信息數據開(kāi)放網(wǎng)站散吵,實(shí)時(shí)覆蓋網(wǎng)站的食品藥品監管信息。
  • 采集細節:實(shí)現24h自動(dòng)化爬蟲(chóng),網(wǎng)站目錄(含子目錄)的所有食品藥品監管信息數據,如:食品藥品抽檢砾层、企業(yè)生產(chǎn)許可、醫療器械備案顽染、化妝品備案等。
  • 數據治理:根據客戶(hù)需求對數據進(jìn)行歸類(lèi)、匯總数荤。
  • 服務(wù)方式:提供API高級數據接口,實(shí)現數據自動(dòng)同步到后臺數據庫霸颖,實(shí)時(shí)掌握數據動(dòng)態(tài)。

探碼科技智慧醫藥平臺

采集過(guò)程

探碼科技智慧醫藥平臺

列表頁(yè)數據預覽,但是列表頁(yè)里面中href的鏈接組合成url訪(fǎng)問(wèn)不了詳情頁(yè),這導致大部分市面上的自動(dòng)化采集系統無(wú)法獲得詳情頁(yè)數據。

我們通過(guò)自研的可視化采集系統譬辙,正確的讀取詳情頁(yè)URL,列表頁(yè)可以獲取javascript:commitForECMA(callbackC,"content.jsp?tableId=25&tableName=TABLE25&tableView=國產(chǎn)藥品&Id=109228",null)? 這個(gè)js命令,? 采集系統先加載主頁(yè) 然后執行這個(gè)js命令就可以得到詳情頁(yè)。

探碼科技智慧醫藥平臺

如果只是通過(guò)抓取目錄列表的方式去采集數據塑赁,這種方式有個(gè)問(wèn)題就是不好監測它哪些是新數據,哪些是舊數據好阎。雖然是可以全庫采集下來(lái)后再比對選出新數據,但是這樣的處理速度就會(huì )受到影響罚勾,特別是它上面有些數據庫的數據量比較大的,例如藥品經(jīng)營(yíng)企業(yè)有60萬(wàn)條的數據锻踊,如果每次都全庫采集需要幾天時(shí)間,如果可以通過(guò)ID的方式采集的話(huà)途烧,每個(gè)月只要采集新增的1~2萬(wàn)條ID的數據即可。而且還可以每天監測它新增了多少數據飘疾,新增的哪些數據。而通過(guò)我們的可視化采集系統扩所,即可方便的解決這個(gè)問(wèn)題。

探碼科技智慧醫藥平臺

詳情頁(yè)數據預覽

?

總結

通過(guò)多維度的共享數據,搭建全國最全的食品藥品監管信息大數據平臺,實(shí)現各級食品藥品監管部門(mén)間系統互聯(lián)、信息互通、業(yè)務(wù)協(xié)同、統一高效蹂午。目前探碼科技已經(jīng)收集了近千萬(wàn)條食品藥品監管信息,并且可實(shí)現實(shí)時(shí)增量采集掉环,為您提供信息最全,覆蓋面最廣的食品藥品監管信息數據服務(wù)押恢。

相關(guān)鏈接:

食品安全國家標準

中國食品藥品標準及補充檢驗方法查詢(xún)

醫療器械強制性行業(yè)標準

藥品補充檢驗方法

國家藥品監督信息化標準

《食品藥品監管局數據統計(截止至2019年8月)》下載:【聯(lián)系我們】或者關(guān)注【探碼科技】微信公眾號,回復關(guān)鍵詞“食品藥品”即可究视。

蜀ICP備15035023號-4