pyspider 简单应用之快速问医生药品抓取（一）

网址：http://yp.120ask.com/search/-0-0--0-0-0-0.html

from pyspider.libs.base_handler import *

class Handler(BaseHandler):

    crawl_config = {

    }

    @every(minutes=24 * 60)

    def on_start(self):

        #进入主页

        self.crawl('http://yp.120ask.com/search/-0-0--0-0-0-0.html', callback=self.list_page)

鼠标放在药品名字上面，右键审查元素

明显可以看到点击的网址在<a>标签里面右键 copy CSS选择器，如果想拿到这一页的所有点击的URL，多copy几个

#gallery > ul > li:nth-child(1) > dl > dd.s_dd1 > a

#gallery > ul > li:nth-child(2) > dl > dd.s_dd1 > a

#gallery > ul > li:nth-child(5) > dl > dd.s_dd1 > a

把不同的地方去掉

#gallery > ul > li > dl > dd.s_dd1 > a

拿到所有翻页的URL，右键审查下一页的元素，copy CSS选择器

body > div.g-index-con.m1100.clears > div.p_contright.fr > div.s_pagediv > div > a.page-next

或者写划横线的 a.page-next 也可以

 @config(age=10 * 24 * 60 * 60)

    def list_page(self, response):

        #模拟点击药品

        for each in response.doc('#gallery > ul > li > dl > dd.s_dd1 > a').items():

            self.crawl(each.attr.href, callback=self.index_page)

        #模拟点击下一页

        for each in response.doc('a.page-next').items():

            self.crawl(each.attr.href, callback=self.list_page)

所有的url 获取到后，抓取网页内的数据，使用pyquery 获取数据

    @config(age=10 * 24 * 60 * 60)

    def index_page(self, response):

        res={}

        #药品通用名称

        res['药品通用名称']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p.name.clears > var > i:nth-child(1)').text()

　　　　　　#商品名称
　　　　　　res['商品名称']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p.name.clears > var > i:nth-child(2)').text()

　　　　　　#汉语拼音
　　　　　　res['汉语拼音']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p.name.clears > var > i:nth-child(3)').text()

　　　　　　#药品主要成分
　　　　　　res['主要成分']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(2) > var').text()

　　　　　　#药品性状
　　　　　　res['药品性状']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(3) > var').text()

　　　　　　#试用症
　　　　　　res['试用症']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(4) > var').text()

　　　　　　#主治疾病
　　　　　　res['主治疾病']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(5) > var').text()

　　　　　　#规格型号
　　　　　　res['规格型号']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(6) > var').text()

　　　　　　#用法用量
　　　　　　res['用法用量']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(7) > var').text()

　　　　　　#不良反应
　　　　　　res['不良反应']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(8) > var').text()

　　　　　　#禁忌
　　　　　　res['禁忌']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(9) > var').text()

　　　　　　#注意事项
　　　　　　res['注意事项']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(10) > var').text()

　　　　　　#药物互相作用
　　　　　　res['药物互相作用']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(11) > var').text()

　　　　　　#贮藏
　　　　　　res['贮藏']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(12) > var').text()

　　　　　　#有效期
　　　　　　res['有效期']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(13) > var').text()

　　　　　　#执行标准
　　　　　　res['执行标准']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(14) > var').text()

　　　　　　#批准文号
　　　　　　res['批准文号']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(15) > var').text()

　　　　　　#生产企业
　　　　　　res['生产企业']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(16) > var').text()

这里博主把抓取到的数据存到mongo中，建立字典res

保存数据到 drugsss_information 集合里面

self.save_data('drugsss_information',res)

下面是存入到mongoDB中的函数

def save_data(self,table_name,result):

        conn = MongoClient("localhost",27017) 

        db = conn.Fast_ask_doctor_drugs

        print table_name

        posts = db[table_name]

        try:

            posts.insert(result)

        except Exception,e:

            print e

最后附上所有的代码

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

# Created on 2016-10-18 11:09:15

# Project: Drug_information

from pyspider.libs.base_handler import *

from pymongo import MongoClient

class Handler(BaseHandler):

    crawl_config = {

    }

    @every(minutes=24 * 60)

    def on_start(self):

        #进入主页

        self.crawl('http://yp.120ask.com/search/-0-0--0-0-0-0.html', callback=self.list_page)

    @config(age=10 * 24 * 60 * 60)

    def list_page(self, response):

        #模拟点击药品

        for each in response.doc('#gallery > ul > li > dl > dd.s_dd1 > a').items():

            self.crawl(each.attr.href, callback=self.index_page)

        #模拟点击下一页

        for each in response.doc('a.page-next').items():

            self.crawl(each.attr.href, callback=self.list_page)

    @config(age=10 * 24 * 60 * 60)

    def index_page(self, response):

        res={}

        #药品通用名称

        res['药品通用名称']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p.name.clears > var > i:nth-child(1)').text()

        #商品名称

        res['商品名称']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p.name.clears > var > i:nth-child(2)').text()

        #汉语拼音

        res['汉语拼音']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p.name.clears > var > i:nth-child(3)').text()

        #药品主要成分

        res['主要成分']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(2) > var').text()

        #药品性状

        res['药品性状']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(3) > var').text()

        #试用症

        res['试用症']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(4) > var').text()

        #主治疾病

        res['主治疾病']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(5) > var').text()

        #规格型号

        res['规格型号']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(6) > var').text()

        #用法用量

        res['用法用量']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(7) > var').text()

        #不良反应

        res['不良反应']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(8) > var').text()

        #禁忌

        res['禁忌']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(9) > var').text()

        #注意事项

        res['注意事项']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(10) > var').text()

        #药物互相作用

        res['药物互相作用']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(11) > var').text()

        #贮藏

        res['贮藏']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(12) > var').text()

        #有效期

        res['有效期']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(13) > var').text()

        #执行标准

        res['执行标准']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(14) > var').text()

        #批准文号

        res['批准文号']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(15) > var').text()

        #生产企业

        res['生产企业']=response.doc('body > div.drugCont > div.partTwo.clears > div.partTwoLeft > div.drugDecri > div > p:nth-child(16) > var').text()

        #print res

        self.save_data('drugsss_information',res)

    def save_data(self,table_name,result):

        conn = MongoClient("localhost",27017) 

        db = conn.Fast_ask_doctor_drugs

        print table_name

        posts = db[table_name]

        try:

            posts.insert(result)

        except Exception,e:

            print e

pyspider 简单应用之快速问医生药品抓取（一）的更多相关文章

Python爬虫入门教程 24-100 微医挂号网医生数据抓取
1. 写在前面今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的一些分析类的教程做 ...
使用Chrome快速实现数据的抓取（四）——优点
些一个抓取WEB页面的数据程序比较简单,大多数语言都有相应的HTTP库,一个简单的请求响应即可,程序发送Http请求给Web服务器,服务器返回HTML文件.交互方式如下: 在使用DevProtocol ...
使用Chrome快速实现数据的抓取（三）——JQuery
使用Chrome抓取页面一个非常方便的地方就是它可以执行JS,也就是说我们可以通过JS函数获取我们想要的数据.一个非常强大易用的库就是Jquery,本文就简单的介绍一下使用Chrome获取数据时Jqu ...
使用Chrome快速实现数据的抓取（五）—— puppeteer
如果要以自动化的方式驱动Chrome进行数据抓取,必须实现Chrome Dev Protocol协议的客户端.这个协议本身并不复杂,我在之前的文章中也简单的介绍过一下. Google本身有一个Node ...
使用Chrome快速实现数据的抓取（二）——协议
在前面的文章简单的介绍了一下Chrome调试模式的启动方式,但前面的API只能做到简单的打开,关闭标签操作,当我们需要对某个标签页进行详细的操作时,则需要用到页面管理API.首先我们还是来回顾下获取页 ...
使用Chrome快速实现数据的抓取（一）——概述
对于一些简单的网页,我们可以非常容易的通过Develop Tool来获取其请求报文规律,并仿照其构建报文来获取页面信息.但是,随着网页越来越复杂,许多页面是由js动态渲染生成的.要获取这类信息,则需要 ...
《编程快速上手》--web抓取--利用webbrowser模块的mapIT.py
1.代码如下 #! python3 # mapIT.py - Launches a map in the browser using an address from the # command lin ...
Python实现简单的网页抓取
现在开源的网页抓取程序有很多,各种语言应有尽有. 这里分享一下Python从零开始的网页抓取过程第一步:安装Python 点击下载适合的版本https://www.python.org/ 我这里选择 ...
利用JS跨域做一个简单的页面訪问统计系统
事实上在大部分互联网web产品中,我们一般会用百度统计或者谷歌统计分析系统,通过在程序中引入特定的JS脚本,然后便能够在这些统计系统中看到自己站点页面详细的訪问情况.可是有些时候,因为一些特殊情况,我 ...

随机推荐

动态加载jQuery
success: function(data){ for(var i in data){ $('.x-details>ul:eq(0)').append("<li>&quo ...
ado.net中，数据的批量处理
//btBigImport按钮点击事件 private void btBigImport_Click(object sender, RoutedEventArgs e) { //连接字符 ...
int->string-------------c
void intToString(int n,char a[]){ int i=1,m=n; while((n/=10)!=0) i++; int j=0; for(;j<i;j++){ a ...
010 winform
2016-01-23 1.winform应用程序是一种智能客户端技术,我们可以使用winform应用程序帮助我们获得信息或者传输信息等. 2.属性Name:在后台要获得前台的控件对象,需要使用Name ...
SoapUI中如何获取当前active环境
// Get the current selected Environment def activeEnv = testRunner.testCase.testSuite.project.getAct ...
Scala 编程---类和对象
类是对象的蓝图.一旦你定义了类,你就可以用关键字new从类的蓝图里创建对象.比方说,如果给出了类的定义: class ChecksumAccumulator { // class definition ...
输出MYSQL所有SQL语句
在my.cnf中的mysqld段增加如下参数,然后重启MYSQL: log-output = FILE general_log = 1 general_log_file = "D:/Visu ...
oracle问题
(1) 连通性: 注册中心负责服务地址的注册与查找,相当于目录服务,服务提供者和消费者只在启动时与注册中心交互,注册中心不转发请求,压力较小监控中心负责统计各服务调用次数,调用时间等,统计先在内存汇 ...
Linux内核分析——理解进程调度时机跟踪分析进程调度与进程切换的过程
20135125陈智威 +原创作品转载请注明出处 +<Linux内核分析>MOOC课程http://mooc.study.163.com/course/USTC-1000029000 实验 ...
redhat6.5修改yum为163源
把需要的安装包和配置文件打包,将命令整合到sh文件中,下载后解压运行yun_config.sh 即可下载链接

pyspider 简单应用之快速问医生药品抓取（一）

pyspider 简单应用之快速问医生药品抓取（一）的更多相关文章

随机推荐

热门专题