使用Beautifulsoup爬取药智网数据

使用Beautifulsoup模块爬取药智网数据

Tips：1.爬取多页时，先用一页的做测试，要不然ip容易被封

2.自己常用的处理数据的方法：

reg=re.compile('正则表达式')

data=reg.sub('要替换的字符串',data)

代码（其实没多少）

 # encoding=utf-8

 from bs4 import  BeautifulSoup

 import urllib2

 import time

 class YBZC():

     def __init__(self):

         self.user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

         self.headers={'User-Agent':self.user_agent}

     def getHtml(self,pageIndex):

         try:

             url='http://db.yaozh.com/zhuce?p='+str(pageIndex)

             request=urllib2.Request(url,headers=self.headers)

             respone=urllib2.urlopen(request)

             html=respone.read()

             return html

         except urllib2.URLError,e:

             if hasattr(e,'reason'):

                 print u"连接失败",e.reason

                 return  None

     def getItems(self):

         for i in range(1,13):

             html=self.getHtml()

             soup=BeautifulSoup(html,"html.parser")

             tr_list=soup.find_all('tr')

             # 表格标题

             if i==1:

                 for item  in tr_list[0]:

                     if item not in ['\n','\t',' ']:

                         with open('yaopinzhuce1030.txt','a') as f:

                             f.write(item.get_text(strip=True).encode('utf-8')+'|')

                 #=========================2015-10-30================================

                 # 第一次的时候是现将数据全部都取下来，等存入文件的时候再筛选，现在直接筛选再

                 # 存入文件中，当时的时候并没有想到并且没有理解get_text()方法，这个也是

                 # 代码不精简的原因。。。。

                 #===================================================================

                 # list_tit=[]

                 # for ths in tr_list[0]:

                     # if ths.find('a'):

                 #         for item in ths:

                 #             if type(item)!=unicode:

                 #                 list_tit.append(item.string)

                 #     else:

                 #         list_tit.append(ths.get_text(strip=True))

                 # for item in list_tit:

                 #     if item not in ['',' ','\n','\t']:

                 #         with open('yaopinzhuce_new.txt','a') as f:

                 #             f.write(item.encode('utf-8')+'|')

             # 表格内容

             f=open('yaopinzhuce1030.txt','a')

             for tr in tr_list[1:]:

                 f.write('\n')

                 for item in tr:

                     if item not in ['',' ','\n']:

                        if item.string==None:

                             f.write('None'+'|')

                        else:

                             f.write(item.string.encode('utf-8')+'|')

             f.close()

             print 'sleeping... pageloading %d/12' %i

             time.sleep(5)

 spider=YBZC()

 spider.getItems()

使用Beautifulsoup爬取药智网数据的更多相关文章

八爪鱼采集器︱爬取外网数据（twitter、facebook）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 要想采集海外数据有两种方式:云采集+单机采集. ...
python3 requests + BeautifulSoup 爬取阳光网投诉贴详情实例代码
用到了requests.BeautifulSoup.urllib等,具体代码如下. # -*- coding: utf-8 -*- """ Created on Sat ...
java爬虫，爬取当当网数据
背景:女票快毕业了(没错!我是有女票的!!!),写论文,主题是儿童性教育,查看儿童性教育绘本数据死活找不到,没办法,就去当当网查询下数据,但是数据怎么弄下来呢,首先想到用Python,但是不会!!百 ...
python爬虫爬取赶集网数据
一.创建项目 scrapy startproject putu 二.创建spider文件 scrapy genspider patubole patubole.com 三.利用chrome浏览器 ...
【转】java爬虫，爬取当当网数据
背景:女票快毕业了(没错!我是有女票的!!!),写论文,主题是儿童性教育,查看儿童性教育绘本数据死活找不到,没办法,就去当当网查询下数据,但是数据怎么弄下来呢,首先想到用Python,但是不会!!百 ...
python爬取返利网中值得买中的数据
先使用以前的方法将返利网的数据爬取下来,scrapy框架还不熟练,明日再战scrapy 查找目标数据使用的是beautifulsoup模块. 1.观察网页,寻找规律打开值得买这块内容 1>分析 ...
初识python 之爬虫：爬取中国天气网数据
用到模块: 获取网页并解析:import requests,html5lib from bs4 import BeautifulSoup 使用pyecharts的Bar可视化工具"绘制图表& ...
使用python爬取东方财富网机构调研数据
最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...
基于爬取百合网的数据，用matplotlib生成图表
爬取百合网的数据链接:http://www.cnblogs.com/YuWeiXiF/p/8439552.html 总共爬了22779条数据.第一次接触matplotlib库,以下代码参考了matpl ...

随机推荐

一周试用yii开发一个带各种该有功能的web程序（三）
接上篇,为什么index 模版里没有任何有关require,inculde类型关键字,却任然有我们认为“多余”的字符出现.因为在至少我的认知里html的结构该是<html><head ...
MQ通道配置
转自:http://www.cnblogs.com/me115/p/3471788.html MQ通道配置通道是用来连接两个队列管理器的: 在单个队列管理器内读写消息不需要建立通道:但在一个队列管理 ...
AsyncTask 异步处理
1 package com.ch.day8_asynctaskdemo; 2 3 import java.util.ArrayList; 4 5 import com.ch.myutils.NetWo ...
Oracle学习笔记（1）----忘记用户名的密码该如何找回
(1)在连接数据库之前需要打开如下服务: (2)如果忘记用户的密码 I:打开cmd窗口 II:键入命令:connect / as sysdba; III:alter user 用户名 identifi ...
ubuntu vim8.0源码安装
安装篇从https://github.com/vim/vim下载相应zip源码文件,利用unzip vim-master.zip 命令解压到当前用户目录,即~: 解压后进入vim的src目录,首先, ...
Nginx与Lua利用fpm打成rpm包
1.下载相关软件需要软件有:Nginx,LuaJIT,ngx_devel_kit,ngx_lua等安装文件安装Lua或者LuaJIT都是可以的,但是出于效率的考虑,推荐安装LuaJITshell& ...
[程序设计语言]-[核心概念]-02:名字、作用域和约束(Bindings)
本系列导航本系列其他文章目录请戳这里. 1.名字.约束时间(Binding Time) 在本篇博文开始前先介绍两个约定:第一个是“对象”,除非在介绍面向对象语言时,本系列中出现的对象均是指任何可以有 ...
表单阻止技巧 JavaScript js
阻止表单的提交,可以用return false 来进行阻止长度不低于6,不高于20 if(username.length < 6 || username>20){ alert (&quo ...
利用wangEditor获取文章格式和内容
<%@ Page Language="C#" AutoEventWireup="true" CodeFile="Default.aspx.cs& ...
添加 index_combine hint的索引
想试验一下 index_combine这个hint,于是做了如下试验. 1.创建一个具有若干index的表 SQL> create table test as select object_id, ...

使用Beautifulsoup爬取药智网数据

使用Beautifulsoup爬取药智网数据的更多相关文章

随机推荐

热门专题