使用Beautifulsoup爬取药智网数据

使用Beautifulsoup模块爬取药智网数据

Tips：1.爬取多页时，先用一页的做测试，要不然ip容易被封

2.自己常用的处理数据的方法：

reg=re.compile('正则表达式')

data=reg.sub('要替换的字符串',data)

代码（其实没多少）

 # encoding=utf-8

 from bs4 import  BeautifulSoup

 import urllib2

 import time

 class YBZC():

     def __init__(self):

         self.user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

         self.headers={'User-Agent':self.user_agent}

     def getHtml(self,pageIndex):

         try:

             url='http://db.yaozh.com/zhuce?p='+str(pageIndex)

             request=urllib2.Request(url,headers=self.headers)

             respone=urllib2.urlopen(request)

             html=respone.read()

             return html

         except urllib2.URLError,e:

             if hasattr(e,'reason'):

                 print u"连接失败",e.reason

                 return  None

     def getItems(self):

         for i in range(1,13):

             html=self.getHtml()

             soup=BeautifulSoup(html,"html.parser")

             tr_list=soup.find_all('tr')

             # 表格标题

             if i==1:

                 for item  in tr_list[0]:

                     if item not in ['\n','\t',' ']:

                         with open('yaopinzhuce1030.txt','a') as f:

                             f.write(item.get_text(strip=True).encode('utf-8')+'|')

                 #=========================2015-10-30================================

                 # 第一次的时候是现将数据全部都取下来，等存入文件的时候再筛选，现在直接筛选再

                 # 存入文件中，当时的时候并没有想到并且没有理解get_text()方法，这个也是

                 # 代码不精简的原因。。。。

                 #===================================================================

                 # list_tit=[]

                 # for ths in tr_list[0]:

                     # if ths.find('a'):

                 #         for item in ths:

                 #             if type(item)!=unicode:

                 #                 list_tit.append(item.string)

                 #     else:

                 #         list_tit.append(ths.get_text(strip=True))

                 # for item in list_tit:

                 #     if item not in ['',' ','\n','\t']:

                 #         with open('yaopinzhuce_new.txt','a') as f:

                 #             f.write(item.encode('utf-8')+'|')

             # 表格内容

             f=open('yaopinzhuce1030.txt','a')

             for tr in tr_list[1:]:

                 f.write('\n')

                 for item in tr:

                     if item not in ['',' ','\n']:

                        if item.string==None:

                             f.write('None'+'|')

                        else:

                             f.write(item.string.encode('utf-8')+'|')

             f.close()

             print 'sleeping... pageloading %d/12' %i

             time.sleep(5)

 spider=YBZC()

 spider.getItems()

使用Beautifulsoup爬取药智网数据的更多相关文章

八爪鱼采集器︱爬取外网数据（twitter、facebook）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 要想采集海外数据有两种方式:云采集+单机采集. ...
python3 requests + BeautifulSoup 爬取阳光网投诉贴详情实例代码
用到了requests.BeautifulSoup.urllib等,具体代码如下. # -*- coding: utf-8 -*- """ Created on Sat ...
java爬虫，爬取当当网数据
背景:女票快毕业了(没错!我是有女票的!!!),写论文,主题是儿童性教育,查看儿童性教育绘本数据死活找不到,没办法,就去当当网查询下数据,但是数据怎么弄下来呢,首先想到用Python,但是不会!!百 ...
python爬虫爬取赶集网数据
一.创建项目 scrapy startproject putu 二.创建spider文件 scrapy genspider patubole patubole.com 三.利用chrome浏览器 ...
【转】java爬虫，爬取当当网数据
背景:女票快毕业了(没错!我是有女票的!!!),写论文,主题是儿童性教育,查看儿童性教育绘本数据死活找不到,没办法,就去当当网查询下数据,但是数据怎么弄下来呢,首先想到用Python,但是不会!!百 ...
python爬取返利网中值得买中的数据
先使用以前的方法将返利网的数据爬取下来,scrapy框架还不熟练,明日再战scrapy 查找目标数据使用的是beautifulsoup模块. 1.观察网页,寻找规律打开值得买这块内容 1>分析 ...
初识python 之爬虫：爬取中国天气网数据
用到模块: 获取网页并解析:import requests,html5lib from bs4 import BeautifulSoup 使用pyecharts的Bar可视化工具"绘制图表& ...
使用python爬取东方财富网机构调研数据
最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...
基于爬取百合网的数据，用matplotlib生成图表
爬取百合网的数据链接:http://www.cnblogs.com/YuWeiXiF/p/8439552.html 总共爬了22779条数据.第一次接触matplotlib库,以下代码参考了matpl ...

随机推荐

JavaScript语言精粹读书笔记 - JavaScript函数
JavaScript是披着C族语言外衣的LISP,除了词法上与C族语言相似以外,其他几乎没有相似之处. JavaScript 函数: 函数包含一组语句,他们是JavaScript的基础模块单元,用于代 ...
PHP获取时间、时间戳的各种格式
1.获取当前时间方法date() 很简单,这就是获取时间的方法,格式为:date($format, $timestamp),format为格式.timestamp为时间戳--可填参数. 2.获取时间戳 ...
Hibernate 基础配置及常用功能（二）
本章主要是描述几种经典映射关系,顺带比较Hibernate4.x和Hibernate5.x之间的区别. 一.建立测试工程目录有关实体类之间的相互映射关系,Hibernate官方文档其实描述的非常详细 ...
LabVIEW如何调用C#Winform
界面交互并不是Labview的强项,使用Labview创建UI时候总会受制于VI有限的控件,有限的皮肤和有限的控件事件.而当需要实现UI的多文档的窗口,窗口的浮动停靠,动画等功能时还需要花很大的功夫. ...
代理 XP”组件已作为此服务器安全配置的一部分被关闭。系统管理员可以使用 sp_configure 来启用“代理 XP”。
新建维护计划的时候遇到下图的报错信息标题: Microsoft SQL Server Management Studio------------------------------ “代理 XP”组 ...
显示Class 'Think\Controller\FuController' not found和Call to a member function assign() on a non-object 的错误问题
Class 'Think\Controller\FuController' not found 错误位置 FILE: D:\wamp\www\tinkphp\Application\Come\Cont ...
C++Builder XE8_upd1破解安装成功纪要
1.先下载XE8,安装失败.2.后下载XE8U1(delphicbuilder_xe8_upd1_subscription.iso),安装,选择DelPhi.C++builder,输入系列号:3.安装 ...
最小化安装的CentOS7挂载ntfs格式的U盘
准备从系统中拷贝一些文件到U盘,插上U盘. 一.获得U盘的设备识别符 fdisk -l 啊哈,我看到了,是/dev/sdb1 二.熟练的挂载 mount /dev/sdb1 /mnt/usb Duan ...
arguments的理解
(function(){ return typeof arguments; })(); 无聊的时候看看网上的面试题.个人认为通过面试题可以对某个知识点能够更加认识,踩过坑才会明白坑是有多大.代码中经常 ...
Python中的join()函数的用法
函数:string.join() Python中有join()和os.path.join()两个函数,具体作用如下: join(): 连接字符串数组.将字符串.元组.列表中的元素以指定的字 ...

使用Beautifulsoup爬取药智网数据

使用Beautifulsoup爬取药智网数据的更多相关文章

随机推荐

热门专题