python爬虫：爬取医药数据库drugbank

这个是帮朋友做的，难点就是他们有一个反爬虫机制，用request一直不行，后面我就用selenium直接把网页copy下来，然后再来解析本地的html文件，就木有问题啦。

现在看来，写得有点傻，多包涵。

# -*- coding:utf-8 -*-

import os
import time
import datetime
import codecs
from lxml import etree
from selenium import webdriver
import csv
#控制编码，全英文网页，用不着
# import sys
# reload(sys)
# sys.setdefaultencoding('utf-8')

# # date格式转为string格式
today = datetime.date.today()
today_string = today.strftime('%Y-%m-%d')

#通过浏览器得到网页页面--反反爬虫
def html_getter(site,file_name):
    driver = webdriver.Firefox()
    # chromedriver = r'C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe'
    # os.environ['webdriver.chrome.driver'] = chromedriver
    # driver = webdriver.Chrome(chromedriver)
    driver.get(site)
    driver.maximize_window() # 将浏览器最大化显示
    time.sleep(5) # 控制间隔时间，等待浏览器反映
    # 保存页面
    source_code = driver.find_element_by_xpath("//*").get_attribute("outerHTML")
    f = codecs.open(file_name, 'w+', 'utf8')
    f.write(source_code)
    f.close()

#打开保存在本地的html文件
def file_html(file_name):
    f = open(file_name,'r')
    html = f.read()
    f.close()
    return html

#写入csv，也可以有其他写入方式，这个地方就csv啦
def csv_writer(ll):
    headers = ['drug','inter','snp_rs_id','Allele_name','Defining_change','Adverse_Reaction','ref','href','original_title']
    with open('drugbank.csv','a') as f:
        f_csv = csv.writer(f)
        f_csv.writerow(headers)
        f_csv.writerows(ll)

#用xpath解析网页，得到表格数据，我就是这么爱xpath，不喜欢正则表达式
def data_get(html):
    selector = etree.HTML(html)
    tbody=selector.xpath('/html/body/main/table/tbody/tr')
    for each in tbody:
        # #1.'drug'
        drug_name=each.xpath('td[1]/strong/text()')[0]
        drug_sn=each.xpath('td[1]/a/text()')[0]
        drug=drug_name+'   '+drug_sn
        # #print(drug)
        # #2.'Interacting Gene/Enzyme'
        int=each.xpath('td[2]')[0]
        inter=int.xpath('string(.)')
        # print(inter)
        # #3.'SNP RS ID'
        snp=each.xpath('td[3]/a/text()')
        if snp:
            snp_rs_id=snp[0]
        else:
            snp_rs_id='Not Available   '
        #print snp_rs_id
        #4.Allele name
        Allele=each.xpath('td[4]/text()')
        if Allele:
            Allele_name=Allele[0]
        else:
            Allele_name='Not Available '
        # #print Allele_name
        # #5.'Defining change'
        Defining=each.xpath('td[5]/text()')
        if Defining:
            Defining_change=Defining[0]
        else:
            Defining_change='Not Available '
        # print Defining_change
        # 6.'Adverse Reaction'
        Adverse=each.xpath('td[6]/text()')
        if Adverse:
            Adverse_Reaction=Adverse[0]
        else:
            Adverse_Reaction='Not Available    '
        # print Adverse_Reaction
        #7.'Reference(s)'
        ref=each.xpath('td[7]/span/a/text()')[0]
        href=each.xpath('td[7]/span/a/@href')[0]
        original_title=each.xpath('td[7]/span/a/@data-original-title')[0]
        # print ref
        # print(href)
        # print(original_title)

        tt=(drug,inter,snp_rs_id,Allele_name,Defining_change,Adverse_Reaction,ref,href,original_title)
        ll.append(tt)

#print ll

if __name__ == '__main__':
    ll=[]
    for i in range(1,5):
        page_num=i
        site='http://www.drugbank.ca/genobrowse/snp-adr?page='+str(page_num)
        #get the html through webdriver
        file_name=unicode(today_string)+u'drugbank_'+unicode(str(page_num))+u'.html'

        html_getter(site,file_name)
        html=file_html(file_name)
        data_get(html)
    csv_writer(ll)

python爬虫：爬取医药数据库drugbank的更多相关文章

python爬虫——爬取NUS-WIDE数据库图片
实验室需要NUS-WIDE数据库中的原图,数据集的地址为http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm 由于这个数据只给了每个图片的URL,所以需 ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...

随机推荐

函数编程中functor和monad的形象解释
函数编程中functor和monad的形象解释函数编程中Functor函子与Monad是比较难理解的概念,本文使用了形象的图片方式解释了这两个概念,容易理解与学习,分别使用Haskell和Swift ...
MVC 先后顺序
@foreach (var item in Model) { if (ViewBag.GetModel.ParentID == item.DictID) { <option value=&quo ...
switch 语句来选择要执行的多个代码块之一。
switch(n) { case 1: 执行代码块 1 break; case 2: 执行代码块 2 break; default: n 与 case 1 和 case 2 不同时执行的代码 }
路飞学城Python-Day142
第2节:UA身份伪装反爬机制 User-Agent:请求载体的身份标识通过不同的手段的当前的请求载体是不一样的,请求信息也是不一样的,常见的请求信息都是以键和值的形式存在浏览器的开发者工具 Ne ...
jQuery样式操作
获取样式和设置样式 <p class='myClass' title='this is p'>this is p</p> 样式其实就是class属性所以设置和获取样式都能用a ...
Flex简易教程
常见的前端布局模型涵盖浮动.定位和弹性盒等 CSS 技术,其中浮动和定位技术往往在制作自适应布局页面时显得不够优雅--对于浮动布局,前后端分离时代很多时候我们并不知道每行会遍历显示多少个元素,每个 ...
docker 私有仓库的两种方式
1.使用官方默认的registry镜像构建本地仓库这种方式适用于小规模的镜像仓库储存,没有Ui界面 (1)docker pull registry (2)docker run -d -p 5000: ...
Mac python3 环境下完善pdf转jpg脚本
由于样本图片数据都是保存在pdf里,想拿到样本必须先把图片从pdf中提取出来,算是数据清洗中的一点小小的积累吧. 这里不得不吐槽一下公司存储图片的机制,业务员把jpg格式的照片放到word里,然后用工 ...
tp3.1 白板不报错
今天有碰上了这种情况, 一般记忆力好把刚才改动的地方恢复一下就好了,但是今天特殊原因编辑器不小心关了,也不知道把那里改坏了,一通乱找,也找不到.汗! 没办法,提交代码几面,用git看下改变的地方,是c ...
Centos与Ubuntu命令
1.虽然Centos与Ubuntu都是linux的内核,但使用命令还是有所差别 2.如在Centos中跟新插件用的是:yum -y (yum后面有一个空格) 在Ubuntu中跟新插件用的是:apt ...

python爬虫：爬取医药数据库drugbank

python爬虫：爬取医药数据库drugbank的更多相关文章

随机推荐

热门专题