python3爬取中国药学科学数据

今天我表弟说帮忙爬一下中国药学科学数据，导出json格式给他。一共18万条数据。

看了一下网站http://pharm.ncmi.cn/dataContent/admin/index.jsp?submenu=183

竟然get请求。不爬你爬谁。。。

#/usr/bin/env python

#Guoyabin

#-*- coding:utf-8 -*-

import re,requests,threading,time

def inserttxt(file,text):

	f=open(file,'a+')

	f.write(text)

	f.close()

def down(begin,end):

	url='http://pharm.ncmi.cn/dataContent/dataSearch.do'

	for i in range(begin,end):

		file=str(end)+'.txt'

		params={'method':'viewpage','id':i,'did':26}

		try:

			html=requests.get(url,params=params,timeout=60)

			r=html.text.replace("\r","")

			html.close()

			r=r.replace("\n","")

			r=r.replace("\t","")

			r=r.replace("&gt;","")

			req='width="89%">(.*?) </td>'

			yaovalue=re.findall(req,r)

			yaokey=['{\nname:"','",\nenglish:"','",\nnumber:"','",\nshanpinmingchen:"','",\ndanwei:"','",\ndate:"','",\nclass:"','",\nguige:"','",\njixing:"','",\nleibie:"','",\npizhun:"']

			yao=zip(yaokey,yaovalue)

			for i in yao:

				for x in i:

					inserttxt(file,x)

			inserttxt(file,'"\n},\n')

			#休息3秒在爬，原来没有休息。导致大量TCP连接。且对方直接封我ip。

                        #18万条数据/10线程*3秒等待/60秒/60分=15个小时拿完对方数据。不如改一下程序，多台独立IP电脑运行了。

			time.sleep(3)

		except:

			print('url访问失败')

			continue

if __name__=='__main__':

	t1=threading.Thread(target=down,args=(2228,20000,))

	t1.start()

	t2=threading.Thread(target=down,args=(20000,40000,))

	t2.start()

	t3=threading.Thread(target=down,args=(40000,60000,))

	t3.start()

	t4=threading.Thread(target=down,args=(60000,80000,))

	t4.start()

	t5=threading.Thread(target=down,args=(80000,100000,))

	t5.start()

	t6=threading.Thread(target=down,args=(100000,120000,))

	t6.start()

	t7=threading.Thread(target=down,args=(120000,140000,))

	t7.start()

	t8=threading.Thread(target=down,args=(140000,160000,))

	t8.start()

	t9=threading.Thread(target=down,args=(16000,180000,))

	t9.start()

	t10=threading.Thread(target=down,args=(18000,183662,))

	t10.start()

	t10.join()

	input('已经下载完，按回车退出')

　　开始运行了几次没问题，已经爬下一半了，过了一会直接被封了。可能爬的太快了。容我做个悲伤的表情。

无耻的求一下赞助

python3爬取中国药学科学数据的更多相关文章

初识python 之爬虫：爬取中国天气网数据
用到模块: 获取网页并解析:import requests,html5lib from bs4 import BeautifulSoup 使用pyecharts的Bar可视化工具"绘制图表& ...
python爬取中国天气网站数据并对其进行数据可视化
网址:http://www.weather.com.cn/textFC/hb.shtml 解析:BeautifulSoup4 爬取所有城市的最低天气对爬取的数据进行可视化处理按温度对城市进行排 ...
python3爬取拉钩招聘数据
使用python爬去拉钩数据第一步:下载所需模块 requests 进入cmd命令 :pip install requests 回车联网自动下载 xlwt 进入cmd命令 :pip install ...
python3抓取中国天气网不同城市7天、15天实时数据
思路:1.根据city.txt文档来获取不同城市code2.获取中国天气网7d和15d不同城市url3.利用requests库请求url获取html内容4.利用beautifulsoup获取7d和15 ...
Python爬取中国天气网
Python爬取中国天气网基于requests库制作的爬虫. 使用方法:打开终端输入 “python3 weather.py 北京(或你所在的城市)" 程序正常运行需要在同文件夹下加入一个 ...
Python3 爬取微信好友基本信息，并进行数据清洗
Python3 爬取微信好友基本信息,并进行数据清洗 1,登录获取好友基础信息: 好友的获取方法为get_friends,将会返回完整的好友列表. 其中每个好友为一个字典列表的第一项为本人的账号信息 ...
Python3爬取人人网（校内网）个人照片及朋友照片，并一键下载到本地~~~附源代码
题记: 11月14日早晨8点,人人网发布公告,宣布人人公司将人人网社交平台业务相关资产以2000万美元的现金加4000万美元的股票对价出售予北京多牛传媒,自此,人人公司将专注于境内的二手车业务和在美国 ...
python3爬取微博评论并存为xlsx
python3爬取微博评论并存为xlsx**由于微博电脑端的网页版页面比较复杂,我们可以访问手机端的微博网站,网址为:https://m.weibo.cn/一.访问微博网站,找到热门推荐链接我们打开微 ...
python3爬取全民K歌
Python3爬取全民k歌环境 python3.5 + requests 1.通过歌曲主页链接爬取首先打开歌曲主页,打开开发者工具(F12). 选择Network,点击播放,会发现有一个请求返回的 ...

随机推荐

使用jadx反编译调试“XX值得买”APP获取接口签名key（一）
闲来无事,想抓取一下"XX值得买"上排行榜的即时数据,按照通用方法安装夜神模拟器新增android 5.0版模拟器安装xposed框架安装JustTrustMe.apk 打 ...
校招——面试（Android岗）总结
PS:持续更新,未完待续 2016.8.24某为面试自我介绍一下链表和数组的区别数组的存储空间是静态.连续分布的,初始化过大会造成空间浪费,过小会使空间溢出:链表的存储空间是动态分布的,只要内存 ...
【记录一个问题】macos下使用opencl, clSetEventCallback不生效
一开始的调用顺序是这样: enqueueWriteBuffer enqueueNDRangeKernel enqueueReadBuffer SetEventCallback 执行后主程序用getch ...
fiddler-ios13以上信任证书后无法抓取https包
直接下载fiddler插件原始是不兼容https://telerik-fiddler.s3.amazonaws.com/fiddler/addons/fiddlercertmaker.exe
gin框架使用Air实时加载
Air实时加载本章我们要介绍一个神器--Air能够实时监听项目的代码文件,在代码发生变更之后自动重新编译并执行,大大提高gin框架项目的开发效率. 1.1.1. 为什么需要实时加载? 之前使用Pyt ...
Android 12(S) 图形显示系统 - SurfaceFlinger的启动和消息队列处理机制（四）
1 前言 SurfaceFlinger作为Android图形显示系统处理逻辑的核心单元,我们有必要去了解其是如何启动,初始化及进行消息处理的.这篇文章我们就来简单分析SurfaceFlinger这个B ...
使用Xamarin开发移动应用示例——数独游戏（二）创建游戏界面
在本系列第一部分,我们创建了程序框架,现在我们创建游戏的界面,项目代码可以从Github下载:https://github.com/zhenl/ZL.Shudu .代码随项目进度更新. 首先在View ...
洛谷P1002过河卒java100分题解
题目描述如图: 这道题我以前以回溯的方法做,只能拿到60分现在才发现是道动态规划题解题思路: 创建一个(0,0)到终点打小的二维数组表示棋盘每个坐标的值为此位置到终点的路数最下方一排和最右方一 ...
pod 详解
静态pod是由kubelet进行管理的仅存在于特定的node上的pod. pod容器共享volume同一个pod中的多个容器能够共享pod级别的存储卷volume pod的配置管理应用配置管理方案 ...
uni微信小程序优化，打包后的import vue路径是可删除的
这次的优化我公司项目主包只减小了32kb,但是减小的不仅仅是主包,所有分包均在没有改动任何业务代码的情况下完成了压缩空间的优化. 主包分包压缩空间的优化都要视项目而定,32kb只是我公司的小程序项目. ...

python3爬取中国药学科学数据

python3爬取中国药学科学数据的更多相关文章

随机推荐

热门专题