google image
google图片抓取
google图片是base64加密的,而且base64后的信息放在script信息里面
import pymysql
from lxml import etree
import logging
import requests
import time
import threading
from threading import RLock
import re
import os lock = RLock()
import base64
import ssl ssl._create_default_https_context = ssl._create_unverified_context # 添加日志 logging.basicConfig(
level=logging.INFO, # 定义输出到文件的log级别,大于此级别的都被输出
format='%(asctime)s %(filename)s %(levelname)s : %(message)s', # 定义输出log的格式
datefmt='%Y-%m-%d %H:%M:%S', # 时间
filename='drugimagesError.log', # log文件名
filemode='a') # 写入模式“w”或“a” class google_images(object): def __init__(self):
self.strat_record = 1
self.end_record = 10000001
self.db = pymysql.connect(host='localhost', port=3306, database='yao_zhi', user='root', password='root',
charset='utf8')
self.cursor = self.db.cursor()
self.headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"} while True:
self.parse_page() def parse_page(self):
lock.acquire()
num = self.cursor.execute(
"select id, me_pizhunwenhao, me_name, me_jixing, me_key from guo_cai_jin_kou_yao_pin where id > {} limit 1000".format(
self.strat_record))
lock.release()
if str(num) == str(0):
exit() data_tuple = self.cursor.fetchall()
threading_list = []
for data_one in data_tuple:
id = data_one[0]
approvalNumber = data_one[1]
drugName = data_one[2]
dosageForm = data_one[3]
try:
specifications = re.findall(r".+?,", data_one[4])[0]
except:
specifications = data_one[4]
self.strat_record = id
logging.info("id:%s approvalNumber:%s drugName:%s dosageForm:%s specifications:%s" % (
id, approvalNumber, drugName, dosageForm, specifications))
print("id:%s approvalNumber:%s drugName:%s dosageForm:%s specifications:%s" % (
id, approvalNumber, drugName, dosageForm, specifications)) if str(id) == str(self.end_record):
exit()
lock.acquire()
num = self.cursor.execute("select id from drugimages where approvalNumber = '{}' ".format(approvalNumber))
lock.release()
if not num:
t = threading.Thread(target=self.parse_page_data,
args=(id, approvalNumber, drugName, dosageForm, specifications,))
t.start()
threading_list.append(t)
time.sleep(3) for t_one in threading_list:
t_one.join() def parse_page_data(self, id, approvalNumber, drugName, dosageForm, specifications):
print("id:%s approvalNumber:%s drugName:%s specifications:%s" % (
id, approvalNumber, drugName, specifications))
keyword = drugName + ' ' + dosageForm + ' ' + specifications
url = 'https://www.google.com/search?biw=1920&bih=900&tbm=isch&q=%s' % keyword
print(url)
data_particular = etree.HTML(requests.get(url=url, headers=self.headers).content)
images_list = data_particular.xpath('//span[@id="xjs"]/script/text()')[0]
images_list_link = re.findall(r'data:image/jpeg;base64,/9j/4AAQSkZJRgABAQAAAQABAAD.*"\]?', images_list) num = 0
for link in images_list_link:
num += 1
url_link = link.replace('"]', '')
image = url_link.encode('utf-8').decode('unicode_escape')
image_data = image.replace('data:image/jpeg;base64,', '')
drugsql = "insert into drugimages(approvalNumber, drugName, specifications, image, num, durgid) values('{}', '{}', '{}', '{}', {}, {})"
drugsql_data = drugsql.format(approvalNumber, drugName, specifications, image, int(num), int(id))
print('sql_data:%s' % drugsql_data)
logging.info("id:%s approvalNumber:%s drugName:%s specifications:%s" % (
id, approvalNumber, drugName, specifications))
lock.acquire()
self.cursor.execute(drugsql_data)
self.db.commit()
lock.release()
pic_content = base64.b64decode(image_data)
page_id = int(id / 1000)
file = './images/' + 'page' + str(page_id) + '/'
if not os.path.exists(file):
os.makedirs(file)
files = file + 'id' + str(id) + '/'
if not os.path.exists(files):
os.makedirs(files)
file = open(files + str(approvalNumber) + '-' + str(num) + '.jpg', 'wb')
file.write(pic_content)
file.close()
if str(num) == str(30):
break if __name__ == '__main__':
google_images()
google image的更多相关文章
- Linux 利用Google Authenticator实现ssh登录双因素认证
1.介绍 双因素认证:双因素身份认证就是通过你所知道再加上你所能拥有的这二个要素组合到一起才能发挥作用的身份认证系统.双因素认证是一种采用时间同步技术的系统,采用了基于时间.事件和密钥三变量而产生的一 ...
- linux上使用google身份验证器(简版)
系统:centos6.6 下载google身份验证包google-authenticator-master(其实只是一个.zip文件,在windwos下解压,然后传进linux) #cd /data/ ...
- Google软件构建工具Bazel原理及使用方法介绍
近期,Google开源了强大的自动化构建工具Bazel. 正好博主近期在使用china版的Bazel--腾讯自主开发的Blade,所以准备跟大家分享一下Google Bazel这个分布式构建系统的原理 ...
- Google Java编程库Guava介绍
本系列想介绍下Java下开源的优秀编程库--Guava[ˈgwɑːvə].它包含了Google在Java项目中使用一些核心库,包含集合(Collections),缓存(Caching),并发编程库(C ...
- 序列化笔记之一:Google的Protocol Buffer格式分析
从公开介绍来看,ProtocolBuffer(PB)是google 的一种数据交换的格式,它独立于语言,独立于平台.作为一个学了多年通信的人,ProtocolBuffer在我看来是一种信源编码.所谓信 ...
- [异常解决] How make ubuntu use Google Search
1.Download the hosts file fromhttps://laod.cn/hosts/2016-google-hosts.html [1] 2.Write a bash shell ...
- Google翻译之路
如何将整个网站都翻译成某种语言,想必大家都有碰到这样的问题吧. 如果能够访问Google的话, 那这个太容易不过了. 来看,下面的就是Google提供的直接翻译某个网站. http://transla ...
- 使用google 语言 api 来实现整个网站的翻译
---恢复内容开始--- 使用google 语言 api 来实现整个网站的翻译,这时我们可以利用免费的google api来做处理来实现多语言的功能. 放在 HTML 文件中 <div id=& ...
- [转载]Google Guava官方教程(中文版)
原文链接 译文链接 译者: 沈义扬,罗立树,何一昕,武祖 校对:方腾飞 引言 Guava工程包含了若干被Google的 Java项目广泛依赖 的核心库,例如:集合 [collections] ...
- fir.im Weekly - 聊聊 Google 开发者大会
中国互联网的三大错觉:索尼倒闭,诺基亚崛起,谷歌重返中国.12月8日,2016 Google 开发者大会正式发布了Google Developers 中国网站 ,包含了Android Develope ...
随机推荐
- 分布式系统的Raft算法
好东西~~ 英文动画演示Raft 过去, Paxos一直是分布式协议的标准,但是Paxos难于理解,更难以实现,Google的分布式锁系统Chubby作为Paxos实现曾经遭遇到很多坑. 来自Stan ...
- solr 忽略大小写
1.types标签下加入如下fieldType <fieldType name="str_lower" class="solr.TextField" so ...
- Codeforces Round #493 (Div. 1)
A. /* 发现每次反转或者消除都会减少一段0 当0只有一段时只能消除 这样判断一下就行 */ #include<cstdio> #include<algorithm> #in ...
- SDOI2018物理实验
/* 向量运算不会呐 抄了一个长度几百行的模板 一直过不了编译 醉了 还是抄了大佬的代码 首先把所有的线段投影到 导轨上 然后用set 分上和下分别维护一下 距离导轨最近的线段 是能够照射到的 可以证 ...
- Django之Models进阶操作(字段属性)
字段属性详细介绍 一.字段 AutoField(Field) - int自增列,必须填入参数 primary_key=True BigAutoField(AutoField) - bigint自增列, ...
- 微信小程序开发warning: Now you can provide attr "wx:key" for a "wx:for" to improve performance
用微信官方的模板发现突然报了这个warning,检查原因: 官方解释: wx:key 如果列表中项目的位置会动态改变或者有新的项目添加到列表中,并且希望列表中的项目保持自己的特征和状态(如 <i ...
- 安全测试8_Web安全实战1(DVWA部署)
1.渗透神器的打造(火狐浏览器的打造) Firebug HackBar(渗透插件) Tamper Data(抓包.截包.改包等功能) Proxy Switcher(代理设置) 2.PHP环境安装(ph ...
- ES6学习笔记<五> Module的操作——import、export、as
import export 这两个家伙对应的就是es6自己的 module功能. 我们之前写的Javascript一直都没有模块化的体系,无法将一个庞大的js工程拆分成一个个功能相对独立但相互依赖的小 ...
- CMD命令行合并多个txt文件到一个txt文件
运行->输入CMD回车 输入: Copy G:\MyFolder\*.txt G:\NewFolder\a.txt 回车即可 意思是将G:\MyFolder\下的所有txt文本内容复制到G:\ ...
- JavaScript进行简单的随即验证码生成(适合和我一样刚入门一本完整的教材书都没看完的弟弟)
(感谢橙旭园给我打开了前端世界的大门) var checkcode = document.getElementById("code"); var btn = document.ge ...