python爬取页面内容

from selenium import webdriver
import xlwt

driver = webdriver.Chrome(r'D:\chromedriver.exe')
driver.maximize_window() #窗口最大化
workbook = xlwt.Workbook(encoding='ascii')
worksheet = workbook.add_sheet('抓取内容')
a1="https://baike.baidu.com/item/%E5%8D%8E%E4%B8%BAMate30/22592869?fr=aladdin"
a2="https://baike.baidu.com/item/%E5%8D%8E%E4%B8%BAP30/22778077?fr=aladdin"
a3="https://baike.baidu.com/item/%E5%8D%8E%E4%B8%BAP20/21971588?fr=aladdin"
for i in range(4):
if i == 1:
z = a1
driver.get(z)
v = driver.find_element_by_xpath('/html/body/div[4]/div[2]/div/div[2]/div[7]/dl[1]/dd[1]')
r0 = v.text
v1 = driver.find_element_by_xpath('/html/body/div[4]/div[2]/div/div[2]/div[7]/dl[1]/dd[2]')
r1 = v1.text
v2 = driver.find_element_by_xpath('/html/body/div[4]/div[2]/div/div[2]/div[7]/dl[1]/dd[3]')
r2 = v2.text
worksheet.write(i, 0, r0) # 写入
worksheet.write(i, 1, r1) # 写入
worksheet.write(i, 2, r2) # 写入

python爬取页面内容的更多相关文章

Python 爬取页面内容
import urllib.request import requests from bs4 import BeautifulSoup url = "http://www.stats.gov ...
[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...
python爬取糗百内容
#-*- coding: utf-8 -*- import urllib import urllib2 import re #页面为1 page=1 url='http://www.qiushibai ...
python爬取网站页面时，部分标签无指定属性而报错
在写爬取页面a标签下href属性的时候,有这样一个问题,如果a标签下没有href这个属性则会报错,如下: 百度了有师傅用正则匹配的,方法感觉都不怎么好,查了BeautifulSoup的官方文档,发现一 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取百度搜索结果ur汇总
写了两篇之后,我觉得关于爬虫,重点还是分析过程分析些什么呢: 1)首先明确自己要爬取的目标比如这次我们需要爬取的是使用百度搜索之后所有出来的url结果 2)分析手动进行的获取目标的过程,以便以程序 ...
Python爬取腾讯新闻首页所有新闻及评论
前言这篇博客写的是实现的一个爬取腾讯新闻首页所有的新闻及其所有评论的爬虫.选用Python的Scrapy框架.这篇文章主要讨论使用Chrome浏览器的开发者工具获取新闻及评论的来源地址. Chrom ...
python爬取网易云周杰伦所有专辑，歌曲，评论，并完成可视化分析
---恢复内容开始--- 去年在网络上有一篇文章特别有名:我分析42万字的歌词,为搞清楚民谣歌手们在唱些什么.这篇文章的作者是我大学的室友,随后网络上出现了各种以为爬取了XXX,发现了XXX为名的文章 ...
复仇者联盟3热映，我用python爬取影评告诉你它都在讲什么
Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象.直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理 ...

随机推荐

Linux从入门到精通系列之NFS
网络文件系统(NFS,Network File System)是一种将远程主机上的分区(目录)经网络挂载到本地系统的一种机制,通过对网络文件系统的支持,用户可以在本地系统上像操作本地分区一样来对远程主 ...
Xapian实战（一）：环境搭建 + 简介
1. 参考资料 http://xapian.org/docs/install.html Xapian的存储系统.性能以及检索模型等 2. 安装 1) xapian # ./configure --pr ...
数学--数论--HDU--5878 Count Two Three 2016 ACM/ICPC Asia Regional Qingdao Online 1001
I will show you the most popular board game in the Shanghai Ingress Resistance Team. It all started ...
ACM周记
放假一周了,虽然知识都学完了,但是使用和会用还是很难,不能在按着这个情形发展下去,这样的话肯定完成不了自己的任务,所以必须要改变自己的学习方法和学习态度,学习态度,一个星期也睡够放松够了,也玩够了,该 ...
用纯css、JavaScript、jQuery简单的轮播图
完成一个可以自动切换或点击数字的轮播图 HTML代码只需要一个div 包含着一个图片和一个列表,我们主要的思路就是通过点击相应的数字,改变图片的路径. 有4张图片都在img文件夹里,名称为 img ...
（2）.mybatis单元测试（junit测试）
一.Junit使用步骤:1.创建测试目录,(src.测试目录是test)2.在测试目录test中创建与src中相同的包名3.为需要测试的类创建测试类,例如:UsersMapper,测试类是UsersM ...
使用RSS订阅喜欢的微博博主
获取uid方法:进入博主微博主页,使用控制台执行 /uid=(\d+)/. exec(document.querySelector('.opt_box .btn_bed').getAttribute( ...
【Hadoop离线基础总结】HDFS的API操作
HDFS的API操作创建maven工程并导入jar包注意由于cdh版本的所有的软件涉及版权的问题,所以并没有将所有的jar包托管到maven仓库当中去,而是托管在了CDH自己的服务器上面,所以我 ...
[hdu5358]分类统计，利用单调性优化
题意:直接来链接吧http://acm.hdu.edu.cn/showproblem.php?pid=5358 思路:注意S(i,j)具有区间连续性且单调,而⌊log2x⌋具有区间不变性,于是考虑枚举 ...
[hdu5204]水题
思路:插入的数按指数级增长,所以范围内最多存在logR个数.并且最近i次插入的数,首位置为2^(i-1),且每隔2^i出现一次,于是暴力之..可以用插入排序维护,也可查询时再排下序. 一: #prag ...

python爬取页面内容

python爬取页面内容的更多相关文章

随机推荐

热门专题