python 使用selenium模块实现自动搜索百度百科词条（模拟人工搜索）

目标：模拟人工搜索百度百科词条，爬取相关信息，自动删除上一个关键词，输入新关键词，继续搜索，直到循环结束。

代码：

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

import time

from bs4 import BeautifulSoup

univs = ['清华大学', '不知道大学', '北京大学']

AllUnivInfolist = []

browser = webdriver.Firefox()  # 创建一个浏览器对象,这里还可以使用chrome等浏览器

try:

    browser.get('https://baike.baidu.com/')  # 打开百科

    for univ in univs:

        browser.find_element_by_id('query').send_keys(univ)  # 找到输入框输入字段

        time.sleep(3)

        browser.find_element_by_id('search').send_keys(Keys.ENTER)  # 找到搜索按钮模拟点击

        time.sleep(3)

        html = browser.page_source  # 获取html页面

        soup = BeautifulSoup(html, 'html.parser')  # beautifulsoup库解析html

        title = soup.find_all('dt', class_="basicInfo-item name")  # key

        node = soup.find_all('dd', class_="basicInfo-item value")  # value

        allunivinfo = []

        titlelist = []

        infolist = []

        for i in title:  # 将所有dt标签内容存入列表

            title = i.get_text()

            titlelist.append(title)

        for i in node:  # 将所有dd标签内容存入列表

            info = i.get_text()

            infolist.append(info)

        for i, j in zip(titlelist, infolist):  # 多遍历循环，zip()接受一系列可迭代对象作为参数，将对象中对应的元素打包成一个个tuple（元组），然后返回由这些tuples组成的list（列表）。

            info = ''.join((str(i) + ':' + str(j)).split())

            allunivinfo.append(info)

        AllUnivInfolist.append(allunivinfo)

        # 模拟ctrl+a 操作 全选输入框内容

        browser.find_element_by_id('query').send_keys(Keys.CONTROL, 'a')

        time.sleep(3)

        # 删除输入框内容 (删除操作 模拟键盘的Backspace)

        browser.find_element_by_id('query').send_keys(Keys.BACK_SPACE)

        time.sleep(3)

finally:

    browser.quit()

with open("AllUnivInfo.txt", "wt", encoding='utf8') as out_file:

    for u in AllUnivInfolist:

        out_file.write(str(u)+'\n')

运行结果（部分）：

python 使用selenium模块实现自动搜索百度百科词条（模拟人工搜索）的更多相关文章

python简单爬虫用beautifulsoup爬取百度百科词条
目标:爬取“湖南大学”百科词条并处理数据需要获取的数据: 源代码: <div class="basic-info cmn-clearfix"> <dl clas ...
python使用selenium，webdriver自动下载百度网盘内容
想实现一个自动下载微信公众号分享百度网盘图片链接的爬虫,使用selenium和火狐的webdriver进行完成 1.首先根据自己的浏览器下载相应的webdriver驱动器,python中导入selen ...
Python学习--Selenium模块学习(2)
Selenium的基本操作获取浏览器驱动寻找方式 1. 通过手动指定浏览器驱动路径2. 通过 `$PATH`环境变量找寻浏览器驱动可参考Python学习--Selenium模块简单介绍(1) 控制 ...
Python学习--Selenium模块
1. Python学习--Selenium模块介绍(1) 2.Python学习--Selenium模块学习(2) 其他: 1. Python学习--打码平台
Python 爬虫实例(爬百度百科词条)
爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入 ...
python+selenium+chrome实现自动登录百度
#python3.4+selenium3.5+chrome版本 63.0.3239.132+chrome驱动chromedriver.exe #实现自动登录百度 from selenium impor ...
Python爬虫——selenium模块
selenium模块介绍 selenium最初是一个测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览 ...
Python中Selenium模块的使用
目录 Selenium的介绍.配置和调用 Selenium的配置 Selenium的调用 Selenium的使用定位定位元素的使用定位下拉标签元素在iframe框架之间切换上传文件 Webd ...
python 使用selenium模块爬取同一个url下不同页的内容（浏览器模拟人工翻页）
页面翻页,下一页可能是一个新的url 也有可能是用js进行页面跳转,url不变,解决方法是实现浏览器模拟人工翻页目标:爬取同一个url下不同页的数据(上述第二种情况) url:http://www. ...

随机推荐

【SSL Certificates】什么是数字证书（Certificates）？
本文涉及的相关问题,如果你的问题或需求有与下面所述相似之处,请阅读本文 ssl certificate 什么是ssl certificates? SSL Certificates 是一种使用数字加密技 ...
foreach循环里不能remove/add元素的原理
foreach循环 foreach循环(Foreach loop)是计算机编程语言中的一种控制流程语句,通常用来循环遍历数组或集合中的元素.Java语言从JDK 1.5.0开始引入forea ...
小程序之 swiper高度根据图片高度变化
今天做的是这个效果⬇️ swiper的高度根据图片的高度而改变 wxml:<swiper indicator-dots="{{indicatorDots}}" vertic ...
mysql查询表是否存在
查询表是否存在 SHOW TABLES LIKE "表名" tp5查询表是否存在 Db::query('SHOW TABLES LIKE "表名"');
Cordova入门系列（一）创建项目
Cordova是什么? 初学Cordova的人,虽然了解一点点,知道Cordova是用来将html, css, js变成app的,但并不知道到底是怎么用的,原理是什么.经常会有这样的困惑: 它是一个可 ...
Lab 10-1
This lab includes both a driver and an executable. You can run the executable from anywhere, but in ...
VBA正则笔记理解肯定环视
之前没有理解好,还以为是学习笔记有谬误. 'VBA正则笔记肯定环视 Public Sub RegExHandle() Dim Regex As Object Dim Mh As Object, On ...
Python汉诺塔问题
汉诺塔描述古代有一座汉诺塔,塔内有3个座A.B.C,A座上有n个盘子,盘子大小不等,大的在下,小的在上,如图所示.有一个和尚想把这n个盘子从A座移到C座,但每次只能移动一个盘子,并且自移动过程中,3 ...
Notepad++编译和运行C语言（GCC）
我们在学习C语言的时候,实际上只需要编译器和编辑器就能开搞了.(初学者过早接触IDE不利于理解程序构建的过程) 在看这篇文章的时候,假设你已经知道如何把GCC配置到环境变量,并且会在命令行/终端下使用 ...
Arthur and Walls CodeForces - 525D (bfs)
大意: 给定格点图, 每个'.'的连通块会扩散为矩形, 求最后图案. 一开始想得是直接并查集合并然后差分, 但实际上是不对的, 这个数据就可以hack掉. 3 3 **. .** ... 正解是bfs ...

python 使用selenium模块实现自动搜索百度百科词条（模拟人工搜索）

python 使用selenium模块实现自动搜索百度百科词条（模拟人工搜索）的更多相关文章

随机推荐

热门专题