python爬虫-采集英语翻译
http://fanyi.baidu.com/?aldtype=85#en/zh/drug
http://fanyi.baidu.com/?aldtype=85#en/zh/cat
http://fanyi.baidu.com/?aldtype=85#en/zh/amoxicillin
url+word
# -*- coding: utf-8 -*-
"""
Created on Wed Mar  2 20:35:05 2016
@author: daxiong
"""
import openpyxl,selenium,bs4,requests
from selenium import webdriver
from openpyxl.cell import get_column_letter,column_index_from_string
excel_name='translation.xlsx'
#两个表格名字
sheet_name="Sheet1"
wb=openpyxl.load_workbook(excel_name)
sheet=wb.get_sheet_by_name(sheet_name)
English_columnname="A"
Chinese_columnname="B"
start=1
#根据列表索引字母,返回列表
def Get_column(columnname,thesheet):
    column_index=column_index_from_string(columnname)
    column=thesheet.columns[column_index-1]
    return column
#根据列,返回列的值,用列表存储
def Column_cellValues(column):
    cellValue_list=[]
    for cellObj in column[start:]: #console显示不全前面内容,出现第一项不是第一个
    #print(cellObj.value)
        cellValue_list.append(cellObj.value)
    return cellValue_list
#返回英语翻译网址列表
def Url_list(words_list):
    url_list=[]
    basic_url="http://fanyi.baidu.com/?aldtype=85#en/zh/"
    for word in words_list:
        url=basic_url+word
        url_list.append(url)
    return url_list
English_column=Get_column(English_columnname,sheet)
EnglishWords_list=Column_cellValues(English_column)
url_list=Url_list(EnglishWords_list)
#打开浏览器
#browser=webdriver.Firefox()
#browser.get(url_list[0])
res=requests.get(url_list[0])
res.raise_for_status()
soup=bs4.BeautifulSoup(res.text,"lxml") #如果没有"lxml"参数,在其他系统或虚拟机会出错
spanElems=soup.select('span')
python爬虫-采集英语翻译的更多相关文章
- python爬虫采集
		
python爬虫采集 最近有个项目需要采集一些网站网页,以前都是用php来做,但现在十分流行用python做采集,研究了一些做一下记录. 采集数据的根本是要获取一个网页的内容,再根据内容筛选出需要的数 ...
 - python爬虫调用谷歌翻译接口
		
2019年7月4日15:53:17 (¦3[▓▓] 晚安 谷歌翻译环境 Python 3.6 第三方库 Execjs (pip install PyExecJS ) 文件列表 同目录下的四个文件: - ...
 - 基于Python爬虫采集天气网实时信息
		
相信小伙伴们都知道今冬以来范围最广.持续时间最长.影响最重的一场低温雨雪冰冻天气过程正在进行中.预计,今天安徽.江苏.浙江.湖北.湖南等地有暴雪,局地大暴雪,新增积雪深度4-8厘米,局地可达10- ...
 - 抖音爬虫教程,python爬虫采集反爬策略
		
一.爬虫与反爬简介 爬虫就是我们利用某种程序代替人工批量读取.获取网站上的资料信息.而反爬则是跟爬虫的对立面,是竭尽全力阻止非人为的采集网站信息,二者相生相克,水火不容,到目前为止大部分的网站都还是可 ...
 - python爬虫-有道翻译-js加密破解
		
有道翻译-js加密破解 这是本地爬取的网址:http://fanyi.youdao.com/ 一.分析请求 我们在页面中输入:水果,翻译后的英文就是:fruit.请求携带的参数有很多,先将参数数据保存 ...
 - python 爬虫下载英语听力新闻(npr news)为mp3格式
		
想通过听实时新闻来提高英语听力,学了那么多年的英语,不能落下啊,不然白费背了那么多年的单词. npr news是美国国家公共电台,发音纯正,音频每日更新,以美国为主,世界新闻为辅,比如最近我国武汉发生 ...
 - python爬虫采集网站数据
		
1.准备工作: 1.1安装requests: cmd >> pip install requests 1.2 安装lxml: cmd >> pip install lxml ...
 - Python爬虫有道翻译接口
		
import urllib.request import urllib.parse import json import hashlib from datetime import datetime i ...
 - 编写python爬虫采集彩票网站数据,将数据写入mongodb数据库
		
1.准备工作: 1.1安装requests: cmd >> pip install requests 1.2 安装lxml: cmd >> pip install lxml ...
 
随机推荐
- Java实验二
			
北京电子科技学院(BESTI) 实 验 报 告 课程:Java程序设计 班级:1351 姓名:黄君如 学号:20135117 成绩: 指导教师:娄 ...
 - springboot整合fastJson遇到重定向问题
			
通过网上教程使用springboot整合fastJson后遇到页面重定向问题(使用的springboot版本是2.0.2.RELEASE ,其他的版本可能不会出现以下问题),如下图: 我的项目结构如下 ...
 - HDOJ2041_超级楼梯(斐波拉契数列)
			
正常简单题:通过仔细观察推断即可看出这是一个斐波拉契数列的题目. HDOJ2041_超级楼梯 在做这题的时候我误入了思维盲区,只想着什么方法可以解决,没有看出是斐波拉契数列.因此第一次用组合数方法打了 ...
 - TitleLayout——一个Android轻松实现通用、标准、支持沉浸式状态栏的标题栏库
			
TitleLayout 多功能.通用的.可在布局或者使用Java代码实现标题栏:支持沉浸式状态栏,支持左侧返回按钮(不需要手动实现页面返回),左侧支持图片+文字.图片.文字:右侧支持图片.文字等. 堆 ...
 - Linux查询用户和组的命令
			
root@PC-RENGUOQIANG:~# cat /etc/passwd root:x:::root:/root:/bin/bash daemon:x:::daemon:/usr/sbin:/us ...
 - Oracle 使用PDB 的情况下进行备份恢复的使用.
			
1. 关于directory: pdb 需要在container 上面创建directory才可以使用 CDB里面创建的directory是会无反应. 在PDB 里面创建: cmd 之后运行 set ...
 - K3CLOUD安装教程
			
1.安装SQLSERVER2008 2.安装K3CLOUD安装包,此处各种安装iis,tomcat,ftp等环境,有过it经验的应该都能自己搞定,不详细赘述 3.进入管理中心,进行设置,默认为127. ...
 - JavaScript高级程序设计 第六章 面向对象程序设计
			
面向对象程序设计 ECMA-262将对象定义为:“无序属性的集合,其属性可以包含基本值.对象或者函数.”严格来讲,这就相当于说对象是一组没有特定顺序的值.对象的每个属性和方法都有一个名字,而每个名字都 ...
 - Kivy crash 中文教程 实例入门 1. 第1个应用 Kivy App (Making a simple App)
			
1. 空白窗口 在 PyCharm 中创建一个名为 TutorialApp 的项目,然后在该项目中新建了个名为 tutorial_app.py 的 Python 源文件,在 PyCharm 的代码编 ...
 - 怎样让DBGrid在按住Shift点鼠标的同时能将连续范围的多行选中?
			
参见例子:…privateSel : Boolean ;//判断是否处于选择状态BookMark : TBookMark ;//记录先前的位置…procedure TForm1.DBGrid1Mous ...