Python爬虫利器四之PhantomJS的用法

Python爬虫利器五之Selenium的用法

2-代码

from selenium import webdriver

from urllib2 import quote

import os

import time

os.getcwd()

os.chdir('/Users/.../python/mywork')

path='/usr/local/phantomjs-2.1.1-macosx 2/bin/phantomjs'

driver = webdriver.PhantomJS(executable_path=path)

def get_company_info(nm):

    url='http://www.tianyancha.com/search?key='+quote(nm)+'&checkFrom=searchBox'

    driver.get(url)

    time.sleep(1.0)

    try:

        url1=driver.find_element_by_css_selector('.query_name').get_attribute('href')

        driver.get(url1)

        time.sleep(1.0)

        text2=driver.find_element_by_css_selector('.company_info_text').text

        text3=driver.find_element_by_css_selector('.company-content').text

        print text2+text3

    except:

        print u"无法查到该公司相关信息"

3-查询结果

>>> get_company_info('百度')

北京百度网讯科技有限公司

电话: 010-59928888 邮箱: 暂无

网址: www.baidu.com

地址: 北京市海淀区上地十街10号百度大厦2层法定代表人：

注册资本：

梁志祥

89000 万元

状态：

注册时间：

开业

2001-06-05

行业：电信、广播电视和卫星传输服务

工商注册号：110108002734659

企业类型：有限责任公司(自然人投资或控股)

组织机构代码：802100433

营业期限：2001-06-05至2021-06-04

登记机关：北京市工商行政管理局

核准日期： 2016-05-11

统一信用代码：91110000802100433B

注册地址：北京市海淀区上地十街10号百度大厦2层

经营范围：因特信息服务业务（除出版、教育、医疗保健以外的内容）；第一类增值电信业务中的在线数据处理与交易处理业务、国内因特网虚拟专用网业务、因特网数据中心业务；第二类增值电信业务中的因特网接入服务业务、呼叫中心业务、信息服务业务（不含固定网电话信息服务和互联网信息服务）；利用互联网经营音乐娱乐产品，游戏产品运营，网络游戏虚拟货币发行，美术品，演出剧（节）目，动漫（画）产品，从事互联网文化产品展览、比赛活动（网络文化经营许可证有效期至2016年11月21日）；图书、电子出版物、音像制品批发、零售、网上销售；设计、开发、销售计算机软件；技术服务、技术培训、技术推广；经济信息咨询；利用www.baidu.com、www.hao123.com(www.hao222.net、www.hao222.com)、网站发布广告；设计、制作、代理、发布广告；货物进出口、技术进出口、代理进出口；医疗软件技术开发；委托生产电子产品、玩具、照相器材；销售家用电器、机械设备、五金交电、电子产品、文化用品、照相器材、计算机、软件及辅助设备、化妆品、卫生用品、体育用品、纺织品、服装、鞋帽、日用品、家具、首饰、避孕器具、工艺品、钟表、眼镜、玩具、汽车及摩托车配件、仪器仪表、塑料制品、花、草及观赏植物、建筑材料、通讯设备；预防保健咨询；公园门票、文艺演出、体育赛事、展览会票务代理。（企业依法自主选择经营项目，开展经营活动；增值电信业务以及依法须经批准的项目，经相关部门批准后依批准的内容开展经营活动；不得从事本市产业政策禁止和限制类项目的经营活动。）

>>> get_company_info('你是鬼你是鬼你是鬼')

无法查到该公司相关信息

4-总结

会写一点python了

用selenium爬动态网页的更多相关文章

Python爬虫使用selenium处理动态网页
对于静态网页,使用requests等库可以很方便的得到它的网页源码,然后提取出想要的信息.但是对于动态网页,情况就要复杂很多,这种页面的源码往往只有一个框架,其内容都是由JavaScript渲染出来的 ...
在python使用selenium获取动态网页信息并用BeautifulSoup进行解析--动态网页爬虫
爬虫抓取数据时有些数据是动态数据,例如是用js动态加载的,使用普通的urllib2 抓取数据是找不到相关数据的,这是爬虫初学者在使用的过程中,最容易发生的情况,明明在浏览器里有相应的信息,但是在pyt ...
selenium获取动态网页信息（某东）-具体配置信息
需要安装的包: selenium 关于软件的驱动:selenium之驱动环境配置chrome.firefox.IE 1 # encoding:utf-8 2 # Author:"richi ...
selenium+chromdriver 动态网页的爬虫
# 获取加载更多的数据有 2 种方法# 第一种就是直接找数据接口, 点击'加载更多' 在Network看下, 直接找到数据接口 # 第二种方法就是使用selenium+chromdriver # se ...
C# HtmlAgilityPack+Selenium爬取需要拉动滚动条的页面内容
现在大多数网站都是随着滚动条的滑动加载页面内容的,因此单纯获得静态页面的Html是无法获得全部的页面内容的.使用Selenium就可以模拟浏览器拉动滑动条来加载所有页面内容. 前情提要 C#HtmlA ...
动态网页爬取例子（WebCollector+selenium+phantomjs）
目标:动态网页爬取说明:这里的动态网页指几种可能:1)需要用户交互,如常见的登录操作:2)网页通过JS / AJAX动态生成,如一个html里有<div id="test" ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
动态网页爬取样例（WebCollector+selenium+phantomjs）
目标:动态网页爬取说明:这里的动态网页指几种可能:1)须要用户交互,如常见的登录操作:2)网页通过JS / AJAX动态生成.如一个html里有<div id="test" ...
爬虫（三）通过Selenium + Headless Chrome爬取动态网页
一.Selenium Selenium是一个用于Web应用程序测试的工具,它可以在各种浏览器中运行,包括Chrome,Safari,Firefox 等主流界面式浏览器. 我们可以直接用pip inst ...

随机推荐

【3dsMax安装失败，如何卸载、安装3dMax 2012？】
AUTODESK系列软件着实令人头疼,安装失败之后不能完全卸载!!!(比如maya,cad,3dsmax等).有时手动删除注册表重装之后还是会出现各种问题,每个版本的C++Runtime和.NET f ...
c#实现常用排序算法
让我们先看一看常用排序算法的效率对比接着请看代码和注释~ using System; using System.Collections.Generic; using System.Linq; usi ...
ReactJS 页面跳转保存当前scrollTop回来时，自动移动到上次浏览器的位置
在移动端的操作的时候,相信大家都遇到到这种情况,翻了好几页了,点击一项进去查,然后回来的时候,还想回来我原来的位置. google上也找了一此,有一个组件,但是好像是如果想实现这个功能,页面就得用那个 ...
在Spark shell中基于HDFS文件系统进行wordcount交互式分析
Spark是一个分布式内存计算框架,可部署在YARN或者MESOS管理的分布式系统中(Fully Distributed),也可以以Pseudo Distributed方式部署在单个机器上面,还可以以 ...
tabs(标签页的现成页面)原生js写法
直接上代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w ...
C#异步执行带有返回值和参数的方法，且获取返回值
很多时候需要用到这些小知识点,做做笔记一起成长下面是需要异步执行的方法 //获取所有的邮件 private List<EmailModel> GetEmailOnlyCount(POP3 ...
roboframework-ride运行案例时报 Error 267 错误问题
偶然间碰到这个问题,检查下路径是否有中文,如有中文换成英文试试. (ps:通常自己创建的中文路径也是可以的,我的案例是从Linux环境中创建拷贝过来的,可能导致案例路径编码问题)
BNU 20860——Forwarding Emails——————【强连通图缩点+记忆化搜索】
Forwarding Emails Time Limit: 1000ms Memory Limit: 131072KB This problem will be judged on UVA. Orig ...
IDEA安装及破解永久版教程————鹏鹏
---恢复内容开始--- 首先我们先来介绍下什么是IDEA? IDEA 全称 IntelliJ IDEA,是java编程语言开发的集成环境.IntelliJ在业界被公认为最好的java开发工具之一,尤 ...
Python contextlib.contextmanager
看着代码又发现了一个奇怪的东西: @contextlib.contextmanager def __call__(self, incoming): result_wrapper = [] yield ...

用selenium爬动态网页

Python爬虫利器四之PhantomJS的用法

Python爬虫利器五之Selenium的用法

用selenium爬动态网页的更多相关文章

随机推荐

热门专题