1.更换Python版本 打开pycharm,点击 file——setting——project项目名——project Interpreter,点击右侧的设置,如下图 选择新Python版本的安装路径. 如果location提示“environment location directory is not empty”,导致无法保存.则将location路径的文件夹删掉,然后再重新设置就可以保存了. 2.添加selenium包 没有安装selenium包时,程序中importselenium包报…
1.SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame 场景:运用pandas修改某个序号所对应的key值时出现了该类警告 https://stackoverflow.com/questions/26724378/pandas-settingwithcopywarning 代码: df_index = df.loc[index]df_index[key] = value…
本文介绍如何使用Python的selenium库制作脚本.概念:       Selenium是一个用于测试网站的自动化测试工具,支持各种浏览器包括Chrome.Firefox.Safari等主流界面浏览器,可以模拟人工手动进行操作浏览器.       使用准备:              第一步:安装selenium pip install Selenium 首先点击Terminal,等价于cmd命令行,输入命令,会自动下载selenium库.       补充:对于Python第三方库,会有…
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍 源码下载地址:http://download.csdn.net/detail/eastmount/9501273前一篇文章"[python爬虫] Selenium爬取新浪微博内容及用户信息"简单讲述了如何爬取新浪微博手机端用户信息和微博信息.用户信息:包括用户ID.用户名.微博数.粉丝数.关注数等.微博信息:包括转发或原创.点赞数.转发数.评论数.发布…
前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能.而这篇文章主要简单介绍如何实现自动登录163邮箱,同时继续介绍Selenium+Python官网Locating Elements部分内容.        希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~        [Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上)        [Python爬虫…
前面几篇文章介绍了Selenium.PhantomJS的基础知识及安装过程,这篇文章是一篇应用.通过Selenium调用Phantomjs获取CSDN下载资源的信息,最重要的是动态获取资源的评论,它是通过JavaScript动态加载的,故通过Phantomjs模拟浏览器加载获取.        希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~        [Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上)        [Python…
前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(InfoBox),这也是毕业设计实体对齐和属性的对齐的语料库前期准备工作.希望文章对你有所帮助~ 源代码 # coding=utf-8 """ Created on 2015-09-04 @author: Eastmount """ import ti…
我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点:        1.可以了解Python简单爬取图片的一些思路和方法        2.学习Selenium自动.测试分析动态网页和正则表达式的区别和共同点        3.了解作者最近学习得比较多的搜索引擎和知识图谱的整体框架        4.同时作者最近找工作,里面的一些杂谈和建议也许对即将成为应届生的你有所帮助        5.当然,最重要的是你也可以尝…
selenium 最开始我碰到SE,是上学期期末,我们那个商务小组做田野调查时发的问卷的事情.当时在问卷星上发了个问卷,但是当时我对另外几个组员的做法颇有微词,又恰好开始学一些软件知识了,就想恶作剧(一方面是小小地报复下他们,另一方面也是为了让做数据分析的自己分析起来更方便).当时就是用了SE操作浏览器刷了一波问卷,知道页面出现了验证码不让我再刷.虽然最终没想到问卷星还会统计每张问卷的完成时间导致最终的报表有一堆问卷两三秒就完成了,不知道被组员看出破绽没有,不过就刷问卷而言是顺利结束了.之后再深…
使用浏览器渲染引擎.直接用浏览器在显示网页时解析HTML,应用CSS样式并执行JavaScript的语句. 这方法在爬虫过程中会打开一个浏览器,加载该网页,自动操作浏览器浏览各个网页,顺便把数据抓下来.用一句简单而通俗的话说,使用浏览器渲染方法,爬取动态网页变成了爬取静态网页. 我们可以用Python的selenium库模拟浏览器完成抓取.Selenium是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,浏览器自动按照脚本代码做出点击,输入,打开,验证等操作,就像真正的…