Ubuntu下一个python的BeautifulSoup和rsa安装方法---信息检索project2部分:微博爬行要求python包裹
后果《信息检索》第二project,微博具有抓取数据,再处理。师兄给了代码。让慢慢爬。可是在ubuntu下。少了非常多python软件包。须要安装。
1.首先执行时。说少了python。BeautifulSoup包。用来解析html文件奇妙,这么重要的包怎么能缺少呢。百度ubuntu
python BeautifulSoup后。看博客后找到方法:
先安装easy_install工具:
再用easy_install安装:
easy_install BeautifulSoup
若是还没有安装easy_install,在ubuntu下,会自己主动提示按如何的命令去安装。
2.继续执行,说是缺少rsa包,想到是师兄在pdf文档里提到用pip安装一些通过pip按张rsa。执行:
pip install -r requirements.txt
#不行,须要在root权限,换
sudo pip install -r requirements.txt
成功安装。运行源码,可行。
3.另外的话,缺少display的话,用来展示验证码的。通过下面命令安装:
sudo apt-get install imagemagick
若是不能安装display的话。凝视掉weibo/crawler/toolkit/accountlib.py第178行变量proc和第182行proc.kill()
#proc = subprocess.Popen(['display', filename]) #第178行
self.loginpostdata['pcid'] = pcid
self.loginpostdata['door'] = raw_input(u'请输入验证码:')
os.remove(filename)
#proc.kill() #第182行
但与之相对的,在执行时,须要在目录里打开抓取的验证码图片,在终端手动输入验证码。
有一点挺疑惑的是,队友直接没有安装display,直接使用
python main.py display连验证码都没有输入,直接可以进入爬取部分。并且可以爬取出数据。吓尿。
4.有的时候在抓取文件。可是没有下载,坑爹,没想到这问题,还没解析代码就那么执行着。还以为已经在抓取呢。
在自己的笔记本centos6.5下抓取的时候甚是麻烦并且没成功。换了实验室里ubuntu14.04.1LTS版本号,改好了一下參数最终在怕去数据了,下一步要分析数据。进行兴许任务了。
5.爬取微博的时候,速度可能有些慢,平均下来爬18页/min,要看网速了。只是能够改crawler/config.py參数。
begin_time="2012-11-1 00:00:00"
end_time="2014-11-1 00:00:00"
把用户数据降将为一年,可是对应的。在兴许分析用户数据时。少了的话。当然也是有一定的影响了。
而已经爬取的部分不会再爬取。
转载请认证:http://blog.csdn.net/u010454729/article/details/40656087
版权声明:本文博主原创文章。博客,未经同意不得转载。
Ubuntu下一个python的BeautifulSoup和rsa安装方法---信息检索project2部分:微博爬行要求python包裹的更多相关文章
- Ubuntu 下一个 vim 建立python 周围环境 构造
于Windows通过使用各种现成的工具使用,去Linux下一个,没有一个关于线索--总之google有些人的经验,折腾来折腾,开发环境也算是一个好工作. 1. 安装完成vim # apt-get in ...
- 【LeetCode】116. 填充每个节点的下一个右侧节点指针 Populating Next Right Pointers in Each Node 解题报告(Python)
作者: 负雪明烛 id: fuxuemingzhu 个人博客:http://fuxuemingzhu.cn/ 目录 题目描述 题目大意 解题方法 递归 日期 题目地址:https://leetcode ...
- [转载]--Ubuntu下修改DNS重启也能用的方法
安装好Ubuntu之后设置了静态IP地址,再重启后就无法解析域名.想重新设置一下DNS,打开/etc/resolv.conf cat /etc/resolv.conf# Dynamic resolv. ...
- Ubuntu下编译Android JNI最靠谱的方法...
网上资料太杂乱,搞了大半天都还是没搞懂怎么系统的调用NDK.最后干脆放弃了Win改用Ubuntu编译JNI,虽然编译环境简单了,但是资料却少了不少.几乎没有一篇完整的文章.我想或许是能在Ubuntu下 ...
- ubuntu下搭建android开发环境核心篇安装AndroidStudio、sdk、jdk
本文系转载http://blog.csdn.net/lsyz0021/article/details/52215996 一.安装前的准备 1.1.如果你还没有安装ubuntu 14.04 LTS系统, ...
- Windows64 系统下Python、NumPy与matplotlib 安装方法
今下午想用Python跑RNN网络,结果代码在导入包numpy时并没有报错,但是在用里面的函数时报错,因小编也是新手,只学习了Python的基础语法,并没有使用过第三方包,安装了一下午还没弄好,本以为 ...
- ubuntu下firefox浏览器flash player插件的安装
自从装了双系统后,ubuntu下的音乐软件只能选择网页播放器了,这无疑是需要播放插件的,这个插件就是falsh player. 当初使用usb启动盘安装的,在安装的过程中还会报找不到CD-rom的错, ...
- ubuntu下Qt cannot find -lGL错误的解决方法 (转载)
在ubuntu下使用Qt 编译时候遇上了cannot find -lGL错误,使用命令 sudo apt-get install libqt4-dev或者sudo apt-get install li ...
- Ubuntu下查看SD卡设备名的几个方法
Ubuntu下使用SD卡查询SD卡的设备文件名:sudo fdisk -leg:Disk /dev/sdb:14.9 GiB,15931539456 字节,31116288 个扇区单元:扇区 / 1 ...
随机推荐
- HTTP网络协议(五)
主动攻击:是指攻击通过直接访问Web应用,把攻击代码传入的攻击模式,该模式是直接针对服务器上的资源进行攻击,因此攻击者需要能够访问到那些资源,例如:SQL注入攻击和OS命令注入攻击. 被动攻击:是指 ...
- 芯片TPS76030、TPS76032、TPS76033、TPS76038、TPS76050 电源芯片
下图是从网上摘出来的图片:TPS76033 它的作用就是改变电压: 输入电压:3.5V到16V 通过芯片的处理后 输出电压:3.3V 要学会看图,从中提取有用的信息 再看一个数据手 ...
- MongoDb 查询时常用方法
Query.All("name", "a", "b");//通过多个元素来匹配数组Query.And(Query.EQ("name ...
- 表单提交数据格式form data
前言: 最近遇到的最多的问题就是表单提交数据格式问题了. 常见的三种表单提交数据格式,分别举例说明:(项目是vue的框架) 1.application/x-www-form-urlencoded 提交 ...
- 3、C++快速入门
参考书籍: C++程序设计教程_第二版_钱能 //篇幅较少,适合快速学习 C++ Primer Plus 第六版 中文版 //篇幅较大,讲的非常详细 C++一般必须包含的头文件是#inc ...
- 被误解的MVC和被神化的MVVM
MVC 的历史 MVC,全称是 Model View Controller,是模型 (model)-视图 (view)-控制器 (controller) 的缩写.它表示的是一种常见的客户端软件开发框架 ...
- 你说你会C++? —— 智能指针
智能指针的设计初衷是: C++中没有提供自己主动回收内存的机制,每次new对象之后都须要手动delete.稍不注意就memory leak. 智能指针能够解决上面遇到的问题. C++中常见的 ...
- gdbserver远程调试嵌入式linux应用程序方法
此处所讲的是基于gdb和gdbsever的远程调试方法.环境为:PC机:win7.虚拟机:10.04.下位机:飞嵌TE2440开发板. 嵌入式linux应用程序的开发一般都是在linux里面编写好代码 ...
- js中json法创建对象(json里面的:相当于js里面的=)
js中json法创建对象(json里面的:相当于js里面的=) 一.总结 json里面的:相当于js里面的= 4.json创建js对象解决命名冲突:多个人为同一个页面写js的话,命名冲突就有可能发生, ...
- 使用xerces库的一个注意事项
作者:朱金灿 来源:http://blog.csdn.net/clever101 使用xerces库解析xml文件,结果出现这样一些链接错误: public: static classxercesc_ ...