后果《信息检索》第二project,微博具有抓取数据,再处理。师兄给了代码。让慢慢爬。可是在ubuntu下。少了非常多python软件包。须要安装。

1.首先执行时。说少了python。BeautifulSoup包。用来解析html文件奇妙,这么重要的包怎么能缺少呢。百度ubuntu
python BeautifulSoup后。看博客后找到方法:

先安装easy_install工具:

再用easy_install安装:

easy_install BeautifulSoup

若是还没有安装easy_install,在ubuntu下,会自己主动提示按如何的命令去安装。

2.继续执行,说是缺少rsa包,想到是师兄在pdf文档里提到用pip安装一些通过pip按张rsa。执行:

pip install -r requirements.txt
#不行,须要在root权限,换
sudo pip install -r requirements.txt

成功安装。运行源码,可行。

3.另外的话,缺少display的话,用来展示验证码的。通过下面命令安装:

sudo apt-get install imagemagick

若是不能安装display的话。凝视掉weibo/crawler/toolkit/accountlib.py第178行变量proc和第182行proc.kill()

#proc = subprocess.Popen(['display', filename])		#第178行
self.loginpostdata['pcid'] = pcid
self.loginpostdata['door'] = raw_input(u'请输入验证码:')
os.remove(filename)
#proc.kill() #第182行

但与之相对的,在执行时,须要在目录里打开抓取的验证码图片,在终端手动输入验证码。

有一点挺疑惑的是,队友直接没有安装display,直接使用

python main.py display

连验证码都没有输入,直接可以进入爬取部分。并且可以爬取出数据。吓尿。

4.有的时候在抓取文件。可是没有下载,坑爹,没想到这问题,还没解析代码就那么执行着。还以为已经在抓取呢。

在自己的笔记本centos6.5下抓取的时候甚是麻烦并且没成功。换了实验室里ubuntu14.04.1LTS版本号,改好了一下參数最终在怕去数据了,下一步要分析数据。进行兴许任务了。

5.爬取微博的时候,速度可能有些慢,平均下来爬18页/min,要看网速了。只是能够改crawler/config.py參数。

begin_time="2012-11-1 00:00:00"
end_time="2014-11-1 00:00:00"

把用户数据降将为一年,可是对应的。在兴许分析用户数据时。少了的话。当然也是有一定的影响了。

而已经爬取的部分不会再爬取。

转载请认证:http://blog.csdn.net/u010454729/article/details/40656087

版权声明:本文博主原创文章。博客,未经同意不得转载。

Ubuntu下一个python的BeautifulSoup和rsa安装方法---信息检索project2部分:微博爬行要求python包裹的更多相关文章

  1. Ubuntu 下一个 vim 建立python 周围环境 构造

    于Windows通过使用各种现成的工具使用,去Linux下一个,没有一个关于线索--总之google有些人的经验,折腾来折腾,开发环境也算是一个好工作. 1. 安装完成vim # apt-get in ...

  2. 【LeetCode】116. 填充每个节点的下一个右侧节点指针 Populating Next Right Pointers in Each Node 解题报告(Python)

    作者: 负雪明烛 id: fuxuemingzhu 个人博客:http://fuxuemingzhu.cn/ 目录 题目描述 题目大意 解题方法 递归 日期 题目地址:https://leetcode ...

  3. [转载]--Ubuntu下修改DNS重启也能用的方法

    安装好Ubuntu之后设置了静态IP地址,再重启后就无法解析域名.想重新设置一下DNS,打开/etc/resolv.conf cat /etc/resolv.conf# Dynamic resolv. ...

  4. Ubuntu下编译Android JNI最靠谱的方法...

    网上资料太杂乱,搞了大半天都还是没搞懂怎么系统的调用NDK.最后干脆放弃了Win改用Ubuntu编译JNI,虽然编译环境简单了,但是资料却少了不少.几乎没有一篇完整的文章.我想或许是能在Ubuntu下 ...

  5. ubuntu下搭建android开发环境核心篇安装AndroidStudio、sdk、jdk

    本文系转载http://blog.csdn.net/lsyz0021/article/details/52215996 一.安装前的准备 1.1.如果你还没有安装ubuntu 14.04 LTS系统, ...

  6. Windows64 系统下Python、NumPy与matplotlib 安装方法

    今下午想用Python跑RNN网络,结果代码在导入包numpy时并没有报错,但是在用里面的函数时报错,因小编也是新手,只学习了Python的基础语法,并没有使用过第三方包,安装了一下午还没弄好,本以为 ...

  7. ubuntu下firefox浏览器flash player插件的安装

    自从装了双系统后,ubuntu下的音乐软件只能选择网页播放器了,这无疑是需要播放插件的,这个插件就是falsh player. 当初使用usb启动盘安装的,在安装的过程中还会报找不到CD-rom的错, ...

  8. ubuntu下Qt cannot find -lGL错误的解决方法 (转载)

    在ubuntu下使用Qt 编译时候遇上了cannot find -lGL错误,使用命令 sudo apt-get install libqt4-dev或者sudo apt-get install li ...

  9. Ubuntu下查看SD卡设备名的几个方法

    Ubuntu下使用SD卡查询SD卡的设备文件名:sudo fdisk -leg:Disk /dev/sdb:14.9 GiB,15931539456 字节,31116288 个扇区单元:扇区 / 1 ...

随机推荐

  1. crm2013 查看下拉框的选项

    在CRM2011中,我们非常easy查看下拉框的选择.打开页面,按F12.把光标对准目标,就会显示出详细的选项,如图:' watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi ...

  2. js实现科学计算机

    js实现科学计算机 一.总结 1.算法:这个科学计算机是用普通基础算法实习的,没有用栈,用栈要简单很多, 2.发现规律,编程分类:编程的时候,运算符分两种,一元运算符和二元运算符,分类了就好写很多了. ...

  3. html5 10大html5前端框架

    Bootstrap 首先说 Bootstrap,估计你也猜到会先说或者一定会有这个( 呵呵了 ),这是说明它的强大之处,拥有框架一壁江山的势气.自己刚入道的时候本着代码任何一个字母都得自己敲出来挡我者 ...

  4. SoC编译HEX脚本(基于RISC-V的SoC)

    SoC编译HEX脚本(基于RISC-V的SoC) 脚本使用 ./compile hello 脚本:设置RISC-V工具链riscv_set_env ############## RISC-V #### ...

  5. 杭电ACM1197——Specialized Four-Digit Numbers

    题目的意思是从2992開始的四位数.每个四位数的10.12,16进制的数的每一位加起来都相等,就输出该数. 非常easy的一道题目. 以下的是AC的代码: #include <iostream& ...

  6. eclipse插件安装验证及问题处理

    eclipse插件安装验异常时可看当前workspace下面的.metadata/.log文件,找到具体的问题来处理.一般常用到插件安装不成功的原因如下: 1.jar包冲突: 2.jar包依赖的jav ...

  7. POJ 3641 Oulipo KMP 水题

    http://poj.org/problem?id=3461 直接KMP就好.水题 #include<cstdio> #include<cstring> const int M ...

  8. MCI

    MCI(Media Control Interface)媒体控件接口是Mircrosoft提供的一组多媒体和文件的标准接口.它的好处是可以方便地控制绝大多数多媒体设备 包括音频,视频,影碟,录像等多媒 ...

  9. 分类算法简介 分类: B10_计算机基础 2015-03-09 11:08 257人阅读 评论(0) 收藏

    一.决策树 决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序.无规则的实例中 推理出以决策树表示的分类规则.构造决策树的目的是找出属性和类别间的关系, ...

  10. [D3] Convert Input Data to Output Values with Linear Scales in D3

    Mapping abstract values to visual representations is what data visualization is all about, and that’ ...