python爬行动物集合360联想词搜索

想法和一些代码引用邸一幕python培训黄哥python爬虫联想词视频，但是太罗嗦。顺便整理，而到现在为止，360不傻。它已演变，用原来的方式，有些bug，这接着说。

正题例如以下：

语言：python2.7.6

模块：urllib,urllib2,re,time

目标：输入随意词，抓到其联想词

版本号：w1

原理：在360搜索主页：http://www.so.com/。当你输入”科技“时，搜索框会列出对应的联想词或者短语。我们就是要得到这些联想词，那就要爬360的搜索引擎了。在输入关键词之前，我们在主页右键。”审查元素“——”Network“——”Name“。输入之后，以下会出现对应的超链接。我们仅仅观察”Headers“”Priview“，”Headers“下我们能够看到”“Request URL”和头信息(主机，代理之类的)，“Priview”中看到一个我输入的样例：

suggest_so({"query":"科技 ","result":[{"word":"科技美学"},{"word":"科技苑"},{"word":"科技部"},{"word":"科技管理研究"},{"word":"科技少女喵","obdata":"{\"t\":\"video\",\"d\":[2,\"http:\/\/p0.qhimg.com\/d\/dy_acba03288ce64a69a324a94921324cb6.jpg\",\"\u9ad8\u79d1\u6280\u5c11\u5973\u55b5\",\"http:\/\/www.360kan.com\/tv\/Q4pwcH3lRG4lNn.html\",3,12]}"},{"word":"科技日报"},{"word":"科技发展利大还是弊大"},{"word":"科技超能王"},{"word":"科技网"},{"word":"科技进步与对策"}],"version":"a"});

非常明显。我们仅仅要抓到里面的词就可以，忘了交代。在Request URL中。有一个链接：http://sug.so.360.cn/suggest?callback=suggest_so&encodein=utf-8&encodeout=utf-8&format=json&fields=word,obdata&word=%E7%A7%91%E6%8A%80%20，我们输入非常多次发现，变得仅仅是“%E7%A7%91%E6%8A%80%20”部分。也就是说前面的部分不变。我们能够直接拿来用，后面的部分随着输入的关键词不同而变化。这是一种URL编码，能够用urllb.quote()方法实现。

操作：1.加头信息。读取网页，相关方法：urllib2.Request()。urllib2.urlopen()。urllib2,urlopen().read()

2.正则匹配：方法：re模块的相关使用方法，各抒己见。

。

代码例如以下：

#coding:utf-8

import urllib

import urllib2

import re

import time

gjc = urllib.quote("科技")

url = "http://sug.so.360.cn/suggest?

callback=suggest_so&encodein=utf-8&encodeout=utf-8&format=json&fields=word,obdata&word="+gjc

print url

req = urllib2.Request(url)

html = urllib2.urlopen(req).read()

unicodePage = html.decode("utf-8")

#正則表達式，findall方法返回一个列表

ss = re.findall('"word":\"(.*?)\"',unicodePage)

for item in ss:

    print item

结果：

假设不加unicodePage = html.decode("utf-8") 。返回值会穿插一些乱码，以下我们验证下，我们做的对不正确，打开360搜索。输入“科技”。结果例如以下：

大家不要纠结，第一个和第二个关联词的顺序，我第二次请求的时候就变成了上图的结果。再一次请求，又变回来了，可能是360在变吧，大家能够用其它关键词试试。

好，大体框架已经实现，这是个最初版本号。还不能全然无限制使用。我们要做的是畅通无阻，那么存在什么问题呢？

问题：1.多次请求会出现一个错误，大概代号为1005，意思百度了下，好像是说站点会限制非人为的请求。那我们要伪装成用户正常打开站点的行为。我们要用到头信息（这是我自己习惯叫的，我们採用“Request Headers”里面的信息就可以

2.请求过快也可能被屏蔽。所以要在每一次请求之后让爬虫歇息一下。这就是time.sleep()的作用

3.即使这样，也有被屏蔽的可能，必杀技：使用ip代理server，百度ip代理，一大堆免费的，方法：见urllib2 api example

优化的代码例如以下：

#coding:utf-8

#---------------------

#   程序：爬虫採集360搜索关联词

#   语言：python2.7

#   版本号：w1

#   时间：2014-06-14

#   作者：wxx

#---------------------

import urllib

import urllib2

import re

import time

from random import choice

#ip代理列表

iplist = ["14.29.117.36:80","222.66.115.229:80","59.46.72.245:8080"]

ip = choice(iplist)

#print ip

#关键词列表，顺序搜索

list = ["集团","科技","python"]

for m in list:

    #quote将m转变成URL编码

    gjc = urllib.quote(m)

    url = "http://sug.so.360.cn/suggest?callback=suggest_so&encodein=utf-8&encodeout=utf-8&format=json&fields=word,obdata&word="+gjc

    #头信息

    headers = {

                "GET":url,

                "Host":"sug.so.360.cn",

                "Referer":"http://www.so.com/",

                "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 QIHU 360SE"

                }

    #使用IP代理server

    proxy_handler = urllib2.ProxyHandler({'http': 'http://'+ip})

    opener = urllib2.build_opener(proxy_handler)

    urllib2.install_opener(opener)

    req = urllib2.Request(url)

    for key in headers:

        req.add_header(key,headers[key])

    html = urllib2.urlopen(req).read()

    #将其它编码变成unicode编码

    unicodePage = html.decode("utf-8")

    #正則表達式。findall方法返回一个列表

    ss = re.findall('"word":\"(.*?)\"',unicodePage)

    for item in ss:

        print item

    #休眠2秒

    time.sleep(2)

结果截图：

下一版本号的优化考虑：

1.让用户自助输入关键i词，不要事先定义关键词列表

2.按回车进行下一个关键词输入

3.输出结果保存txt文本

4.用户输入exit。程序退出

參考视频：http://www.tudou.com/programs/view/SXgshk-sYbw/

python爬行动物集合360联想词搜索的更多相关文章

python爬虫之採集——360联想词W2版本号
http://blog.csdn.net/recsysml/article/details/30541197,我的这个博文介绍了对应的简单的方法做一个联想词的爬虫,并且还承诺了下面优化: 下一版本号的 ...
Selenium2+python自动化34-获取百度输入联想词
前言最近有小伙伴问百度输入后,输入框下方的联想词如何定位到,这个其实难度不大,用前面所讲的元素定位完全可以定位到的. 本篇以百度输入框输入关键字匹配后,打印出联想词汇. 一.定位输入框联想词 1.首 ...
Selenium2+python自动化34-获取百度输入联想词【转载】
前言最近有小伙伴问百度输入后,输入框下方的联想词如何定位到,这个其实难度不大,用前面所讲的元素定位完全可以定位到的. 本篇以百度输入框输入关键字匹配后,打印出联想词汇. 一.定位输入框联想词 1.首 ...
Eclipse用法和技巧二十七：定义自己的快速联想词
某天在调试代码的时候,虽然是android的project还是习惯的输入syso,然后在ALT+/一下.旁边的同事就问了一下,这个log打印输出的tag是什么.接着又问了为什么syso能够智能联想出这 ...
python抓取数据构建词云
1.词云图词云图,也叫文字云,是对文本中出现频率较高的"关键词"予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨. 先看几个词 ...
Eclipse使用方法和技巧二十七：定义自己的高速联想词
某天在调试代码的时候.尽管是android的project还是习惯的输入syso.然后在ALT+/一下. 旁边的同事就问了一下,这个log打印输出的tag是什么. 接着又问了为什么syso可以智能联想 ...
Elasticsearch之联想词示例
public class LianXiangWord { private static RestClient client; static { client=RestClient.builder(ne ...
python set集合（16）
在python变量中除了以前文章所提到的整形int / 浮点数float / 布尔值bool / 列表list / 字典dict 之外,还有一个类型我们还没有做详细介绍,这个变量类型就是集合set. ...
python frozenset集合（17）
在前一篇文章中我们对 python set集合做了详细的讲解,而本文讲解的 frozenset集合其实和set集合类似!区别在于frozenset集合不能修改/添加/删除,其他功能和set集合一样 ...

随机推荐

PHP - 判断php是否对表单数据内的特殊字符自动转义
get_magic_quotes_gpc 有两个返回值: 0:在php.ini文件中已经关闭自动转移. 1:在php.ini文件中已经开启自动转移. 由此函数进行判断表单是否转移: /** * * m ...
teamviewer无法启动
在 Linux.Mac OS X和 Windows下都可以用,但在 Linux 下无法启动时怎么办? 笔者回家工作时,都会用 Teamviewer 连线到其他 Linux 桌面,但某天起 Teamvi ...
基于visual Studio2013解决面试题之1402选择排序
题目
在VC++中使用Tab Control控件
系统环境:Windows 7软件环境:Visual Studio 2008 SP1本次目的:在模态或非模态对话框中使用Tab Control控件,及引申在单/多文档中使用查阅MSDN文档,对于创建T ...
远程调用内核接口(remote call kernel)
-------------------------------------------------------------------------------- 标题: 远程调用内核接口(remote ...
Javascript 生成指定范围数值随机数
JavaScript对随机数的介绍比较少,所以今天分享一下有关随机数的一些事儿.希望能对大家有点小帮助. 主要的公式就是parseInt(Math.random()*(上限-下限+1)+下限); Ma ...
CSS——float属性备忘笔记
通过指定CSS属性float的值,从而使元素向左或向右浮动,然后由后继元素向上移动以填补前面元素的浮动而空出的可用空间.CSS的float属性,作用就是改变块元素对象的默认显示方式,HTML标签设置了 ...
操作系统的页面置换C++算法：OPT FIFO LRU CLOCK 计算缺页率
暴力直接上代码,主要是用了vector来实现,有些方法比較费时,不太好,请各位大神斧正.这是个人的作业, 这是代码下载页http://download.csdn.net/detail/l631068 ...
Linux主机上发布java web应用
1.链接远程主机命令 ssh user@hostname 如: shh root@192.168.1.1 2.查看主机操作系统版本 uname -a 3.linux系统安装mysql a)检查是否安装 ...
用spring-data-redis实现类似twitter的网站（转）
1. spring-data-redis简介封装了一下redis的客户端,使得使用起来更方便. 优点是把客户端连接放到一个连接池里,从而提高性能.还有就是可以不同的客户端之间实现切换,而不用改一行代 ...

python爬行动物集合360联想词搜索

python爬行动物集合360联想词搜索的更多相关文章

随机推荐

热门专题