1. 引言

从安卓手机收集上来的机型大都为这样：

mi|5

mi|4c

mi 4c

2014022

kiw-al10

nem-tl00h

收集的机型大都杂乱无章，不便于做统计分析。因此，标注显得尤为重要。

中关村在线有对国内大部分手机的介绍情况，包括手机机型nem-tl00h及其对应的常见名称荣耀畅玩5C。因而，设计机型自动化标注策略如下：

在搜狗搜索中输入机型进行搜索，为了限定第一个返回结果为ZOL网站，加上限定词site:detail.zol.com.cn；
通过第一条返回结果的链接，跳转到相应的ZOL页面，解析拿到标注名称与手机别名。

2. 实现

根据上面的爬取策略，我用Python实现一个简单的爬虫：采用PyQuery解析HTML页面，PyQuery采用类似jQuery的语法来操作HTML元素，熟悉jQuery的人对PyQuery是上手即用。

Sogou爬虫的代码实现（基于Python 3.5.2）如下：

# -*- coding: utf-8 -*-

# @Time    : 2016/8/8

# @Author  : rain

import codecs

import csv

import logging

import re

import time

import urllib.parse

import urllib.request

import urllib.error

from pyquery import PyQuery as pq

def quote_url(model_name):

    base_url = "https://www.sogou.com/web?query=%s"

    site_zol = "site:detail.zol.com.cn "

    return base_url % (urllib.parse.quote(site_zol + model_name))

def parse_sogou(model_name):

    search_url = quote_url(model_name)

    request = urllib.request.Request(url=search_url, headers={

        'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '

                      'Chrome/45.0.2454.101 Safari/537.36'})

    sogou_html = urllib.request.urlopen(request).read()

    sogou_dom = pq(sogou_html)

    goto_url = sogou_dom("div.results>.vrwrap>.vrTitle>a[target='_blank']").eq(0).attr("href")

    logging.warning("goto url: %s", goto_url)

    if goto_url is None:

        return None

    goto_dom = pq(url=goto_url)

    script_text = goto_dom("script").text()

    zol_url = re.findall(r'\("(.*)"\)', script_text)[0]

    return zol_url

def parse_zol(model_name):

    zol_url = parse_sogou(model_name)

    if zol_url is None:

        return None, None

    try:

        zol_html = urllib.request.urlopen(zol_url).read()

    except urllib.error.HTTPError as e:

        logging.exception(e)

        return None, None

    zol_dom = pq(zol_html)

    title = zol_dom(".page-title.clearfix")

    name = title("h1").text()

    alias = title("h2").text()

    if u'（' in name and u'）' in name:

        match_result = re.match(u'(.*)（(.*)）', name)

        name = match_result.group(1)

        alias = match_result.group(2) + " " + alias

    return name, alias

if __name__ == "__main__":

    with codecs.open("./resources/data.txt", 'r', 'utf-8') as fr:

        with open("./resources/result.csv", 'w', newline='') as fw:

            writer = csv.writer(fw, delimiter=',')

            for model in fr.readlines():

                model = model.rstrip()

                label_name, label_alias = parse_zol(model)

                writer.writerow([model, label_name, label_alias])

                logging.warning("model: %s, name: %s, alias: %s", model, label_name, label_alias)

                time.sleep(10)

为了防止sogou封禁，每爬一次则休息10s。当然，这种爬取的速度会非常慢，需要做些优化。

3. 优化

下载验证码

sogou是通过访问频次来进行封禁，当访问次数过多时，会要求输入验证码：

<div class="content-box">

    <p class="ip-time-p">IP:61...<br/>访问时间：2016.08.09 15:40:04</p>

    <p class="p2">用户您好，您的访问过于频繁，为确认本次访问为正常用户行为，需要您协助验证。</p>

    ...

    <form name="authform" method="POST" id="seccodeForm" action="/">

        <p class="p4">

        	...

            <input type="hidden" name="m" value="0"/>            <span class="s1">

                <a onclick="changeImg2();" href="javascript:void(0)">

                    <img id="seccodeImage" onload="setImgCode(1)" onerror="setImgCode(0)" src="util/seccode.php?tc=1470728404" width="100" height="40" alt="请输入图中的验证码" title="请输入图中的验证码"/>

                </a>

            </span>

            <a href="javascript:void(0);" id="change-img" onclick="changeImg2();" style="padding-left:50px;">换一张</a>

            <span class="s2" id="error-tips" style="display: none;"/>

        </p>

    </form>

    ...

</div>

通过分析html，真实的验证码图像需要做如下的拼接：

http://weixin.sogou.com/antispider/util/seccode.php?tc=1470728404

下载验证码图像到本地：

import urllib.request

from pyquery import PyQuery as pq

import re

for i in range(100):

    html = urllib.request.urlopen("https://www.sogou.com/web?query=treant").read()

    dom = pq(html)

    img_src = dom("#seccodeImage").attr("src")

    if img_src is not None:

        img_name = re.search("tc=(.*)", img_src).group(1)

        anti_img_url = "http://weixin.sogou.com/antispider/" + img_src

        urllib.request.urlretrieve(anti_img_url, "./images/" + img_name + ".jpg")

tesseract识别验证码，识别的效果的一般，等以后有时间再考虑下其他识别方法。

【Python实战】机型自动化标注（搜狗爬虫实现）的更多相关文章

Python实战：Python爬虫学习教程，获取电影排行榜
Python应用现在如火如荼,应用范围很广.因其效率高开发迅速的优势,快速进入编程语言排行榜前几名.本系列文章致力于可以全面系统的介绍Python语言开发知识和相关知识总结.希望大家能够快速入门并学习 ...
零基础入门Python实战:四周实现爬虫网站 Django项目视频教程
点击了解更多Python课程>>> 零基础入门Python实战:四周实现爬虫网站 Django项目视频教程适用人群: 即将毕业的大学生,工资低工作重的白领,渴望崭露头角的职场新人, ...
Python接口测试框架实战与自动化进阶☝☝☝
Python接口测试框架实战与自动化进阶☝☝☝ 一.fiddler在工作中的运用 1.如何抓接口抓紧手机端接口 ①.在电脑终端输入:ipconfig ,找到电脑ip ②.打开手机,连接WiFi, ...
Python接口测试框架实战与自动化进阶✍✍✍
Python接口测试框架实战与自动化进阶整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课程本身没问题,大家看 ...
再一波Python实战项目列表
前言: 近几年Python可谓是大热啊,很多人都纷纷投入Python的学习中,以前我们实验楼总结过多篇Python实战项目列表,不但有用还有趣,最主要的是咱们实验楼不但有详细的开发教程,更有在线开发环 ...
Python实战：美女图片下载器，海量图片任你下载
Python应用现在如火如荼,应用范围很广.因其效率高开发迅速的优势,快速进入编程语言排行榜前几名.本系列文章致力于可以全面系统的介绍Python语言开发知识和相关知识总结.希望大家能够快速入门并学习 ...
(转)Python新手写出漂亮的爬虫代码2——从json获取信息
https://blog.csdn.net/weixin_36604953/article/details/78592943 Python新手写出漂亮的爬虫代码2——从json获取信息好久没有写关于爬 ...
(转)Python新手写出漂亮的爬虫代码1——从html获取信息
https://blog.csdn.net/weixin_36604953/article/details/78156605 Python新手写出漂亮的爬虫代码1初到大数据学习圈子的同学可能对爬虫都有 ...
自然语言处理之中文分词器－jieba分词器详解及python实战
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...

随机推荐

Git 常用命令大全
Git常用操作命令: 1) 远程仓库相关命令检出仓库:$ git clone git://github.com/jquery/jquery.git 查看远程仓库:$ git remote -v 添加 ...
成为OpenStack工程师
OpenStack Hacker 态度:开放.主动.沟通影响力:能说.能写.能分享四化:自动化.流程化.系统化.文档化 0级掌握一些基本技能:python.c.linux.git.unittes ...
MYSQL INNODB PAGE一督
MYSQL INNODB PAGE一督
ASP.NET Core 数据保护（Data Protection）【中】
前言上篇主要是对 ASP.NET Core 的 Data Protection 做了一个简单的介绍,本篇主要是介绍一下API及使用方法. API 接口 ASP.NET Core Data Prote ...
CYQ.Data V5 从入门到放弃ORM系列：框架的优势
前言: 框架开源后,学习使用的人越来越多了,所以我也更加积极的用代码回应了. 在框架完成了:数据库读写分离功能和分布式缓存功能后: 经过三天三夜的不眠不休,终于完成框架第三个重量级的功能:自动化 ...
Python黑帽编程2.6 模块
Python黑帽编程2.6 模块我们已经学习了如何在你的程序中定义一次函数而重用代码.如果你想要在其他程序中重用很多函数,那么你该如何编写程序呢?你可能已经猜到了,答案是使用模块.模块基本上就是一个 ...
剑指Offer面试题：29.丑数
一.题目:丑数题目:我们把只包含因子2.3和5的数称作丑数(Ugly Number).求按从小到大的顺序的第1500个丑数.例如6.8都是丑数,但14不是,因为它包含因子7.习惯上我们把1当做第一个 ...
ASP.Net MVC开发基础学习笔记：二、HtmlHelper与扩展方法
一.一个功能强大的页面开发辅助类—HtmlHelper初步了解 1.1 有失必有得在ASP.Net MVC中微软并没有提供类似服务器端控件那种开发方式,毕竟微软的MVC就是传统的请求处理响应的回归. ...
Apache Mina实战
Mina介绍 Mina可以用于快速的开发基于网络通信的应用,特别是在开发手机端的游戏应用时,使用的较为普遍.本文简单介绍了一个用Mina搭建的一个简易讨论组,通过该应用可以对Mina的基本用法用途有个 ...
C#设计模式之装饰者
IronMan之装饰者前言上一篇的文章我们讲到要给"IronMan"配备"武器",并且还使用了"武器",效果还是不错的,对于多种环境.多 ...