Python爬网——获取安卓手机统计数据

[本文出自天外归云的博客园]

1. 在安卓网上对热门机型进行爬网，取前五十：

# -*- coding: utf-8 -*-

import requests,re

from bs4 import BeautifulSoup

def get_rank_list():

    s = requests.Session()

    rank_list = []

    for pageNum in xrange(1,10):

        url = "http://product.hiapk.com/mobile/p"+str(pageNum)+"-s1-list.html"

        r = s.get(url)

        soup = BeautifulSoup(r.content,"lxml")

        content = soup.find(id='content')

        if len(rank_list)<51:

            for item in content.findAll('dt'):

                phone_name = item.find('a').attrs['title']

                if (not re.search('iphone', phone_name, re.IGNORECASE)) and (len(rank_list)<51):

                    rank_list.append(phone_name)

                else:

                    break

        else:

            break

    return rank_list

if __name__ == '__main__':

    for phone in get_rank_list():

        print phone

2. 在talkingdata上对安卓手机统计数据进行分类爬取：

# -*- coding: utf-8 -*-

import requests,re,sys

from bs4 import BeautifulSoup

'''

    type:

        1-按品牌排名

        2-按机型排名

        3-按分辨率排名

        4-按操作系统排名

        5-按运营商排名

        6-按网络排名

'''

def rank_crawl(type):

    s = requests.Session()

    url = 'http://mi.talkingdata.com/terminals.html?terminalType='+str(type)

    r = s.get(url)

    soup = BeautifulSoup(r.content,"lxml")

    list_content = soup.find(id='list-content')

    rank_list = []

    for item in list_content.findAll('a'):

        rank_list.append(item.attrs['title'])

    return rank_list

if __name__ == '__main__':

    rank_all = {}

    rank_all['brand'] = rank_crawl(1)

    rank_all['model'] = rank_crawl(2)

    rank_all['resolution'] = rank_crawl(3)

    rank_all['system'] = rank_crawl(4)

    rank_all['operator'] = rank_crawl(5)

    rank_all['network'] = rank_crawl(6)

    for one in rank_all[sys.argv[1]]:

        print one.encode("gbk")

Python爬网——获取安卓手机统计数据的更多相关文章

Python爬网获取全国各地律师电话号
[本文出自天外归云的博客园] 从64365网站获取全国各地律师电话号,用到了python的lxml库进行对html页面内容的解析,对于xpath的获取和正确性校验,需要在火狐浏览器安装firebug和 ...
error while obtaining ui hierarchy xml file...用 uiautomatorviewer 获取安卓手机软件页面时报错
Error while obtaining UI hierarchy XML file: com.android.ddmlib.SyncException: Remote object doesn't ...
Docker最全教程之Python爬网实战(二十一)
Python目前是流行度增长最快的主流编程语言,也是第二大最受开发者喜爱的语言(参考Stack Overflow 2019开发者调查报告发布).笔者建议.NET.Java开发人员可以将Python发展 ...
python 爬取天猫美的评论数据
笔者最近迷上了数据挖掘和机器学习,要做数据分析首先得有数据才行.对于我等平民来说,最廉价的获取数据的方法,应该是用爬虫在网络上爬取数据了.本文记录一下笔者爬取天猫某商品的全过程,淘宝上面的店铺也是类似 ...
Python爬虫入门教程 29-100 手机APP数据抓取 pyspider
1. 手机APP数据----写在前面继续练习pyspider的使用,最近搜索了一些这个框架的一些使用技巧,发现文档竟然挺难理解的,不过使用起来暂时没有障碍,估摸着,要在写个5篇左右关于这个框架的教程 ...
用python爬取杭电oj的数据
暑假集训主要是在杭电oj上面刷题,白天与算法作斗争,晚上望干点自己喜欢的事情! 首先,确定要爬取哪些数据: 如上图所示,题目ID,名称,accepted,submissions,都很有用. 查看源代码 ...
Python爬取6271家死亡公司数据，看十年创业公司消亡史
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 朱小五凹凸玩数据 PS:如有需要Python学习资料的小伙伴可以加 ...
Unity获取安卓手机运营商，电量，wifi信号强度，本地Toast，获取已安装apk，调用第三方应用，强制自动重启本应用
一个完整的游戏项目上线需要不断的完善优化,但是到了后期的开发不再仅仅是游戏了,它的复杂度远远大于纯粹的应用开发.首先必须要考虑的就是集成第三方SDK,支付这块渠道商已经帮你我们做好了,只需要按照文档对 ...
Python爬取6271家死亡公司数据，一眼看尽十年创业公司消亡史！
小五利用python将其中的死亡公司数据爬取下来,借此来观察最近十年创业公司消亡史. 获取数据 F12,Network查看异步请求XHR,翻页. 成功找到返回json格式数据的url, 很多人 ...

随机推荐

java 记录一下socket的server与client
package com.test.server; import java.io.IOException; import java.net.ServerSocket; import org.apache ...
关于解锁美版Play市场
关于解锁美版Play市场(本帖已经突破了G+的500评论上限,如有问题请转载留言) 我对这个问题思考的很深刻也思考了很久,作为一个深度google脑残粉怎么能用不完整的Play Store呢?那人生岂 ...
android 4.x环境搭建
一.Android搭建开发环境 (一).工具准备原文地址:http://www.open-open.com/lib/view/open1386252535564.html 1.下载JDK JDK即J ...
emergency monitoring和real-time ADDM
emergency monitoring面临的挑战: 1.sick systems 2.slow database -所有用户查询响应慢 -性能界面刷新数据慢 -吞吐量严重降低 3.因为内部资源竞争数 ...
CTreeCtrl鼠标双击响应函数中怎么知道双击的是哪个子项？
原帖链接: http://bbs.csdn.net/topics/310185501 楼主: CTreeCtrl鼠标双击响应函数中怎么知道双击的是哪个子项? 6楼: CPoint pt;GetCurs ...
U811.1接口EAI系列之二--生成销售出库单调用U8的EAI通用处理方法--PowerBuilder语言
1.销售系统销售出库,更新U811.1材料库存的EAI的XML生成. 2.主要根据U8配置会生成出库单和同时是否更新库存量,还是更新现存量等等. 3.具体参考代码如下: 作者:王春天 2013-11- ...
js中多个数字运算后值不对（失真）处理方法
最近遇到一个bug ,在js里面计算两个数字相减,633011.20-31296.30 得到的结果居然是601714.89,领导不乐意了说怎么少了0.01,我一听,噶卵达,来达鬼,不可能啊,我Goog ...
HEVC (H.265)介绍(转)
[Liupin]: 这是一篇简单介绍H.265文章,我接触和开发H.265二年来,H.265技术在行业内接收速度比H.264快多了,现在国际和国内各大公司都在进行H.265应用,不管是IC设计还是H. ...
django ---- models继承
django 中各个models之前可以有继承关系.这种继承关系又可以分成三种情况: 1.简单继承 2.抽象继承 3.代理一.简单继承: model定义 from django.db import ...
Best practices for Express app structure
Node和Express没有一个相对严格的文件或者是文件夹结构,因此你可以按照自己的想法来构建你的web项目,特别是对一些小的项目来说,他很容易学习. 然而当你的项目变得越来越大,所面临的情况越来越复 ...

Python爬网——获取安卓手机统计数据

Python爬网——获取安卓手机统计数据的更多相关文章

随机推荐

热门专题