爬虫-----爬取所有国家的首都、面积，并保存到txt文件中

# -*- coding:utf-8 -*-

import urllib2
import lxml.html
from lxml import etree

def main():
    file = open('./countrys.txt', 'w+')
    file.close()
    countrys = []
    url = 'https://guojiadiqu.51240.com/'
    html = urllib2.urlopen(url).read()
    # tree = lxml.html.fromstring(html)
    # td = tree.cssselect('div#main_content > ul.list > li > a > @href')[0]
    selector = etree.HTML(html)
    uls = selector.xpath('//div[@id="main_content"]/ul')
    for ul in uls:
        lis = ul.xpath('./li')
        for li in lis:
            country_infos = {}
            key = li.xpath('./a/text()')[0]
            value = 'https://guojiadiqu.51240.com' + li.xpath('./a/@href')[0].strip()
            country_infos[key] = value
            countrys.append(country_infos)
    return get_capital(countrys)

def get_capital(list):
    i = 0
    for country in list:
        i += 1
        name = country.keys()[0]
        url = country.values()[0]
        html = urllib2.urlopen(url).read()
        tree = etree.HTML(html)
        tr = tree.xpath('//div[@id="main_content"]/table')[0]
        tr1 = tr.xpath('./tr/td/table/tr')
        tr2 = tr1[2].xpath('./td/text()')
        file = open('./countrys.txt', 'a')
        if len(tr2) > 0:
            content = str(i) + '  ' + name + '\n   ' + tr2[0] + '\n'
        else:
            content = str(i) + '  ' + name + '\n' + '   \n'
        file.write(content.encode('utf-8'))
        file.close()

if __name__ == "__main__":
    main()

爬虫-----爬取所有国家的首都、面积，并保存到txt文件中的更多相关文章

python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
第二个爬虫之爬取知乎用户回答和文章并将所有内容保存到txt文件中
自从这两天开始学爬虫,就一直想做个爬虫爬知乎.于是就开始动手了. 知乎用户动态采取的是动态加载的方式,也就是先加载一部分的动态,要一直滑道底才会加载另一部分的动态.要爬取全部的动态,就得先获取全部的u ...
爬取前尘无忧python职位信息并保存到mongo数据库
1．re实现 import re,os import requests from requests.exceptions import RequestException MAX_PAGE = 10 # ...
Python爬虫爬取豆瓣电影名称和链接，分别存入txt，excel和数据库
前提条件是python操作excel和数据库的环境配置是完整的,这个需要在python中安装导入相关依赖包: 实现的具体代码如下: #!/usr/bin/python# -*- coding: utf ...
爬取网贷之家平台数据保存到mysql数据库
# coding utf-8 import requests import json import datetime import pymysql user_agent = 'User-Agent: ...
python selenium爬取自如租房数据保存到TXT文件
# -*- coding: utf-8 -*-"""Created on Fri Aug 31 2018 @author: chenlinlab"" ...
使用scrapy爬取的数据保存到CSV文件中，不使用命令
pipelines.py文件中 import codecs import csv # 保存到CSV文件中 class CsvPipeline(object): def __init__(self): ...
爬取博主的所有文章并保存为PDF文件
继续改进上一个项目,上次我们爬取了所有文章,但是保存为TXT文件,查看不方便,而且还无法保存文章中的代码和图片. 所以这次保存为PDF文件,方便查看. 需要的工具: 1.wkhtmltopdf安装包, ...
如何使用robots禁止各大搜索引擎爬虫爬取网站
ps:由于公司网站配置的测试环境被百度爬虫抓取,干扰了线上正常环境的使用,刚好看到每次搜索淘宝时,都会有一句由于robots.txt文件存在限制指令无法提供内容描述,于是便去学习了一波 1.原来一般来 ...

随机推荐

sklearn交叉验证3-【老鱼学sklearn】
在上一个博文中,我们用learning_curve函数来确定应该拥有多少的训练集能够达到效果,就像一个人进行学习时需要做多少题目就能拥有较好的考试成绩了. 本次我们来看下如何调整学习中的参数,类似一个 ...
Codeforces 750E New Year and Old Subsequence 线段树 + dp (看题解)
New Year and Old Subsequence 第一感觉是离线之后分治求dp, 但是感觉如果要把左边的dp值和右边的dp值合起来, 感觉很麻烦而且时间复杂度不怎么对.. 然后就gun取看题解 ...
fillder--修改返回数据
fillder面板中抓到想要的URL后: ①.在需要修改的url---右键------UNclocking For Editing(解除编辑功能) ②.承接上步,在数据结果的TextView模式下,返 ...
Promise源码深入理解
) ) }); ) }, ) }); ) ) }, ) }); ) }, ) }); p.then(function (x) { console.log(x) }) //输出 1 链式调用1 链式调用 ...
easyui commobox省市区县三级联动
1.前端代码 <div class="col-6 f-group"> <label class="col-4 left_red"> 省名 ...
MVC 程序在编译时提示 GAC与 Temporary ASP.NET Files目录内引用文件版本不一致
今天在调试Mvc程序时,提示GAC与Temporary ASP.NET Files目录内引用文件版本不一致. [A]System.Web.WebPages.Razor.Configuration.Ho ...
haskell实现简易计算器
> module Main where > import System.IO > import Data.Char > import Control.Monad > im ...
__x__(34)0908第五天__ 定位 position
position 定位指将原始摆放到页面的任意位置. 继承性:no 默认值:static 没有定位,原始出现在正常的文档流中可选值: static : 默认值,元素没有开启定位 ...
__x__(36)0908第五天__背景 background
1. 背景 background: red url(img/cat.gif) repeat-x fixed; 2. 背景颜色 background-color: red; 3. 背景图片 backgr ...
Python练手例子（3）
13.打印出所有的"水仙花数",所谓"水仙花数"是指一个三位数,其各位数字立方和等于该数本身.例如:153是一个"水仙花数",因为153=1 ...

爬虫-----爬取所有国家的首都、面积 ，并保存到txt文件中

爬虫-----爬取所有国家的首都、面积 ，并保存到txt文件中的更多相关文章

随机推荐

热门专题

爬虫-----爬取所有国家的首都、面积，并保存到txt文件中

爬虫-----爬取所有国家的首都、面积，并保存到txt文件中的更多相关文章