【现学现卖】python小爬虫

1.给小表弟汇总一个院校列表，想来想去可以写一个小爬虫爬下来方便些，所以就看了看怎么用python写，到了基本能用的程度，没有什么特别的技巧，大多都是百度搜的，遇事不决问百度啦

2.基本流程就是：

　　用request爬取一个页面之后用BeautifulSoup4对爬到的页面进行处理，

　　然后需要的东西进行预处理之后存到桌面上的.txt文件里，

　　之后再对.txt文件里的字符串进行分割，

　　最后把数据存到excel表里

3.准备：需要下载安装requests库，以及BeautifulSoup4的库，还有xlsxwriter库，相关安装方法网上一大堆

4.爬取页面的网页源代码：

5.将爬取的数据存到.txt文件中：

from bs4 import BeautifulSoup

import requests

import os

def get_soup():

    r = requests.get("http://www.eol.cn/html/g/gxmd/bj/", timeout=30)

    # 判断网络链接的状态，连接错误将产生一个异常

    #print(r.status_code)

    r.encoding = r.apparent_encoding

    soup = BeautifulSoup(r.text,features="html.parser")

    return soup;

#删除前几个元素

def del_previous_ele(full_list):

    for i in range(8):

        full_list.remove(full_list[0])

    return full_list;

#获取学校名称，学校编号，主管部门，办学层次

def select_school_ele(full_list):

    school_list = []

    for i in range(full_list.__len__()):

        //这里是对获取的所有学校列表进行遍历，取出需要的数据

        if (i % 7) == 1 or (i % 7) == 2 or (i % 7) == 3 or (i%7) == 5 :

            school_list.append(full_list[i].string+"\t")

            //获取到一个学校完整的信息之后就在后面换行

            if (i%7) == 5:

                school_list.append(" \n")

        else:

            pass

    return school_list;


#将数据写入文件

def createFile(txt):

    file = open('C:\\Users\\XXXXXXXXXXXXXXX\\Desktop\\school.txt', 'w')

    file.writelines(txt)

    file.close();

    print("写入成功")

if __name__ == "__main__":

    soup = get_soup()

    full_list = del_previous_ele(soup.find_all(align="center"))

    school_list = select_school_ele(full_list)

    createFile(school_list)

6.对school.txt文件进行处理，处理完了存到excel文件里

import os

import xlsxwriter

def get_file(path,mode_):

    list = "";

    file = open(path,mode_)

    list = file.read()

    file.close()

    return list

def write_excel(list):

    workbook = xlsxwriter.Workbook("C:\\Users\\XXXXXXXXXXXXXXXXX\\Desktop\\school.xlsx")

    worksheet = workbook.add_worksheet("school")

    #5个属性为一组

    list_5_item = list.split("\n")

   # print(len(list_5_item))

    for i in range(len(list_5_item)):

        specific_school = list_5_item[i].split("\t")

        print(len(specific_school))

        for j in range(len(specific_school)):

            worksheet.write( i , j , specific_school[j])

if __name__ == "__main__":

    list = get_file('C:\\Users\\XXXXXXXXXXXXXXXXXXXXXXXXXXXx\\Desktop\\new.txt', 'r')

    write_excel(list)

7.完成结果：

文本文件：

school.xlsx文件：

8.到这里就结束啦，因为刚接触写爬虫，所以有些地方难免写的不好，不喜勿喷啦

【现学现卖】python小爬虫的更多相关文章

python小爬虫练手
一个人无聊,写了个小爬虫爬取不可描述图片.... 代码太短,就暂时先往这里贴一下做备份吧. 注:这是很严肃的技术研究,当然爬下来的图片我会带着批判性的眼光审查一遍的.... :) #! /usr/ ...
Python爬虫：现学现用xpath爬取豆瓣音乐
爬虫的抓取方式有好几种,正则表达式,Lxml(xpath)与BeautifulSoup,我在网上查了一下资料,了解到三者之间的使用难度与性能三种爬虫方式的对比. 这样一比较我我选择了Lxml(xpa ...
现学现卖】IntelliJ+EmmyLua 开发调试Unity中Xlua
http://blog.csdn.net/u010019717/article/details/77510066?ref=myread http://blog.csdn.NET/u010019717 ...
现学现卖——VS2013 C#测试
VS2013 C#测试首先安装Unit Test Generator.方法为:工具->扩展和更新->联机->搜索“Unit Test Generator”,图标为装有蓝色液体的小试 ...
程序猿的日常——Mybatis现学现卖
最近有一个小项目需求,需要用spring mvc + mybatis实现一个复杂的配置系统.其中遇到了很多不太常见的问题,在这里特意记录下: 主要涉及的内容有事务多表删除插入并返回主键 1 sp ...
现学现卖——Keil uVision 使用教程
Keil uVision 使用教程 1.如果有旧的工程在,先关闭旧工程.Project -> Close Project2.新建工程.Project -> New uVision Proj ...
【现学现卖】th:href标签动态路径设置，thymeleaf获取session中的属性值
update:2020-02-28:按道理来说这个功能在前后端分离的时候应该不怎么用的上,基本到现在我还是没遇到过有这样的需求,不过也是一种方法就是.th:href="@{/{role}/l ...
Python 小爬虫流程总结
接触Python3一个月了,在此分享一下知识点,也算是温故而知新了. 接触python之前是做前端的.一直希望接触面能深一点.因工作需求开始学python,几乎做的都是爬虫..第一个demo就是爬取X ...
Python小爬虫-自动下载三亿文库文档
新手学python,写了一个抓取网页后自动下载文档的脚本,和大家分享. 首先我们打开三亿文库下载栏目的网址,比如专业资料(IT/计算机/互联网)http://3y.uu456.com/bl-197?o ...

随机推荐

ROS2学习之旅（4）——理解ROS2 Graph中的节点
ROS(2)图(ROS(2) graph)是一个同时处理数据的基于ROS2元素的网络,它包含了所有的可执行文件以及它们之间的连接.图中的基本元素包括:节点(nodes).话题(topics).服务(s ...
WPF之花式控件功能扩展
文章默认你已经入门WPF了 WPF日常开发,经常遇到默认的控件功能不满足需求,怎么办? No1. 自定义控件模板平时开发中,经常遇到比较"俗"的需求,嫌弃控件默认的样子. ...
windows下flutter2.2.3环境搭建
先上几个必上的网站: 官网: https://flutter.cn/docs/get-started/install/windows 中文资源网(毕竟中文母语,看着轻松): https://flutt ...
RPC远程协议之原理分析
在近几年工作中发现,功能服务化或微服务化越来越流行,逐渐成为实现中大型分布式系统架构的主要方式,而在分布式系统中的不同节点应用间的通信中,RPC远程协议扮演关键作用.实际上,在日常工作中,我们也多多少 ...
Python基础之魔术方法（一个序列容器的魔术方法）
# 创建自己想要的序列容器魔术方法'''__len__():调用len(obj)函数会调用这个魔术方法__getitem__(self,key):在使用下标操作temp['key']以及切片操作的时候 ...
Beam Search快速理解及代码解析（上）
Beam Search 简单介绍一下在文本生成任务中常用的解码策略Beam Search(集束搜索). 生成式任务相比普通的分类.tagging等NLP任务会复杂不少.在生成的时候,模型的输出是一个时 ...
OpenFaaS实战之二：函数入门
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
ODOO里视图开发案例---定义一个像tree、form一样的视图
odoo里视图模型MVC模式: 例子:在原来的视图上修改他: var CustomRenderer = KanbanRenderer.extend({ ....});var CustomRendere ...
第三篇 -- Go语言其他类型转String方法
1. int转string // 法1: int转string num_int := 10 num_str_2 := fmt.Sprintf("%b", num_int) fmt. ...
第十八篇 -- GPIO学习
先学习一下GPIO,网上各种找资料,拼凑,所以就不一一贴网址了. 一.GPIO GPIO的英文全称General-Purpose Input /Output Ports,中文意思是通用I/O端口一个 ...

【现学现卖】python小爬虫

【现学现卖】python小爬虫的更多相关文章

随机推荐

热门专题