第一次用python 写的简单爬虫记录在自己的博客

#python.py

from bs4 import BeautifulSoup

import urllib.request

from MySqlite import MySqlite

global g_intid

g_intid=0

def GetBlogTileAndName(url):

    res = urllib.request.urlopen(url)

    html = res.read()

    res.close()

    str(html, 'utf-8')

    soup=BeautifulSoup(html)

    divs=soup.find_all(attrs={"class":"postTitle"})

    for divname in divs:

        print("title:=",divname.a.string,"href:=",divname.a["href"])

        global  g_intid

        g_intid+=1

        x=MySqlite()

        x.InsertDate(g_intid,divname.a["href"],divname.a.string)

def GetBlogPage(url):

    res = urllib.request.urlopen(url)

    html = res.read()

    res.close()

    str(html, 'utf-8')

    soup=BeautifulSoup(html)

    divPager=soup.find(attrs={"class":"pager"})

    print(divPager.string)

for i in range(1,8) :
url=r"http://www.cnblogs.com/FCoding/default.html?page="+str(i)
GetBlogTileAndName(url)

#MySqlite.py

class MySqlite(object):

    """description of class"""

    def __init__(self, *args):

        return super().__init__(*args)

    def callstr(self,str):

        print(str)

    def InsertDate(self,id,url,title):

        conn = sqlite3.connect(r"d:\123.db")

        c=conn.cursor()

        #try:

        #    c.execute('create table blog (ID intergeer,url text,title text , PRIMARY KEY(ID))')

        #except ValueError:

        #    print("error My")

        strExe="insert into blog values ({0}, \"{1}\",\"{2}\")".format(id,url,title)

        print(id)

        #c.execute('insert into blog values (last_insert_rowid(),url,title)')

        c.execute(strExe)

        conn.commit()

        c.close()

        conn.close()

    def GetDate(self):

        import sqlite3

        conn = sqlite3.connect(r"d:\123.db")

        c=conn.cursor()

        res=c.execute("select count(*) from blog")

        res=c.fetchone()

        print(res[0])

        data=c.execute("select * from blog")

        for item in data:

            for ite in item:

                print(ite)

        conn.commit()

        c.close()

        conn.close()

　简述一下功能：

通过urllib 下载网页使用BeautifulSoup 解析

调用find_all(attrs={"class":"postTitle"})

找到HTML 中所有class=posttitle 的tag

然后遍历取出title 和href 保存到数据库中

此程序无容错。新手无笑！

第一次用python 写的简单爬虫记录在自己的博客的更多相关文章

用node.js写一个简单爬虫，并将数据导出为 excel 文件
引子最近折腾node,最开始像无头苍蝇一样到处找资料,然而多数没什么卵用,都在瞎比比.在一阵瞎搞后,我来分享一下初步学习node的三个过程: 1 撸一遍NODE入门,对其有个基本的了解: 2 撸一遍 ...
Python爬虫，看看我最近博客都写了啥，带你制作高逼格的数据聚合云图
转载请标明出处: http://blog.csdn.net/forezp/article/details/70198541 本文出自方志朋的博客今天一时兴起,想用python爬爬自己的博客,通过数据 ...
用Python写一个简单的Web框架
一.概述二.从demo_app开始三.WSGI中的application 四.区分URL 五.重构 1.正则匹配URL 2.DRY 3.抽象出框架六.参考一.概述在Python中,WSGI( ...
[Python爬虫笔记][随意找个博客入门(一)]
[Python爬虫笔记][随意找个博客入门(一)] 标签(空格分隔): Python 爬虫 2016年暑假来源博客:挣脱不足与蒙昧 1.简单的爬取特定url的html代码 import urllib ...
利用爬虫将Yuan先生的博客文章爬取下来
由于一次巧遇,我阅读了Yuan先生的一篇博客文章,感觉从Yuan先生得博客学到很多东西,很喜欢他得文章.于是我就关注了他,并且想阅读更多出自他手笔得博客文章,无奈,可能Yuan先生不想公开自己得博客吧 ...
Python简单爬虫记录
为了避免自己忘了Python的爬虫相关知识和流程,下面简单的记录一下爬虫的基本要求和编程问题!! 简单了解了一下,爬虫的方法很多,我简单的使用了已经做好的库requests来获取网页信息和Beauti ...
用python写个简单的小程序，编译成exe跑在win10上
每天的工作其实很无聊,早知道应该去IT公司闯荡的.最近的工作内容是每逢一个整点,从早7点到晚11点,去查一次客流数据,整理到表格中,上交给素未蒙面的上线,由他呈交领导查阅. 人的精力毕竟是有限的,所以 ...
【Python项目】简单爬虫批量获取资源网站的下载链接
简单爬虫批量获取资源网站的下载链接项目链接:https://github.com/RealIvyWong/GotDownloadURL 1 由来自己在收集剧集资源的时候,这些网站的下载链接还要手动 ...
用Python写的简单脚本更新本地hosts
这两天Google墙得严重,于是就产生了做个一键更新hosts的脚本的想法. 由于正在学习Python,理所当然用Python来写这个脚本了. 接触比较多的就是urllib2这个库,习惯性的impor ...

随机推荐

776. Split BST 按大小拆分二叉树
［抄题］: Given a Binary Search Tree (BST) with root node root, and a target value V, split the tree int ...
[leetcode]64. Minimum Path Sum最小路径和
Given a m x n grid filled with non-negative numbers, find a path from top left to bottom right which ...
Python项目--Scrapy框架(一)
环境 win8, python3.7, pycharm 正文 1.Scrapy框架的安装在cmd命令行窗口执行: pip install Scrapy 即可完成Scrapy框架的安装 2. 创建Sc ...
Android自定义View之上拉、下拉列表头部元素跟随缩放、平移效果的实现
滑动ListView列表然后 listView上边的视图跟随着上拉或者下拉的距离自动放大或者缩小视图里边元素自动平移的效果思路很简单根据listView 的滑动距离去计算图片和文字应该平移 ...
C++字符串结束标识
用一个字符数组可以存放一个字符串中的字符.如: char str[12]={'I',' ','a','m',' ','h','a','p','p','y'}; 用一维字符数组str来存放一个字符串″I ...
Python 多进程编程之进程间的通信(在Pool中Queue)
Python 多进程编程之进程间的通信(在Pool中Queue) 1,在进程池中进程间的通信,原理与普通进程之间一样,只是引用的方法不同,python对进程池通信有专用的方法在Manager()中 ...
微信公众号自定义菜单中添加emoji表情
做微信公众号开发,可能会遇到如何加入emoji表情的问题.今天在“海南旅游小管家”公众号的菜单中加入了emoji表情,特此记录备忘. 1.登录微信公众号,在左侧找到[开发者工具]菜单,点击进入,找到[ ...
别人的Linux私房菜（12）正则表达式与文件格式化处理
vi gerp awk sed支持正则表达式 cp ls不支持,只能使用bash本身的通配符正则表达式分为基础正则表达式和拓展正则表达式使用正则表达式注意语系的影响 http://cn.lin ...
spring boot2 集成Redis
1. 引入依赖 <parent> <groupId>org.springframework.boot</groupId> <artifactId>spr ...
bzoj3637(lct)
又一次把lct写炸了,硬着头皮终于改对了 #include<iostream> #include<cstring> #include<cstdio> #includ ...

第一次用python 写的简单爬虫 记录在自己的博客

第一次用python 写的简单爬虫 记录在自己的博客的更多相关文章

随机推荐

热门专题

第一次用python 写的简单爬虫记录在自己的博客

第一次用python 写的简单爬虫记录在自己的博客的更多相关文章