[代码]--python爬虫联系--爬取成语

闲来无事，玩了个成语接龙，于是就想用python爬取下成语网站上的成语，直接上代码:

#coding=utf-8

import requests

from bs4 import BeautifulSoup

import sqlite3

import uuid

conn = sqlite3.connect("idiombase.db3")  #创建sqlite.db数据库

print ("open database success")

conn.execute("drop table IF EXISTS idiom")

query = """create table IF NOT EXISTS idiom(

    id VARCHAR(50),

    word VARCHAR(50)

);"""

conn.execute(query)

print ("Table created successfully")

all_url = 'http://chengyu.t086.com/'

#http请求头

Hostreferer = {

    'User-Agent':'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',

    'Referer':'http://chengyu.t086.com/'

}

word=['A','B','C','D','E','F','G','H','J','K','L','M','N','O','P','Q','R','S','T','W','X','Y','Z']

for w in word:

    for n in range(1,100):

        url=all_url+'list/'+w+'_'+str(n)+'.html'

        start_html = requests.get(url,headers = Hostreferer)

        if(start_html.status_code==404):

            break

        start_html.encoding='gb2312'

        soup = BeautifulSoup(start_html.text,"html.parser")

        listw = soup.find('div',class_='listw')

        lista = listw.find_all('a')

        for p in lista:

            print(p.text)

            ids=str(uuid.uuid1())

            query = "insert into idiom (id,word) values ('"+ids+"','"+p.text+"');"

            conn.execute(query)

            conn.commit()

取到数据后，保存在里sqlite数据库中，以后想用的时候随便取

[代码]--python爬虫联系--爬取成语的更多相关文章

Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
Python爬虫之爬取站内所有图片
title date tags layut Python爬虫之爬取站内所有图片 2018-10-07 Python post 目标是 http://www.5442.com/meinv/ 如需在非li ...
python爬虫实战---爬取大众点评评论
python爬虫实战—爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经 ...
Python爬虫之爬取淘女郎照片示例详解
这篇文章主要介绍了Python爬虫之爬取淘女郎照片示例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧本篇目标抓取淘宝MM ...
python爬虫项目-爬取雪球网金融数据（关注、持续更新）
(一)python金融数据爬虫项目爬取目标:雪球网(起始url:https://xueqiu.com/hq#exchange=CN&firstName=1&secondName=1_ ...
初次尝试python爬虫，爬取小说网站的小说。
本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...
python 爬虫之爬取大街网（思路）
由于需要,本人需要对大街网招聘信息进行分析,故写了个爬虫进行爬取.这里我将记录一下,本人爬取大街网的思路. 附:爬取得数据仅供自己分析所用,并未用作其它用途. 附:本篇适合有一定爬虫基础 crawl ...

随机推荐

ESP32 TIMER
ESP32有两组硬件计时器组,每组包含两个通用硬件计时器.这些计时器都是64位的可双向计数的计数器: 下面的步骤是典型的配置和操作定时器流程: 第一:初始化: 初始化定时器通过函数:timer_ini ...
QT pri 文件的作用
i 是什么东西?包含(include)的首字母.类似于C.C++中的头文件吧,我们可以把 *.pro 文件内的一部分内容单独放到一个 *.pri 文件内,然后包含进来. 接前面的例子,我们将源文件的设 ...
fastcgi_next_upstream error timeout invalid_header http_500 http_503（转）
location / proxy_pass http://nodelist; fastcgi_next_upstream error timeout invalid_header http_500 h ...
Tensorflow-hub[例子解析2]
接Tensorflow-hub[例子解析1]. 3 基于文本词向量的例子 3.1 创建Module 可以从Tensorflow-hub[例子解析1].中看出,hub相对之前减少了更多的工作量. 首先, ...
Luogu2467 SDOI2010 地精部落 DP
传送门一个与相对大小关系相关的$DP$ 设$f_{i,j,0/1}$表示放了$i$个,其中最后一个数字在$i$个中是第$j$大,且最后一个是极大值($1$)或极小值时($0$)的方案数.转移: $$ ...
解决在Android开发上使用KSOAP2上传大图片到服务器经常报错的问题
原文首发我的主力博客 http://anforen.com/wp/2017/04/android_ksoap2_unexpected_type_position_end_document_null_j ...
在oj中Python的循环输入问题解决
在oj中Python的循环输入问题解决在makefile中定义逗号字符串和空格字符串在linux服务器上面部署javaweb项目jar包数据结构与算法之栈(Java与Python实现) 在oj中 ...
java内存模型与volatile变量与Atomic的compareAndSet
java分主内存和工作内存, 主内存是线程共享的, 工作内存是每个线程独有的. java对主内存的操作是通过工作内存间接完成的: 先拷贝主内存变量值到工作内存, 在工作内存操作这个变量的副本, 完成后 ...
RHEL7基本命令
Terminal TTY TTY是TeleTYpe的一个老缩写. Teletypes,或者teletypewriters,原来指的是电传打字机,是通过串行线用打印机键盘通过阅读和发送信息的东西,和古老 ...
NuGet 使用笔记
环境准备 1. 下载nuget : https://www.nuget.org/downloads 2. 设置到环境变量Path, 使生效:在Cmd打入: set path=abc 关闭Cmd (C ...

[代码]--python爬虫联系--爬取成语

[代码]--python爬虫联系--爬取成语的更多相关文章

随机推荐

热门专题