假期学习【十一】Python爬取百度词条写入csv格式 python 2020.2.10

今天主要完成了根据爬取的txt文档，从百度分类从信息科学类爬取百度词条信息，并写入CSV格式文件。

txt格式文件如图：为自己爬取内容分词后的结果。

代码如下：

 import requests

 from bs4 import BeautifulSoup

 import csv

 import io

 import re

 url="https://baike.baidu.com/item/"

 id=1

 patton=re.compile(r'.*信息科学分类.*|.*软件.*|.*科技产品.*|.*公司.*|.*互联网人物.*|.*互联网.*|.*科技术语.*|.*技术.*|.*网站.*')

 #写入表头

 def Head():

     with open('E:/bdbk2.csv', 'w', encoding='utf-8', newline='') as csvfile:

         writer = csv.writer(csvfile)

         writer.writerow(["序号", "名称", "属性", "内容", "网址"])

 def read():

     f = open('E:/bdbk2.csv', 'a+', encoding='utf-8', newline='')

     csv_writer = csv.writer(f)

     global url

     f=open("E:/word5.txt",'r+',encoding="utf-8")

     for line in f:

         url=url+line.rstrip("\n")

         try:

             global id, name, nature, content, tag

             kv = {'user-agent': 'Mozilla/5.0'}

             r = requests.get(url, headers=kv)

             r.encoding = "utf-8"

             demo = r.text

             soup = BeautifulSoup(demo, "html.parser")

             print(url)

             # print(soup.prettify())

             tag = soup.find_all("dd", {"id": "open-tag-item"})[0].get_text().replace("（", "").replace("）",

                                                                                                       "").strip().replace(

                 "\n", "")

             name = soup.find_all("h1")[0].get_text().strip()

             nature = soup.find_all("h2")[0].get_text().replace("（", "").replace("）", "").strip()

             if nature == '目录':

                 nature = tag

             content = soup.find_all("div", {"class": "lemma-summary"})[0].get_text().strip().rstrip("]").lstrip("[")

             if name != "百度百科错误页" and nature != "目录" and len(patton.findall(tag)) != 0:

                 print("序号:" + str(id))

                 print("名称:" + name)

                 print("属性:" + nature)

                 print("内容:" + content)

                 print("网址:" + url)

                 csv_writer.writerow([str(id), name, nature, content, url])

                 id += 1

         except:

             print("出错!")

         url = "https://baike.baidu.com/item/"

     f.close()

 if __name__=="__main__":

     Head()

     read()

假期学习【十一】Python爬取百度词条写入csv格式 python 2020.2.10的更多相关文章

爬虫实战(一) 用Python爬取百度百科
最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果但是自己又没有心思做这样一个数 ...
Python——爬取百度百科关键词1000个相关网页
Python简单爬虫——爬取百度百科关键词1000个相关网页——标题和简介网站爬虫由浅入深:慢慢来分析: 链接的URL分析: 数据格式: 爬虫基本架构模型: 本爬虫架构: 源代码: # codin ...
python 爬取百度url
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-29 18:38:23 # @Author : EnderZhou (z ...
java 如何爬取百度百科词条内容(java如何使用webmagic爬取百度词条)
这是老师所布置的作业说一下我这里的爬去并非能把百度词条上的内容一字不漏的取下来(而是它分享链接的一个主要内容概括...)(他的主要内容我爬不到也不想去研究大家有好办法可以call me) 例如互 ...
python爬取百度贴吧帖子
最近偶尔学下爬虫,放上第二个demo吧 #-*- coding: utf-8 -*- import urllib import urllib2 import re #处理页面标签类 class Too ...
python爬取百度搜索结果ur汇总
写了两篇之后,我觉得关于爬虫,重点还是分析过程分析些什么呢: 1)首先明确自己要爬取的目标比如这次我们需要爬取的是使用百度搜索之后所有出来的url结果 2)分析手动进行的获取目标的过程,以便以程序 ...
使用python爬取百度贴吧内的图片
1. 首先通过urllib获取网页的源码 # 定义一个getHtml()函数 def getHtml(url): try: page = urllib.urlopen(url) # urllib.ur ...
python 爬取百度云资源
pan1 1 import urllib.request 2 import re 3 import random 4 5 def get_source(key): 6 7 print('请稍等,爬取中 ...
python爬取百度翻译返回：{'error': 997, 'from': 'zh', 'to': 'en', 'query 问题
解决办法: 修改url为手机版的地址:http://fanyi.baidu.com/basetrans User-Agent也用手机版的测试代码: # -*- coding: utf-8 -*- & ...

随机推荐

C语言基础五数组
数组跟变量的区别? 数组是可以在内存中连续存储多个元素的结构,所有元素必须属于相同类型. 格式:元素类型数组名[元素个数]: 数组的特点: 只能存放单一元素的数据,里面存放的数据成为元素. 数组的声 ...
pikachu-跨站请求伪造（CSRF）
一.CSRF漏洞概述 1.1 什么是CSRF漏洞在CSRF的攻击场景中攻击者会伪造一个请求(整个请求一般是一个链接),然后七篇目标用户进行点击,用户一旦点击了这个请求,整个攻击也就完成了,所以CSR ...
少量代码设计一个登录界面（二） – .NET CORE(C#) WPF开发
微信公众号:Dotnet9,网站:Dotnet9,问题或建议:请网站留言, 如果对您有所帮助:欢迎赞赏. 阅读导航本文背景代码实现本文参考源码 1. 本文背景同上篇文章<少量代码设计一 ...
Android 有关在ListView RecycleView 中使用EditText Checkbox的坑
这是一篇文字超多的博客,哈哈哈,废话自行过滤··· 遇到问题在开发中我们常会在ListView , RecycleView 列表中添加EditText输入框,或者checkbox复选框. 复选框 ...
常量, char[], const char[], char*, const char*, char* const以及const char* const的详解
注意,这里用char类型只是举了一个例子,其他的int之类的也通用. 1: 常量: 例子: char str[] = "Hello world!"; char ch = 'a'; ...
dapi 基于Django的轻量级测试平台八 Docker部署
QQ群: GitHub:https://github.com/yjlch1016/dapi 采用Docker+Supervisor+Nginx+uWSGI+Django 一.Dockerfile文件: ...
Qt编写的项目作品3-输入法V2018
一.功能特点未采用Qt系统层输入法框架,独创输入切换机制. 纯QWidget编写,支持任何目标平台(亲测windows.linux.嵌入式linux等),支持任意Qt版本(亲测Qt4.6.0到Qt5 ...
Java对象拷贝备忘
列举 //cglib net.sf.cglib.beans.BeanCopier.create net.sf.cglib.beans.BeanCopier.copy //spring-beans or ...
LINUX系统(CentOS7安装)一之JDK8的安装
JDK 的安装系统安装就不做过多介绍,大家从网上寻找安装步骤进行安装,不过我推荐大家进行安装时选择桌面图形化格式进行安装,方便做一部分操作,同时在安装过程中选择英文模式,同时我自己在安装的过程中发现使 ...
idea将普通项目转换为maven项目
方式一 1.在项目根目录下,新建文件 pom.xml,并填写好内容. 2.在pom.xml文件上,右键 Add as Maven Project 或在项目上,右键 Add Framework Sup ...

假期学习【十一】Python爬取百度词条写入csv格式 python 2020.2.10

假期学习【十一】Python爬取百度词条写入csv格式 python 2020.2.10的更多相关文章

随机推荐

热门专题