bokeyuan_python文章爬去入mongodb读取--LOWBIPROGRAMMER

# -*- coding: utf-8 -*-

import requests,os

from lxml import etree

from pymongo import *

class Boke(object):

def __init__(self):

self.url ="https://www.cnblogs.com/cate/python/"

self.headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.3.2.17331'}

def get_data(self,url):

response = requests.get(url,headers=self.headers)

return response.content

def xml_data(self,data):

html = etree.HTML(data)

mes = html.xpath("//div[@class='post_item']")

for i in mes:

dict={}

info_url = i.xpath("./div[@class='post_item_body']/h3/a/@href")[0]

self.info_data(info_url)

dict['url'] = info_url

self.write_dbs(dict)

def info_data(self,data):

path = "f:/woc/"

if not os.path.exists(path):

os.makedirs(path)

mes = self.get_data(data)

html = etree.HTML(mes)

list = html.xpath("//div[@id='topics']/div[@class='post']")

# print(list)

for x in list:

dictlist = {}

title = x.xpath("./h1[@class='postTitle']/a/text()")[0]

info = x.xpath("./div[@class='postBody']//text()")

dictlist['title'] = title

dictlist['info'] = info

self.write1_dbs(dictlist)

def dbs(self):

connect = MongoClient('127.0.0.1',27017)

conn = connect['boke']

conn1 =conn['zhu']

conn2 =conn['info']

return conn1,conn2

def write_dbs(self,data):

conn1,conn2 = self.dbs()

conn1.insert_one(data)

result=conn1.find()

for i in result:

print(i)

def write1_dbs(self,data):

conn1, conn2 = self.dbs()

conn2.insert_one(data)

result = conn2.find()

for i in result:

print(i)

def run(self):

url = self.url

data = self.get_data(url)

self.xml_data(data)

if __name__ == '__main__':

boke = Boke()

boke.run()

bokeyuan_python文章爬去入mongodb读取--LOWBIPROGRAMMER的更多相关文章

360电影主页和详情页爬去入Mysql库链表读取--lowbiprogrammer
import requests,os,jsonfrom lxml import etreefrom pymysql import *class Movie(object):def __init__(s ...
Selenium爬取淘宝商品概要入mongodb
准备: 1.安装Selenium:终端输入 pip install selenium 2.安装下载Chromedriver:解压后放在…\Google\Chrome\Application\:如果是M ...
java批量爬去电影资源
摘要网上有很多个人站来分享电影资源,其实有时候我们自己也想做这个一个电影站来分享资源.但是这个时候就有一个问题,电影的资源应该从哪里来呢?难道要自己一条条手动去从网络上获取,这样无疑是缓慢而又效率低 ...
python unicode 转中文遇到的问题爬去网页中遇到编码的问题
How do convert unicode escape sequences to unicode characters in a python string 爬去网页中遇到编码的问题 Python ...
利用python的爬虫技术爬去糗事百科的段子
初次学习爬虫技术,在知乎上看了如何爬去糗事百科的段子,于是打算自己也做一个. 实现目标:1,爬取到糗事百科的段子 2,实现每次爬去一个段子,每按一次回车爬取到下一页技术实现:基于python的实现, ...
python爬去电影天堂恐怖片+游戏
1.爬去方式python+selenium 2.工作流程 selenium自动输入,自动爬取,建立文件夹,存入磁力链接到记事本 3.贴上代码 #!/usr/bin/Python# -*- coding ...
破解微信防盗链&微信公众号文章爬取方案
破解微信图文防盗链:https://www.cnblogs.com/xsxshmily/p/8000043.html 图片解除防盗链:https://blog.csdn.net/show_ljw/ar ...
Java基础-爬虫实战之爬去校花网网站内容
Java基础-爬虫实战之爬去校花网网站内容作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 爬虫这个实现点我压根就没有把它当做重点,也没打算做网络爬虫工程师,说起爬虫我更喜欢用Pyt ...
Python学习之路（五）爬虫（四）正则表示式爬去名言网
爬虫的四个主要步骤明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没用处的数据) 处理数据(按照我们想要的方式存储和使用) 什么是正则表达式 ...

随机推荐

Android开发-- 简单对话框
final Builder builder = new AlertDialog.Builder(this); builder.setIcon(R.drawable.appicns_folder_sma ...
JavaScript Promise迷你书（中文版）
最近,发现了一个很不错的关于Promise介绍的迷你电子版书,分享给大家: http://liubin.org/promises-book/#chapter4-advanced-promise (篇幅 ...
HTML5实现图片预览功能
两种方式实现 URL FileReader Index.jsp文件 <%@page contentType="text/html" pageEncoding="UT ...
Python学习(24)：Python面向对象(2)
转自 http://www.cnblogs.com/BeginMan/p/3191037.html 一.类类就是一个数据结构,封装了数据和操作. 类的声明与函数的声明十分类似: class newC ...
C# 中对COOKIES的操作
HttpUtility.UrlDecode HttpUtility.UrlEncode HttpContext.Current.Request.Cookies["UserCode" ...
jQuery的init都做了些什么
// 初始化jQuery对象,即jQuery.fn.init对象 // @param selector 选择器,可能是DOM对象.html字符串.jQuery对象.函数或其他任意值. // @para ...
DOS 如何取当前时间做为文件名？
如果要取得以日期为文件名的文件,假设在命令行下键入date返回形式为:当前日期: 2005-06-02 星期四echo > %date:~0,4%%date:~5,2%%date:~8,2%~表 ...
【Studio】解决格式化时，注释部分没有缩进的问题
android studio默认代码格式化(默认Ctrl+Alt+L),是让注释从每行最左边开始显示,比如这样: 我个人喜欢注释也要缩进对齐.其实这个需要自己设置,打开studio的设置,依次找 Se ...
有关xml中的xmlns
1. xmlns "xmlns"是XHTML namespace的缩写,叫做"名字空间"声明.名字空间是什么作用呢?我的理解是:由于xml允许你自己定义自己的标 ...
Elasticsearch学习之深入搜索二 --- 搜索底层原理剖析
1. 普通match如何转换为term+should { "match": { "title": "java elasticsearch"} ...

bokeyuan_python文章爬去入mongodb读取--LOWBIPROGRAMMER

bokeyuan_python文章爬去入mongodb读取--LOWBIPROGRAMMER的更多相关文章

随机推荐

热门专题