使用bs4对海投网内容信息进行提取并存入mongodb数据库

example: http://xyzp.haitou.cc/article/722427.html

首先是直接下载好每个页面，可以使用 os.system( "wget "+str(url)) 或者urllib2.urlopen(url) ，很简单不赘述。

然后，重头戏，进行信息抽取：

#!/usr/bin/env python

# coding=utf-8

from bs4 import BeautifulSoup

import codecs

import sys

import os

reload(sys)

sys.setdefaultencoding("utf-8")

import re

from pymongo import MongoClient

def get_jdstr(fname):

    soup = ""

    retdict = {}

    with open(fname) as fr:

        soup = BeautifulSoup(fr.read().replace('""','"'))

    jdstr = soup.get_text()

    retdict["inc_name"] = soup.title.string.split()[0]

    retdict["page_content"] = soup.find_all("div","panel-body panel-body-text")[0].get_text()

    retdict["index_url"] = re.search("http://xyzp.haitou.cc/article/\d+.html",jdstr).group()

    retdict["info_from"] = soup.find_all("p","text-ellipsis")[0].contents[1].get_text()

    retdict["workplace"] = soup.find_all("p","text-ellipsis")[1].contents[1].get_text()

    retdict["info_tag"] = soup.find_all("p","text-ellipsis")[2].contents[1].get_text()

    retdict["pub_time"] = soup.find_all("p","text-ellipsis")[3].contents[1].get_text()

    return retdict

def JD_extr():

    fnames = [ fname  for fname in os.listdir("./") if fname.endswith(".html") ]

    fw = codecs.open("tmp_jd_haitou_clean.csv","w","utf-8")

    res = []

    for fname in fnames[1:500]:

        tmp = []

        retdict =  get_jdstr(fname)

        res.append(retdict)

        for k,v in retdict.iteritems():

            tmp.append(v)

        fw.write(" , ".join(tmp)+"\n")

        fw.write("==="*20+"\n")

    print fname,"done!"

    return res

def change2html():

    fnames = [ fname for fname in os.listdir("./") if fname.endswith(".txt") ]

    for fname in fnames:

        cmd = "mv "+str(fname) +" "+fname[:-3]+"html"

        print cmd

        os.system(cmd)

def store2mongodb():

    client = MongoClient("localhost",27017)

    db = client.JD_Haitou

    documents = JD_extr()

    for d in documents:

        db.haitouJD.insert(d)

    mycol = db["haitouJD"]

    print mycol.count()

def split_jd_test_data(fname='./tmp_jd_haitou_clean.csv'):

    fw = codecs.open('./split_jd_res.csv','w','utf-8')

    fr = codecs.open(fname,'r','utf-8')

    indexurl = re.compile("http://xyzp.haitou.cc/article/\d+.html")

    for line in fr:

        if indexurl.search(line):

            url = indexurl.search(line).group()

            cnt = ''  #默认为1

            fw.write(url+"\t"+cnt+"\n")

    fr.close()

    fw.close()

if __name__ == "__main__":

　　 JD_extr()  # 抽取后存入文件

    store2mongodb()

    split_jd_test_data()

    print "done"

使用bs4对海投网内容信息进行提取并存入mongodb数据库的更多相关文章

怎样从外网访问内网MongoDB数据库？
本地安装了一个MongoDB数据库,只能在局域网内访问到,怎样从外网也能访问到本地的MongoDB数据库呢?本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动MongoDB数据库默认安装 ...
基于Python爬虫采集天气网实时信息
相信小伙伴们都知道今冬以来范围最广.持续时间最长.影响最重的一场低温雨雪冰冻天气过程正在进行中.预计,今天安徽.江苏.浙江.湖北.湖南等地有暴雪,局地大暴雪,新增积雪深度4-8厘米,局地可达10- ...
Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
裸辞两个月，海投一个月，从Android转战Web前端的求职之路
前言看到这个标题的童鞋,可能会产生两种想法: 想法一:这篇文章是标题党想法二:Android开发越来越不景气了吗?前端越来越火了吗? 我一向不喜欢标题党,标题中的内容是我的亲身经历.我是2016年 ...
Python爬虫项目--爬取自如网房源信息
本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储正文 1.分析目标站点 1. url: http:/ ...
使用echarts生成海友网企业全国分布地图
不分类别的效果不同分类的分布效果图从海友网获取各个企业名单保存进mysql cmfishhelper.py 从下列网址得到各个企业名片的网址保存进表cmfish cds = get_cds() h ...
Thymeleaf+SpringBoot+Mybatis实现的齐贤易游网旅游信息管理系统
项目简介项目来源于:https://github.com/liuyongfei-1998/root 本系统是基于Thymeleaf+SpringBoot+Mybatis.是非常标准的SSM三大框架( ...
如何利用BeautifulSoup选择器抓取京东网商品信息
昨天小编利用Python正则表达式爬取了京东网商品信息,看过代码的小伙伴们基本上都坐不住了,辣么多的规则和辣么长的代码,悲伤辣么大,实在是受不鸟了.不过小伙伴们不用担心,今天小编利用美丽的汤来为大家演 ...
如何利用Xpath抓取京东网商品信息
前几小编分别利用Python正则表达式和BeautifulSoup爬取了京东网商品信息,今天小编利用Xpath来为大家演示一下如何实现京东商品信息的精准匹配~~ HTML文件其实就是由一组尖括号构成的 ...

随机推荐

CSS网页中的相对定位与绝对定位
在CSS中有这样的一个指令:(position),在DreamWeaver中文版中翻译为“定位”,常用的属性有两个:relative(相对)与 absolute(绝对).有很多朋友对这条指令的用法还是 ...
Linux静态库和共享库
1.什么是静态库静态库类似windows中的静态lib 关于windows中的静态lib,可参考 Windows动态链接库DLL 特点:包含函数代码声明和实现,链接后所有代码都嵌入到宿主程序中. 只在 ...
在easyui datagrid中formatter数据后使用linkbutton
http://ntzrj513.blog.163.com/blog/static/2794561220139245411997/ formatter:function(value,rowData,ro ...
c# webbrowser 错误捕获
private void Form1_Load(object sender, EventArgs e) { webBrowser1.Url = new Uri("about:blank&qu ...
httplib
可爆破目录 import httplib import urllib def sendhttp(): data = urllib.urlencode({'@number': 12524, '@type ...
centos7下环境配置
1: 安装memcached 问题:error: libevent is required. If it's already installed, specify its path using –w ...
Visual Studio 调试技巧
.net程序开发工具我都用vs(visual studio),开发过程中的跟踪调试最常用的就是断点跟踪调试了,但是现在才发现,用了这么多年vs断点跟踪调试是白用了啊.它居然还可以有这么多用法. 设置断 ...
unity, 读写xls
可以用npoi: http://npoi.codeplex.com/ 把npoi.dll放在unity里即可. 读取代码: using System.IO;using NPOI.SS.UserMode ...
tagName和nodeName的区别
首先介绍DOM里常见的三种节点类型(总共有12种,如docment):元素节点,属性节点以及文本节点,例如<h2 class="title">head</h2 ...
CSharp 调用存储过程来执行增、删、改操作
对表进行增,删,改数据时,每次都需要访问一次数据库,这样会影响性能:如果把查询的数据拼接成XML形式,作为一个参数整体传给存储过程来处理,这只访问数据库一次,执行速度会快很多. 1.CSharp 代码 ...

使用bs4对海投网内容信息进行提取并存入mongodb数据库

使用bs4对海投网内容信息进行提取并存入mongodb数据库的更多相关文章

随机推荐

热门专题