xpath爬取网页评论，网址的的调用方法，数据库特殊字符的替换

# -*- coding:utf-8-*-
from lxml import etree
import urllib
import json
import requests

import MySQLdb
id=0
class SQL(object):
    conn=MySQLdb.connect(host="localhost",
                             port=3306,
                             user="root",
                             passwd="123456",
                             db="test",
                             charset="utf8",)

    def insert(self,name,time,content): #函数的调用
        cur=self.conn.cursor()
        global id
        id+=1
        #cur.execute("create table pinglun (id int ,name text,time text,content text)")

        cur.execute("insert into pinglun  VALUES ('%s' ,'%s','%s','%s')"%(id,name,time,content))
        cur.close()
        self.conn.commit()

mysql=SQL()#实例化类
def spider(url):
    html=requests.get(url)
    seletor=etree.HTML(html.text)
    content_field=seletor.xpath('//div[@class="l_post j_l_post l_post_bright  "]') #空格不能省略
    #print type(content_field)
    #fd=open(u'评论'+'.txt','wb')
    for each in content_field:
        reply_info=json.loads(each.xpath('@data-field')[0])
        author=reply_info['author']['user_name']

        time=reply_info['content']['date']
        #print time
        content=each.xpath('div[@class="d_post_content_main"]/div/cc/div[@class="d_post_content j_d_post_content  clearfix"]/text()')[0]
        contents=content.replace("'","")#'对于数据库来说是特殊符号，要用替换的方法
        mysql.insert(author,time,contents)

        #fd.write(author+'\r\n'+time+'\r\n'+content+'\r\n')
    #fd.close()
if __name__ == '__main__':
    for i in range(1,100):
        url="http://tieba.baidu.com/p/3522395718?pn=%s"%i
        spider(url)#网址的调用方法
mysql.conn.close()

xpath爬取网页评论，网址的的调用方法，数据库特殊字符的替换的更多相关文章

使用XPath爬取网页数据
我们以我的博客为例,来爬取我所有写过的博客的标题. 首先,打开我的博客页面,右键“检查”开始进行网页分析.我们选中博客标题,再次右键“检查”即可找到标题相应的位置,我们继续点击右键,选择Copy,再点 ...
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析 ...
python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]
目录前言 XPath的使用方法 XPath爬取数据后言 @(目录) 前言本章同样是解析网页,不过使用的解析技术为XPath. 相对于之前的BeautifulSoup,我感觉还行,也是一个比较常用 ...
一起学爬虫——使用Beautiful Soup爬取网页
要想学好爬虫,必须把基础打扎实,之前发布了两篇文章,分别是使用XPATH和requests爬取网页,今天的文章是学习Beautiful Soup并通过一个例子来实现如何使用Beautiful Soup ...
使用webdriver+urllib爬取网页数据(模拟登陆，过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
python3爬虫爬取网页思路及常见问题（原创）
学习爬虫有一段时间了,对遇到的一些问题进行一下总结. 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save). 下面分别说下这几个过程中可以 ...
python3爬取微博评论并存为xlsx
python3爬取微博评论并存为xlsx**由于微博电脑端的网页版页面比较复杂,我们可以访问手机端的微博网站,网址为:https://m.weibo.cn/一.访问微博网站,找到热门推荐链接我们打开微 ...
爬虫系列(十) 用requests和xpath爬取豆瓣电影
这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 1.网页分析 (1)分析 URL 规律我们首先使用 Chrome 浏览器打开豆瓣电影 T ...
Python爬取网页信息
Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初 ...

随机推荐

translate和replace的区别
今天在oracle数据库中看到replace和translate的嵌套就有点蒙了,于是就上网看了一下,感觉豁然开朗: 今天遇到的问题如下: replace(TRANSLATE(a.deal_msg,' ...
成功部署SSIS中含有Oracle数据库连接的ETL包
RT,正式写之前,我想说,真TMD不容易!!! 写博客,责任心,很重要在百度搜出来的内地博客技术文章(CSDN.ITEYE.CNBLOGS……),大部分都是不全面,只针对一个遇到的问题点的记录,可以 ...
用svg制作loading动画
首先说明:由于各浏览器对svg动画事件支持不统一,此loading动画在Firefox,Opera,Chrome中均没有问题,IE和Safari中有问题,可能是不支持SIML写动画的语法, 但是用Ca ...
MariaDB 10.1配置
[mysqld]datadir=C:/Program Files/MariaDB 10.1/dataport=3306sql_mode="STRICT_TRANS_TABLES,NO_ENG ...
在Mac上配置adb命令
在Mac上配置adb命令在Mac OS中使用adb命令时,应进行变量配置,步骤如下: 一.终端中输入 cd ~ 二.输入touch .bash_profile 回车 touch:如果没有,则创建文件 ...
PHP左、右、内连接
left join :左连接,返回左表中所有的记录以及右表中连接字段相等的记录.right join :右连接,返回右表中所有的记录以及左表中连接字段相等的记录.inner join: 内连接,又 ...
监控数据库运行 - MS SQL 日常维护管理常用脚本(二)
查看数据库登录名信息 use mastergoSELECT name AS LoginName , dbname AS DefaultDB , createdate AS CreateDate, up ...
jquery操作复选框(checkbox)的12个小技巧总结
1.获取单个checkbox选中项(三种写法)$("input:checkbox:checked").val()或者$("input:[type='checkbox']: ...
swift3.0 创建一个app引导页面
swift毕竟不像是oc ,第三方的框架很多,更何况是3.0,自己动手写了个引导页面,看得上我代码的麻友可以拿去用引导页面有三个部分构成,scrollview用语切换引导视图,pageControl ...
javascript数组的一些方法实例
1 concat

xpath爬取网页评论，网址的的调用方法，数据库特殊字符的替换

xpath爬取网页评论，网址的的调用方法，数据库特殊字符的替换的更多相关文章

随机推荐

热门专题