python爬虫: 豆瓣电影top250数据分析
转载博客 https://segmentfault.com/a/1190000005920679
根据自己的环境修改并配置mysql数据库
系统:Mac OS X 10.11
python 2.7
mysql安装
使用brew安装mysql,启动mysql服务
☁ ~ brew install mysql
Warning: mysql-5.7.18 already installed
☁ ~ which mysql
/usr/local/bin/mysql
☁ ~ ls /usr/local/bin/mysql*
/usr/local/bin/mysql /usr/local/bin/mysql_ssl_rsa_setup /usr/local/bin/mysqldumpslow
/usr/local/bin/mysql.server /usr/local/bin/mysql_tzinfo_to_sql /usr/local/bin/mysqlimport
/usr/local/bin/mysql_client_test /usr/local/bin/mysql_upgrade /usr/local/bin/mysqlpump
/usr/local/bin/mysql_client_test_embedded /usr/local/bin/mysqladmin /usr/local/bin/mysqlshow
/usr/local/bin/mysql_config /usr/local/bin/mysqlbinlog /usr/local/bin/mysqlslap
/usr/local/bin/mysql_config_editor /usr/local/bin/mysqlcheck /usr/local/bin/mysqltest
/usr/local/bin/mysql_embedded /usr/local/bin/mysqld /usr/local/bin/mysqltest_embedded
/usr/local/bin/mysql_install_db /usr/local/bin/mysqld_multi /usr/local/bin/mysqlxtest
/usr/local/bin/mysql_plugin /usr/local/bin/mysqld_safe
/usr/local/bin/mysql_secure_installation /usr/local/bin/mysqldump
☁ ~ mysql.server start
Starting MySQL
. SUCCESS!
数据库创建,表创建
☁ ~ mysql -u root -p
Enter password:
Welcome to the MySQL monitor. Commands end with ; or \g.
Your MySQL connection id is 6
Server version: 5.7.18 Homebrew Copyright (c) 2000, 2017, Oracle and/or its affiliates. All rights reserved. Oracle is a registered trademark of Oracle Corporation and/or its
affiliates. Other names may be trademarks of their respective
owners. Type 'help;' or '\h' for help. Type '\c' to clear the current input statement. mysql> show databases;
+--------------------+
| Database |
+--------------------+
| information_schema |
| alt_web |
| db_name |
| db_tendenci |
| douban |
| mysql |
| performance_schema |
| sys |
| testdb1 |
+--------------------+
9 rows in set (0.00 sec) mysql>create douban; #创建douban数据库
mysql>use douban; #更换当前数据库
#在douban数据库中,创建表douban
mysql>create table douban(
id INT NOT NULL AUTO_INCREMENT,
class VARCHAR(100) NOT NULL,
count INT NOT NULL,
PRIMARY KEY( id )
)ENGINE=InnoDB DEFAULT CHARSET=utf8;
mysql> desc douban; #显示表结构
+-------+--------------+------+-----+---------+----------------+
| Field | Type | Null | Key | Default | Extra |
+-------+--------------+------+-----+---------+----------------+
| id | int(11) | NO | PRI | NULL | auto_increment |
| class | varchar(100) | NO | | NULL | |
| count | int(11) | NO | | NULL | |
+-------+--------------+------+-----+---------+----------------+
3 rows in set (0.01 sec)
mysql教程
python包安装
requests,lxml.etree,pymysql,matplotlib
- 使用pip安装
pip install packagename
下载源代码并运行
$ python demo.py
我的源码
https://github.com/MingjaLee/spiders_douban_movies
python爬虫: 豆瓣电影top250数据分析的更多相关文章
- python pandas 豆瓣电影 top250 数据分析
豆瓣电影top250数据分析 数据来源(豆瓣电影top250) 爬虫代码比较简单 数据较为真实,可以进行初步的数据分析 可以将前面的几篇文章中的介绍的数据预处理的方法进行实践 最后用matplotli ...
- [Python]计算豆瓣电影TOP250的平均得分
用python写的爬虫练习,感觉比golang要好写一点. import re import urllib origin_url = 'https://movie.douban.com/top250? ...
- Python爬虫-豆瓣电影 Top 250
爬取的网页地址为:https://movie.douban.com/top250 打开网页后,可观察到:TOP250的电影被分成了10个页面来展示,每个页面有25个电影. 那么要爬取所有电影的信息,就 ...
- python爬虫-豆瓣电影的尝试
一.背景介绍 1. 使用工具 Pycharm 2. 安装的第三方库 requests.BeautifulSoup 2.1 如何安装第三方库 File => Settings => Proj ...
- python爬虫 Scrapy2-- 爬取豆瓣电影TOP250
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
- Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
- Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
- Python爬虫入门:爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...
- [Python] 豆瓣电影top250爬虫
1.分析 <li><div class="item">电影信息</div></li> 每个电影信息都是同样的格式,毕竟在服务器端是用 ...
随机推荐
- 微信小程序实战
为了积攒粉丝,公司决定做一个一分钱姓名测算的小程序引导大家关注公众号. 实现的需求就是 1 首页 用户编辑姓名和性别进行提交 2 测算结果页 实现分享和支付功能 3 测算历史页面 看到用户曾经测算记 ...
- ubuntu 16.04 单用户____修改忘记密码
1.开机按ESC,出现如下界面,选中如下选项 2.按回车键进入如下界面,然后选中有recovery mode的选项 3.按e进入如下界面,找到图中红色框的recovery nomodeset并将其删掉 ...
- 2017浙江工业大学-校赛决赛 BugZhu抽抽抽!!
Description 当前正火的一款手游阴阳师又出新式神了,BugZhu十分想要获得新出的式神,所以他决定花光所有的积蓄来抽抽抽!BugZhu经过长时间的研究后发现通过画三角外接圆能够提高获得该式神 ...
- 解决git从remote clone后所有文件都改变的问题
遇到2次这种情况了,git从remote clone项目代码后发现所有文件都要改变,因为权限改变了,可以通过git来设置忽略权限变化 git config --global core.fileMode ...
- Entitas实现简析
Entitas实现简析 这里主要讲Entitas的执行原理,不讲Entitas的代码生成方面. ECS简介 ECS(实体-组件-系统)是一种常用于游戏开发的架构模式. 实体: 实体只是一个 ...
- Ubuntu14.04 使用scp远程传输命令进行服务器文件互传
1.将另一个服务器上的文件拷贝到本地 sudo scp host_name@host_ip:/home/aaa/bbb /ccc/ddd/bbb 上面命令的意思是将远程服务器/home/aaa/目录下 ...
- CentOS 6.2安装配置LAMP服务器(Apache+PHP5+MySQL)
准备篇: 1.配置防火墙,开启80端口.3306端口 vi /etc/sysconfig/iptables -A INPUT -m state --state NEW -m tcp - ...
- 关于 hystrix 的异常 fallback method wasn't found
典型如下: @HystrixCommand(fallbackMethod = "fallbackHi") public String getHi(String x) { Strin ...
- 数据结构-List接口-LinkedList类-Set接口-HashSet类-Collection总结
一.数据结构:4种--<需补充> 1.堆栈结构: 特点:LIFO(后进先出);栈的入口/出口都在顶端位置;压栈就是存元素/弹栈就是取元素; 代表类:Stack; 其 ...
- 多线程串口通信 MFC CSerialPort
写在前面: 晚上应该继续完成未写完的代码,但Chrome上打开的标签实在太多了,约30个了,必须关掉一些,所以需要把自己看的整理一下然后关掉.本次主要写点MFC环境下多线程串口通信相关的东西,这包括线 ...