爬虫常用库

news/2024/7/19 11:24:43 标签: 开发工具, 爬虫, python

常用库

urllib

requests

1.请求

 

selenium

1.驱动浏览器的

2.自动化测试

 

chromedriver

https://chromedriver.chromium.org/

1.驱动浏览器

1.放到pip同级

 phantomjs

下载 https://phantomjs.org/download.html

添加环境变量

1.无界面浏览器

 

lxml

1.xpath解析

beatifulsoup4

引入from bs4 import beautifulsoup

1.html解析库

 

pyquery

1.解析库

 

pymysql

存储库

 

pymongo

存储库

redis

存储库

 

flask

web库

django

web服务框架

jupyter

打开 jupyter notebook

1.记事本

2.运行脚本 ctrl+回车   运行

3.增加一行,按b,  删除一行按d

 

linux 安装

pip3 install requests selenium beautifulsoup4  pyquery pymysql pymongo redis flask django jupyter

 

 

 

 splash

 地址 https://github.com/scrapinghub/splash

 

转载于:https://www.cnblogs.com/huay/p/11320966.html


http://www.niftyadmin.cn/n/904096.html

相关文章

Java学习笔记——尝试第一个程序

安装完JDK后,第一次尝试书写代码 打开文本编辑器 在下用的EditPlus5破解版QAQ public class HelloWorld {public static void main(String args[]){System.out.println("Hello World!");} }入门Java代码HHH 保存为HelloWorld.java文件,存在任…

Java——第一次尝试使用IDE写代码

下了经典的Eclipse 一开始并不是很会用,网上看了教程 先创建JavaProject 再在底下创建类 在类中写函数,运行

爬虫流程

1.发请求 2.获取内容 3.解析 4.结构化存储 转载于:https://www.cnblogs.com/huay/p/11322393.html

MAC上的Java开发环境配置

Mac OS 下的Java开发环境配置 前言 Java源代码从编译到解释执行涉及两种环境,一种是编译环境,一种是运行环境。编译环境和运行环境需要安装特定的软件,这些软件与操作系统相关,在开发和运行时,要下载相应环境的版本软…

git pull报错:There is no tracking information for the current branch

今天在git pull 的时候发现有错误&#xff1a; There is no tracking information for the current branch. Please specify which branch you want to merge with. See git-pull(1) for detailsgit pull <remote> <branch>If you wish to set tracking informatio…

git:git pull 失败--Your local changes to the following files would be overwritten by merge

参考&#xff1a;https://blog.csdn.net/jiangyu1013/article/details/78852547 问题&#xff1a; error: Your local changes to the following files would be overwritten by merge:src/main/resources/application-prod.properties Please, commit your changes or stash t…

Java基础练习

取余运算&#xff1a;韩信点兵&#xff0c;不足百人。三人一行多一个&#xff0c;七人一行少两个&#xff0c;五人一个正好&#xff0c;问有多少人&#xff1f; public class CalSoldiery {public static void main(String rgs[])//main函数里面其实只需要一个字符串数组&…

TP5 在云服务器下 验证码不显示的解决方案

tp5使用 think-captcha 后&#xff0c;本地环境正常的显示&#xff0c;可放到云服务器上却显示不了。 方法其实很简单&#xff0c;在 vendor/topthink/think-captcha/src/CaptchaController.php中加上这个ob_clean();这样就能够清除缓存区 namespace think\captcha;use think\C…