在 Internet 世界中,客户端的 IP 地址是唯一的,因此目标将使用 IP 地址作为客户端的标识。
通常,目标**的服务器会判断是否从同一个IP地址发送频繁的请求,如果访问速度过高或访问次数过高,会对IP地址进行反爬虫访问限制。
因此,我们需要**ip来协助我们的工作。 在本期《百科》中,我们将梳理出 Python 中使用 **IP 的 4 种方法。
Python 中最基本的网络请求是使用 urllib 模块,我们可以用它来使用 **IP。 使用 urllib 时,我们需要使用 ProxyHandler 类来处理信息,如下所示:
在上面,我们使用 proxy IP 来设置 IP,使用 proxyHandler 来构造处理器对象,使用 Build Opener 来构造一个自定义的 Opener 对象,使用 Opener 对象来发起请求。 如果需要设置 https**ip,只需将"http"相反"https"能。
Python 中最常用的网络请求模块是请求,因为它非常易于使用和方便。 我们也可以用它来使用 IP,如下所示:
在上面,我们还使用代理 IP 来设置 IP,使用代理来设置信息,并使用请求get 方法发起请求。 如果需要设置 https**ip,只需将"http"相反"https"能。
在某些情况下,我们需要使用 Selenium 来模拟浏览器操作。 在这种情况下,我们也可以使用 **ip。 **下面:
在上面,我们使用代理 IP 来设置 IP,使用 add 参数方法来设置信息,并使用 WebDriverChrome 创建浏览器对象。 如果需要设置 https**ip,只需将"http"相反"https"能。
在实际的爬虫开发中,我们通常使用 Scrapy 框架进行快速开发。 Scrapy 框架自带 IP 设置功能,我们只需要在设置中设置即可您可以在 py 文件中添加以下配置:
在上面,我们使用 RandomProxyMiddleware 来设置 IP。 在中间件中py文件,我们需要自定义randomProxyMiddleware类,如下所示:
在上面,我们使用了一种称为 Get Random Proxy 的方法来获取 IP,使用 Requestmeta['proxy'] 设置 IP。如果需要设置 https**ip,只需将"http"相反"https"能。
Python 爬虫有很多使用 **IP 的场景,并且有很多方法,每种方法都有自己的优点。 您必须根据需要选择不同的方式。