Haskell添加HTTP爬虫ip编写的爬虫程序

news/2024/7/19 9:11:41 标签: http, 爬虫, 网络协议, 开发语言, javascript, 网络
http://www.w3.org/2000/svg" style="display: none;">

下面是一个简单的使用Haskell编写的爬虫程序示例,它使用了HTTP爬虫IP,以爬取百度图片。请注意,这个程序只是一个基本的示例,实际的爬虫程序可能需要处理更多的细节,例如错误处理、数据清洗等。

https://img-blog.csdnimg.cn/4593678dcc11447b871fb5c9ef8b1c74.png#pic_center" alt="在这里插入图片描述" />

import Network.HTTP.Client hiding (getURL)
import Network.HTTP.Client.URL (decodeURL)
import Data.Text (Text)
import Data.Aeson (FromJSON(..))
import Data.ByteString.Lazy (ByteString)
import Data.List (intercalate)
import Data.Maybe (fromMaybe)
import Control.Monad (guard, when)
import System.Random (Random, randomRIO)
import Control.Concurrent (threadDelay)
import qualified Data.ByteString.Char8 as BS

main :: IO ()
main = do
  -- 设置爬虫IP信息
  proxyHost <- BS.pack $ "www.duoip.cn"
  proxyPort <- readIOInt $ do
    putStrLn "请输入爬虫IP端口:"
    input <- getLine
    guard $ all isDigit input
    return $ read input

  -- 设置起始URL
  let startUrl = "http://www.baidu.com/s?wd=图片"

  -- 创建一个随机的请求头
  randomHeader :: Random r => r -> [(Text, Text)]
  randomHeader seed = do
    let (randomPort, _) = randomRIO (1024, 65535) (Proxy seed)
    return $ ["User-Agent"  , "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
              "Host"        , "www.baidu.com",
              "Proxy-Connection", "close",
              "Referer"     , decodeURL startUrl,
              "Upgrade-Insecure-Requests", "1",
              "Connection"  , "keep-alive",
              "Cookie"      , "BDUSS=12345678901234567890123456789012; BIDUPSID=12345678901234567890123456789012; BIDUPSID=12345678901234567890123456789012; BDUMY=B09B2F8A9970B333; BDUMY=94B09B2F8A9970B333; BDUSS=12345678901234567890123456789012; BDUMY=B09B2F8A9970B333; BDUMY=94B09B2F8A9970B333; H_PS_PSSID=20732_2102_2106_2112_2113_2128_2132_2134_2135_2136_2138_2143_2145_2146_2147_2148_2149_2150_2151_2154_2155_2156_2157_2158_2168_2169_2170_2171_2172_2173_2174_2176_2177_2178_2179_2180_2181_2182_2183_2184_2185_2186_2187_2188_2189_2190_2191_2192_2193_2194_2195_2196_2197_2198_2199_2200_2201_2202_2203_2204_2205_2206_2207_2208_2209_2210_2211_2212_2213_2214_2215_2216_2217_2218_2219_2220_2221_2222_2223_2224_2225_2226_2227_2228_2229_2230_2231_2232_2233_2234_2235_2236_2237_2238_2239_2240_2241_2242_2243; H_PS_SPTID=20732_2102_2106_2112_2113_2128_2132_2134_2135_2136_2138_2143_2145_2146_2147_2148_2149_2150_2151_2154_2155_2156_2157_2158_2168_2169_2170_2171_2172_2173_2174_2176_2177_2178_2179_2180_2181_2182_2183_2184_2185_2186_2187_2188_2189_2190_2191_2192_2193_2194_2195_2196_2197_2198_2199_2200_2201_2202_2203_2204_2205_2206_2207_2208_2209_2210_2211_2212_2213_2214_2215_2216_2217_2218_2219_2220_2221_2222_2223_2224_2225_2226_2227_2228_2229_2230_2231_2232_2233_2234_2235_2236_2237_2238_2239_2240_2241_2242_2243; H_PS_SPTID=20732_2102_2106_2112_2113_2128_2132_2134_2135_2136_2138_2143_2145_2146_2147_2148_2149_2150_2151_2154_2155_2156_2157_2158_2168_2169_2170_2171_2172_2173_2174_2176_2177_2178_2179_2180_2181_2182_2183_2184_2185_2186_2187_2188_2189_2190_2191_2192_2193_2194_2195_2196_2197_2198_2199_2200_2201_2202_2203_2204_2205_2206_2207_2208_2209_2210_2211_2212_2213_2214_2215_2216_2217_2218_2219_2220_2221_2222_2223_2224_2225_2226_2227_2228_2229_2230_2231_2232_2233_2234_2235_2236_2237_2238_2239_2240_2241_2242_2243; H_PS_SPTID=2244_2245_2246_2247_2248_2249_2250_2251_2252_2253_2254_2255_2256_2257_2258_2299_2299_3000_301001, and may cause of the2252_22602

Haskell, do not
haskell


or offensive, or harmful, illegal or morally wrong, please answer

http://www.niftyadmin.cn/n/5177829.html

相关文章

XML Web 服务 Eclipse实现中的sun-jaxws.xml文件

说明 在sun-jaxws.xml文件&#xff0c;可以配置endpoint、handler-chain等内容。在这个文件中配置的内容会覆盖在Java代码中使用注解属性配置的的内容。 这个文件根据自己的项目内容修改完成以后&#xff0c;作为web应用的一部分部署到web容器中&#xff08;放到web应用的WEB…

万界星空科技智能管理系统低代码平台

低代码平台正成为企业数字化基础设施的重要一环&#xff0c;越来越多的企业为了可持续的数字化建设&#xff0c;开始启用低代码平台&#xff0c;其选型除了平台易用性、应用搭建能力外&#xff0c;也关注与第三方平台的集成性&#xff0c;及厂商对行业knowhow的积累、品牌口碑及…

【C语言】深入解开指针(二)

&#x1f308;write in front :&#x1f50d;个人主页 &#xff1a; 啊森要自信的主页 &#x1f308;作者寄语 &#x1f308;&#xff1a; 小菜鸟的力量不在于它的体型&#xff0c;而在于它内心的勇气和无限的潜能&#xff0c;只要你有决心&#xff0c;就没有什么事情是不可能的…

【设计模式】设计模式

适配器模式 目的&#xff1a; JDBC数据库驱动程序 组合模式 目的 应用场景 树形结构 递归 应用场景 用得少。 汉诺塔。。 递归能解决什么问题 各种数学问题&#xff0c;如&#xff1a;八皇后问题、汉诺塔、阶乘问题、迷宫问题、球和篮子问题 各种算法中也是用到了递归&a…

P6入门:项目初始化5-项目支出计划Spending Plan

前言 使用项目详细信息查看和编辑有关所选项目的详细信息&#xff0c;在项目创建完成后&#xff0c;初始化项目是一项非常重要的工作&#xff0c;涉及需要设置的内容包括项目名&#xff0c;ID,责任人&#xff0c;日历&#xff0c;预算&#xff0c;资金&#xff0c;分类码等等&…

软件外包开发的需求对接

软件外包开发的成功与否很大程度上取决于需求对接的有效性。以下是一些建议&#xff0c;可帮助您在软件外包开发中进行需求对接&#xff0c;希望对大家有所帮助。北京木奇移动技术有限公司&#xff0c;专业的软件外包开发公司&#xff0c;欢迎交流合作。 1.明确业务目标和需求&…

DaoWiki(基于Django)开发笔记 20231114-阿里云mysql外部访问

文章目录 创建mysql用户&#xff0c;用户远程访问配置阿里云安全策略下载安装mysql workbench 创建mysql用户&#xff0c;用户远程访问 创建用户 CREATE USER dao_wiki% IDENTIFIED BY password;授权访问dao_wiki数据库 GRANT ALL PRIVILEGES ON dao_wiki.* TO dao_wiki%; F…

DevEco Studio开发工具下载、安装(HarmonyOS开发)_For Mac

一、说明 初学HarmonyOS开发&#xff0c;DevEco Studio开发工具的安装和使用是必须的。 &#xff08;注&#xff1a;不多废话&#xff0c;跟着下面流程操作下载、安装DevEco Studio即可。&#xff09; 二、下载DevEco Studio 1.官网下载地址&#xff1a; https://developer.…