【经验分享】mitmproxy如何指定上游代理? 使用-U参数,详情如下: mitmdump.exe -U http://IP:PORT --upstream-auth USERNAME:PASSWORD 测试结果如下图所示。 注意:这里测试的是mitmproxy的0.18.2版本,新版本可能不太一样。 ​

今天 12:51转发|评论

【经验分享】Slenium + Chrome 忽略证书错误方法 def start_chrome(proxy): """启动Chrome """ options = webdriver.ChromeOptions() # 禁止加载图片 chrome_prefs = {} chrome_prefs["profile.default_content_settings"] = {"images": 2} chrome_prefs[" ​

8月14日 21:40转发|评论

【经验分享】同一账号,在同一IP下,人工浏览器登陆很正常,但是用Selenium(+phantomjs or + chrome)登陆,却提示“安全验证”,怎么破? 想了一下,人工操作和Selenium操作的区别在于人速度慢,输入账号密码然后点击登陆之间会有延时(操作再快也需要两三秒时间),而Selenium可以瞬间完成这些操作。 ​

7月27日 10:22转发|评论

【经验分享】用MongoDB做后端实现的队列MongoQueue测试结果如下: (1)插入10w任务耗时约40秒; (2)读取10W任务并标记完成,耗时约90秒; MongoQueue的源码 >>> ttps://github.com/pengqi/mongoqueue/blob/master/mongoqueue/mongoqueue.py 测试脚本源码 >>> http://t.cn/ReZT5y1 PS: (1)Mongo ​

7月25日 16:28转发|评论

【经验分享】正则表达式提取效率要比xpath高很多,点击查看对比测试结果 >>> http://t.cn/Rgc7eJ2 ​

7月16日 14:54转发|评论

【经验分享】Chrome webdriver修改UA方法: options = webdriver.ChromeOptions() # 设置UA为“Kunzhipeng v12.3” options.add_argument("user-agent=Kunzhipeng v12.3") chrome = webdriver.Chrome(chrome_options=options) 测试效果如附图所示。 参考文章 [Change user agent for selenium driver]: ​

7月15日 21:51转发|评论

Selenium disable Image loading in different browsers >>> http://t.cn/RdugmXm ​

7月11日 18:21转发|评论

chromedriver 镜像 - ChromeDriver Mirror >>> http://t.cn/RdugQbX ​

7月11日 18:20转发|评论

"全国POI信息数据库" 上线:涵盖美食、休闲娱乐、酒店、丽人等15大分类,覆盖全国350多个城市,数据量超过4700万条 >>> 点击前往:http://t.cn/RduZ2RC ​

7月11日 15:28转发|评论

【最新发布】国内知名本地生活信息平台4794万商户POI数据2018年06月份更新 >>> http://t.cn/RrdHvAC ​

7月2日 11:25转发|评论

【CSV转Excel(XLSX格式)脚本分享】 背景:大多数情况下CSV转Excel可以使用Openoffice或者Excel实现,但是偶尔也会遇到一些BT的情况,比如转换后Excel打开显示文件异常的(如图2所示)。于是乎利用xlsxwriter这个库写了个小脚本,用法如下: python csv2xlsx.py path-of-csv-file file-encoding(defa ​

6月21日 18:57转发|评论

全国各类POI(美食、休闲娱乐、丽人、酒店、生活服务等等)用户评论数据7.09亿条,更新至2018年6月15日。点击查看示例数据 >>> http://t.cn/Rrv3RpO ​

6月21日 10:21转发|评论

【经验分享】如何让Squid Web隧道支持SSH协议? 默认Web隧道下连接22端口是不被允许的,会返回403错误。 编辑/etc/squid3/squid.conf,加入如下配置行 acl SSL_ports port 22 acl Safe_ports port 22 然后重启Squid即可。 ​

5月16日 11:41转发|评论

当当网有多少图书,你知道吗?>>> http://t.cn/R3h6hiH ​

5月8日 13:53转发|评论

【经验分享】Ubuntu下如何识别无线网卡? 以普联的TL-WDN6200为例,使用的是rtl8812au(http://t.cn/RuR1Drh这个驱动): wget http://t.cn/RuR1DrP unzip master.zip cd rtl8812au-master make sudo install 然后重启系统,运气好的话你就能看到Wifi图标和热点列表了,如下图所示(Ubuntu14.04下亲测) ​

5月3日 19:10转发|评论

【经验分享】DeleGate跑了3天日志吃了18G硬盘,如何关掉日志呢? 查文档(ftp://www.delegate.org/pub/DeleGate/Manual.htm#LOGDIR),找到了方法,加上参数LOGFILE=""即可,原文: You can stop logging by specifying null file name like LOGFILE="" or PROTOLOG="". ​

4月28日 18:08转发|评论

【经验分享】命令下如何优雅地展示JSON数据? jq is a lightweight and flexible command-line JSON processor. >>> http://t.cn/Ry7MrH2 示例:curl http://t.cn/Rui9UFI |jq '.' 效果如附图所示。 ​

4月27日 17:15转发|评论

最常见浏览器User Agent列表(Most Common User Agents) >>> http://t.cn/R5ZC20T PS:隐约感觉某网站开始通过随机UA检测爬虫了。 ​

4月27日 13:08转发|评论

【经验分享】在多网络接口(IP)环境下Squid,Tinyproxy和DeleGate如何指定出口(IP) >>> http://t.cn/RucmfQu ​

4月25日 18:16转发|评论

【经验分享】Linux网络接口名称最大允许长度为15字符 >>> http://t.cn/RuG4k0R ​

4月24日 11:05转发|评论