【经验分享】正则表达式提取效率要比xpath高很多,点击查看对比测试结果 >>> http://t.cn/Rgc7eJ2 ​

7月16日 14:54转发|评论

【经验分享】Chrome webdriver修改UA方法: options = webdriver.ChromeOptions() # 设置UA为“Kunzhipeng v12.3” options.add_argument("user-agent=Kunzhipeng v12.3") chrome = webdriver.Chrome(chrome_options=options) 测试效果如附图所示。 参考文章 [Change user agent for selenium driver]: ​

7月15日 21:51转发|评论

Selenium disable Image loading in different browsers >>> http://t.cn/RdugmXm ​

7月11日 18:21转发|评论

chromedriver 镜像 - ChromeDriver Mirror >>> http://t.cn/RdugQbX ​

7月11日 18:20转发|评论

"全国POI信息数据库" 上线:涵盖美食、休闲娱乐、酒店、丽人等15大分类,覆盖全国350多个城市,数据量超过4700万条 >>> 点击前往:http://t.cn/RduZ2RC ​

7月11日 15:28转发|评论

【最新发布】国内知名本地生活信息平台4794万商户POI数据2018年06月份更新 >>> http://t.cn/RrdHvAC ​

7月2日 11:25转发|评论

【CSV转Excel(XLSX格式)脚本分享】 背景:大多数情况下CSV转Excel可以使用Openoffice或者Excel实现,但是偶尔也会遇到一些BT的情况,比如转换后Excel打开显示文件异常的(如图2所示)。于是乎利用xlsxwriter这个库写了个小脚本,用法如下: python csv2xlsx.py path-of-csv-file file-encoding(defa ​

6月21日 18:57转发|评论

全国各类POI(美食、休闲娱乐、丽人、酒店、生活服务等等)用户评论数据7.09亿条,更新至2018年6月15日。点击查看示例数据 >>> http://t.cn/Rrv3RpO ​

6月21日 10:21转发|评论

【经验分享】如何让Squid Web隧道支持SSH协议? 默认Web隧道下连接22端口是不被允许的,会返回403错误。 编辑/etc/squid3/squid.conf,加入如下配置行 acl SSL_ports port 22 acl Safe_ports port 22 然后重启Squid即可。 ​

5月16日 11:41转发|评论

当当网有多少图书,你知道吗?>>> http://t.cn/R3h6hiH ​

5月8日 13:53转发|评论

【经验分享】Ubuntu下如何识别无线网卡? 以普联的TL-WDN6200为例,使用的是rtl8812au(http://t.cn/RuR1Drh这个驱动): wget http://t.cn/RuR1DrP unzip master.zip cd rtl8812au-master make sudo install 然后重启系统,运气好的话你就能看到Wifi图标和热点列表了,如下图所示(Ubuntu14.04下亲测) ​

5月3日 19:10转发|评论

【经验分享】DeleGate跑了3天日志吃了18G硬盘,如何关掉日志呢? 查文档(ftp://www.delegate.org/pub/DeleGate/Manual.htm#LOGDIR),找到了方法,加上参数LOGFILE=""即可,原文: You can stop logging by specifying null file name like LOGFILE="" or PROTOLOG="". ​

4月28日 18:08转发|评论

【经验分享】命令下如何优雅地展示JSON数据? jq is a lightweight and flexible command-line JSON processor. >>> http://t.cn/Ry7MrH2 示例:curl http://t.cn/Rui9UFI |jq '.' 效果如附图所示。 ​

4月27日 17:15转发|评论

最常见浏览器User Agent列表(Most Common User Agents) >>> http://t.cn/R5ZC20T PS:隐约感觉某网站开始通过随机UA检测爬虫了。 ​

4月27日 13:08转发|评论

【经验分享】在多网络接口(IP)环境下Squid,Tinyproxy和DeleGate如何指定出口(IP) >>> http://t.cn/RucmfQu ​

4月25日 18:16转发|评论

【经验分享】Linux网络接口名称最大允许长度为15字符 >>> http://t.cn/RuG4k0R ​

4月24日 11:05转发|评论

【经验分享】抓取Web of Science经验分享 >>> http://t.cn/RmlDirP ​

4月15日 14:03转发|评论

【最新】百度指数最新采集方案演示(视频),有点如下: 1. 受限账号仍可继续采集(不会提示访问太频繁); 2. 一次可以获取近90天的数据(理论上还可以更多); http://t.cn/RmC4qDI ​

4月13日 14:15转发|评论

【经验分享】apt-get如何使用代理?使用-o参数, e.g. sudo apt-get -o Acquire::http::proxy="http://username:password@ip:port/" update ​

4月2日 14:16转发|评论

【经验分享】多IP(网络接口)环境下Python httplib如何指定出口IP(outgoing address)? 如图1所示,测试机有ppp0和ppp1两个网络出口,如下测试代码: import httplib HOST = 'httpbin.org' for outgoing_ip in ['59.55.148.133', '182.84.192.255']: conn = httplib.HTTPConnection(HOST, timeout= ​

3月29日 12:25转发|评论