【经验分享】如何让Squid Web隧道支持SSH协议? 默认Web隧道下连接22端口是不被允许的,会返回403错误。 编辑/etc/squid3/squid.conf,加入如下配置行 acl SSL_ports port 22 acl Safe_ports port 22 然后重启Squid即可。 ​

5月16日 11:41转发|评论

当当网有多少图书,你知道吗?>>> http://t.cn/R3h6hiH ​

5月8日 13:53转发|评论

【经验分享】Ubuntu下如何识别无线网卡? 以普联的TL-WDN6200为例,使用的是rtl8812au(http://t.cn/RuR1Drh这个驱动): wget http://t.cn/RuR1DrP unzip master.zip cd rtl8812au-master make sudo install 然后重启系统,运气好的话你就能看到Wifi图标和热点列表了,如下图所示(Ubuntu14.04下亲测) ​

5月3日 19:10转发|评论

【经验分享】DeleGate跑了3天日志吃了18G硬盘,如何关掉日志呢? 查文档(ftp://www.delegate.org/pub/DeleGate/Manual.htm#LOGDIR),找到了方法,加上参数LOGFILE=""即可,原文: You can stop logging by specifying null file name like LOGFILE="" or PROTOLOG="". ​

4月28日 18:08转发|评论

【经验分享】命令下如何优雅地展示JSON数据? jq is a lightweight and flexible command-line JSON processor. >>> http://t.cn/Ry7MrH2 示例:curl http://t.cn/Rui9UFI |jq '.' 效果如附图所示。 ​

4月27日 17:15转发|评论

最常见浏览器User Agent列表(Most Common User Agents) >>> http://t.cn/R5ZC20T PS:隐约感觉某网站开始通过随机UA检测爬虫了。 ​

4月27日 13:08转发|评论

【经验分享】在多网络接口(IP)环境下Squid,Tinyproxy和DeleGate如何指定出口(IP) >>> http://t.cn/RucmfQu ​

4月25日 18:16转发|评论

【经验分享】Linux网络接口名称最大允许长度为15字符 >>> http://t.cn/RuG4k0R ​

4月24日 11:05转发|评论

【经验分享】抓取Web of Science经验分享 >>> http://t.cn/RmlDirP ​

4月15日 14:03转发|评论

【最新】百度指数最新采集方案演示(视频),有点如下: 1. 受限账号仍可继续采集(不会提示访问太频繁); 2. 一次可以获取近90天的数据(理论上还可以更多); http://t.cn/RmC4qDI ​

4月13日 14:15转发|评论

【经验分享】apt-get如何使用代理?使用-o参数, e.g. sudo apt-get -o Acquire::http::proxy="http://username:password@ip:port/" update ​

4月2日 14:16转发|评论

【经验分享】多IP(网络接口)环境下Python httplib如何指定出口IP(outgoing address)? 如图1所示,测试机有ppp0和ppp1两个网络出口,如下测试代码: import httplib HOST = 'httpbin.org' for outgoing_ip in ['59.55.148.133', '182.84.192.255']: conn = httplib.HTTPConnection(HOST, timeout= ​

3月29日 12:25转发|评论

【备忘】清空dmesg信息:sudo dmesg -c ​

3月27日 17:53转发|评论

淘宝hws接口3月24号被封!爬虫需要对应做升级。 ​

3月27日 17:53转发|评论

腾讯宜出行数据无人值守抓取 >>> http://t.cn/REYpwSH ​

3月6日 09:54转发|评论

【经验分享】Selenium + Firefox,设置firefox_profile参数后启动提示“Message: "Can't load the profile. Profile Dir...”异常。降低Firefox版本(V17)后问题解决。 ​

3月2日 15:18转发|评论

【经验分享】如何用JS获取CSS :before 伪元素的content值? e.g.某网站用CSS :before 伪元素将部分内容进行了“保护”(通过加密的JS动态生成类似如下的CSS伪元素展示信息),常规HTTP交互方法将获取不到内容(注意该CSS属性是加密的JS动态生成的)。 .anti_spider_txt:before { content: '反采集 ​

2月1日 22:16转发|评论

【经验分享】Python如何获取字体文件内包含的所有文字编码? from fontTools.ttLib import TTFont font_path = './fonts/205a5cc78d8914cd4a3f65bd99ff97e0.ttf' font = TTFont(font_path) print font.getGlyphOrder() 输出如下: ['.notdef', 'uniEDA5', 'uniED53', 'uniEE06', 'uniEDB5', 'uniEC74', ​

2月1日 21:47转发|评论

【经验分享】让curl自动解压gzip应答:curl --compressed "http://t.cn/hrfhaz" >>> http://t.cn/RQmBIJE 附图: 1)图1,未加--compressed参数,显示乱码,因为网站返回的gzip内容未被解压。 2)图2,加上显示乱码参数,显示正常。 ​

1月24日 09:50转发|评论

【经验分享】Python读取火狐的SQLite文件,提示"sqlite3.DatabaseError: file is encrypted or is not a database"异常。用SQLite阅读器打开正常。解决方案:下载最新版的sqlite3.dll文件(http://t.cn/hj5v5)覆盖到python27/DLLs内,问题解决。 参考文章: http://t.cn/RQQApNy ​

1月22日 15:43转发|评论