不为成仙,只为在这红尘中等你回来。

Python 深拷贝、浅拷贝

    浅拷贝,只拷贝父对象,不拷贝父对象的子对象。深拷贝,拷贝父对象和子对象。 PS:切片返回的是列表元素的浅拷贝,与列表对象的直接赋值不一样。 ```python import copy a = [1, 2, 3, 4, ['a', 'b']] # 原始对象 b = a # 赋值 c = copy.copy(a) # 浅拷贝 d = copy.deepcopy(a) # 深拷贝 ...

    阅读全文>>

2018年4月23日 23:42 作者:nancy 分类:[Python] 219

Python 二分查找、快速排序、冒泡排序

    ### 二分查找 ```python def binary_search(list, item): low = 0 high = len(list) - 1 while low <= high: mid = (low + high) / 2 guess = list(mid) if guess == item: return mid elif guess > item: high = mid - 1 else: low = mid + 1 return None mylist = [1, 3, 5, 7, 9] print binary...

    阅读全文>>

2018年4月22日 23:39 作者:nancy 分类:[Python] 275

Python 字符串连接、is 与 == 的区别

    ### Python 连接字符串用 join 还是 “+” 当用操作符 “+” 连接字符串时,每执行一次都会申请一块新的内存,然后复制上一个 “+” 操作的结果和本次操作的右操作符到这块内存空间,因此使用 “+” 连接字符串会涉及多次内存申请和复制。 Join 在连接字符串的时候,会先计算需要多大的内存存放结果,然后一次性申请所需内存并将字符串复制过去。 ### Python is 和 == 的区别 is 是检查两个对象是否指向同一块内存空间。 == 是检查它们的值是...

    阅读全文>>

2018年4月22日 14:47 作者:nancy 分类:[Python] 201

Python 切片

    ### Python 切片 a = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] b = a[i:j] 表示复制 a[i] 到 a[j-1],以生成新的 list 对象 b = a[1:3] 那么,b 的内容是 [1,2] 当 i 缺省时,默认为 0,即 a[:3] 相当于 a[0:3] 当 j 缺省时,默认为 len(alist),即 a[1:] 相当于 a[1:10] 当 i,j 都缺省时,a[:] 就相当于完整复制一份 a 了 b...

    阅读全文>>

2018年4月12日 19:39 作者:nancy 分类:[Python] 210

使用 scrapy-redis 进行分布式爬取

    ### 搭建环境 首先搭建 scrapy-redis 分布式爬虫环境,当前有3台 Linux 主机(以本地虚拟机为例)。 A:192.168.26.133(Redis Server) B:192.168.26.134 C:192.168.26.136 在 3 台服务器上安装 scrapy 和 scrapy-redis: ```python $ pip install scrapy $ pip install scrapy-redis ``` 选取其中一台...

    阅读全文>>

2018年4月7日 23:08 作者:nancy 分类:[Python] 1409

redis 的使用

    安装 Redis ```python sudo apt-get install redis-server # 安装 Redis sudo service redis-server start # 开启 Redis sudo service redis-server restart # 重启 Redis sudo service redis-server stop # 停止 Redis ``` 默认情况下,Redis 会在 127.0.0....

    阅读全文>>

2018年4月7日 21:10 作者:nancy 分类:[Python] 263

Scrapy shell url 调试返回 403 错误

    scrapy shell url 调试很方便,但是有些网站有防爬虫机制,所以使用 scrapy shell 会返回 403 错误 ```python (venv) root@ubuntu:/home/fangweiren/scrapy# scrapy shell "https://movie.douban.com/j/search_subjects?type=movie&tag=%E8%B1%86%E7%93%A3%E9%AB%98%E5%88%86&sort=recommend&pa...

    阅读全文>>

2018年4月5日 15:00 作者:nancy 分类:[Python] 468

ImportError: No module named parse

    ```python from urllib.parse import urlparse ``` Error:ImportError: No module named parse 错误原因: 出现这个错误,是因为我使用的是 Python2.7 [根据Python 2.x urlparse模块文档](https://docs.python.org/2/library/urlparse.html) Python 2.7 中使用: ```python from url...

    阅读全文>>

2018年3月28日 19:19 作者:nancy 分类:[Python] 423

Selenium Firefox 模拟浏览器登录

    ### Ubuntu 用户安装或升级使用下面的命令(支持所有版本 Ubuntu 系统) ```python sudo apt-get update sudo apt-get install firefox ``` ### 查看版本 打开firefox,点菜单栏 Help->About Firefox ### Firefox 安装路径 1.打开一个火狐浏览器 2.打开一个终端,输入:ps -ef | grep firefox ### Python sele...

    阅读全文>>

2018年3月25日 21:10 作者:nancy 分类:[Python] 975

User-Agent 汇总

    User Agent 中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。 ```python [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (c...

    阅读全文>>

2018年2月25日 23:34 作者:nancy 分类:[Python] 591