python – 首席IT民工

作者：Luan Nguyen

原文地址：https://peeomid.com/blog/2018-01-26-what-i-wish-i-knew-when-i-started-django-development-2018/

副标题：Django – 当你开始一个新项目时要注意的地方 – 2018年更新

译者：首席IT民工

现在回想起来，如果在开始Django之旅的时候我注意了这几个地方，会省去我大量的时间和精力。

延伸阅读(Too Long To Read): 注意使用cookiecutter-Django 以便上手所提到的大部分东西。

当我开始做web开发时，我是一名普通的php程序员，不屑于老是看文档。经过努力，总能从搜索引擎中找到解决方法（嗯，现在仍然如此）。

让我很不爽的是，有时候各种东西搅和在一起，你很难读懂别人的代码，甚至是几个礼拜前自己写的代码。这一点不可小觑，阅读代码总是花很多时间。

Python（以及Django）的出现解救了我。第一次，我能够轻松地阅读别人的代码了（也不全是，哈哈）。阅读，变得更简单了。事实上，通过阅读别人的代码，我的技能提高了很多。然而，和其他人一样，一开始我犯了很多，尤其是Django相关的错误。

以下是我希望记录下来的东西，对于开始时踩过的那些坑，我会逐一添加。

Cookie cutter Django

每次当我开始一个项目时，总会创建一个什么都没有的空白项目。然后，反复地修改项目，直到出现我希望的设定/结构。

我原以为我只要为新项目建一个代码库，然后继续开发就好了，但实际上维护和更新这个代码库却占用了大量的时间。

cookiecutter-Django 是一个超棒的项目。有了它，你可以在开始项目时就应用很多人称“最佳实践”的东西。它也自带了一些有助于加速开发的常用组件。

Virtualenv

如果你已经看过一些Python文档，你应该见过这个东西。再怎么推荐都不为过啊。

一定要使用virtualenv来分开每个项目的开发环境。即使你开始的时候只有一个项目，不要都放在global里面，并且你很快就有更多的项目的。

当你创建一个新的环境时，可以这样指定Python版本：

virtualenv env -p python3

另外，确保你查看一下 virtualenvwrapper，这篇文档能帮助你轻松地管理各种不同的虚拟环境：

在一个地方存储所有的虚拟环境
尽快进入虚拟环境，比如，只要运行workon awesome project就好了
设定好当你进出这些环境时所运行的脚本（简单的例子如：切换到项目所在目录，启动一些东西）

设定之结构

这是另一件重要的事情 — 我是认真的。

常规的开发流程是这个样子：你进行本地开发，然后推送到某种测试服务器，最后上线。

每个环境都有其自身的设定和配置（比方说，本地的数据库配置会不同于生产环境的配置）。

对于特定的东西，尤其是那些敏感信息，可以选择从环境变量来获取。

其他的东西，你可以为不同的环境准备不同的设定文件，如图所示：

base.py 包含常见的环境设定；local.py 包含属于本地环境的设定

local.py, staging.py 和 production.py 会导入base.py的设定。你可以借助环境变量来决定要用哪个设定文件。

manage.py的例子：

os.environ.setdefault(‘DJANGO_SETTINGS_MODULE’, ‘config.settings.local’)

如果你使用cookiecutter-django，这些是已经存在的！

从一开始自定义用户模型

始终从一开始就选择自定义用户模型。

你可能会觉得对于简单的项目，没必要开始的时候需要一个自定义的用户模型（我原来也这样认为）

可是呢，如果项目持续一段时候后，你很有可能很快需要转到用户模型，以便引入额外的东西。迁移到用户模型并不总是一件有乐趣的任务。

用于监控的Sentry

用Sentry来进行监控。真的，很简单很容易。你能获得些什么？

当你的站点有问题时，会有通知邮件
管理你的问题（给事情打勾，哈哈）
问题的统计

几个可以使用的App

Django-extensions 包含很多东西，我并非都用过。比如：

runserver_plus: 不是常规的runserver，而是用来本地运行服务的。你会接触到很好看的调试界面，每步都提供交互式Python Shell! （这点是最吸引我的）

show_urls: 显示所有项目的urls，和他们指向的视图。

django-debug-toolbar 调试工具栏可以显示很多东西，比如调试消息，比如执行了那些SQL查询。
django_builder 你只需要引入你的模型，然后它会生成各种东西，是的，有url, 视图，表单，测试。

作者 Julien Danjou

原文地址：https://realpython.com/blog/python/python-memcache-efficient-caching

译者：首席IT民工

在开发Python程序时，实现缓存是重要的一环。缓存技术能够在很大程度上提升性能，从而避免数据的重复计算，或是数据库访问过慢的问题。

Python内置了实现缓存的技术，包括简单的字典和诸如functools.lru_cache之类更加完整的数据结构。后者可以利用“最近最少使用”算法限制缓存的大小，做到任意缓存。

然而，依照定义，这些数据结构仅限于Python进程内部使用。这可能对大规模分布式应用导致问题，因为当你的程序的多个副本在大规模平台上运行时，使用这种本地内存中的数据结构将不允许对所缓存的内容进行共享。

因此，如果你的系统是基于分布式网络的，就需要缓存也基于分布式网络。现如今大量的网络服务器提供了缓存能力–我们在how to use Redis for caching with Django （如何使用Redis实现Django缓存）一文中已经提到过。

在这篇教程中你将看到，memcached是实现分布式缓存的一个很好的选择。首先是对基本的memcached使用方法的简介，然后你会学习到一些高级方法，比如检查和设置（cache and set），以及使用后备缓存以避免传统的缓存性能问题。

安装memcached

Memcached提供了[很多平台的版本](https://github.com/memcached/memcached/wiki/Install) :

如果你运行的是Linux，安装命令是 apt-get install memcached 或 yum install memcached 你既可以通过预构造的安装包安装，也可以从源文件安装
对于macOS，使用Homebrew安装是最简单的。只要有Homebrew包管理器，直接运行 brew install memcached
对于Windows, 你需要自行编译memcached，或者寻找预编译的版本

安装完毕后，运行memecached命令即可启动它：

$ memcached

在正式使用memcached的功能之前，你还需要安装一个memcached的客户端库。下面介绍安装的方法，以及基本的缓存访问操作。

使用Python存储和检索缓存值

即便你从未使用过memcached，也很容易理解。基本来说，memcached提供了一个超大的网络字典。这个字典的几个属性不同于经典的Python字典：

键和值都必须是bytes(字节)
到了过期时间后，键和值将被自动删除

因此，与memcached交互的两个基本操作是：set和get。正如你可能猜到了，他们分别表示给某个键赋值，和从某个键取值。

我个人偏爱的与memcached交互的Python库是 pymemcache，推荐使用。它用pip就可以安装：

$ pip install pymemcache

以下代码显示了如何连接memcached和如何在你的Python程序中将它用作网络分布式缓存：

memcached网络协议十分简单，其实现运行起来也非常快，使得它在数据存储上很管用。换作其他技术，这些数据要么访问起来很慢，要么需要重新计算。

这个例子简单明了，却演示了键值的跨网络存储，以及程序的多个分布式副本如何来访问键值。很简单，却很强大。这是很棒的迈向程序优化的第一步。

缓存数据的自动过期

在memcached中存储数据时，你可以设置过期时间，即mecached保存键和值的最长时间，单位是秒。到期以后，memcached会自动从缓存中删除他们。

过期时间应该设多长呢？没有一个直接的答案，过期时间完全取决于你处理的数据和程序的类型。可能是几秒钟，也可能是几个小时。

“缓存失效”定义了当缓存中的数据与当前数据不一致时，什么时候删除缓存数据，这也是你的程序必须处理的问题，尤其是在不得不呈现已经过时或过于陈旧的数据的情况下。

重申一下，没有直接的答案；过期时间取决于你构造的程序类型。不过，有几类外围情况需要处理，我在上面的例子中尚未涉及。

缓存服务器不能无限增长–内存是有限资源。因此，服务器一旦需要更多的空间来存储其他东西，就会立即清空已有的键。

有些键由于到了过期时间（有时叫做生存周期，或TTL），会变无效。在这些情况下，数据会丢失，并且必须再次重新从标准数据源查询。

听上去比实际情况更加复杂。通常来说，你在Python中使用memcached可以遵循以下方式：

注：由于存在清理操作，处理丢失的键是一定要做的。此外，像memcached刚刚启动这种冷缓存的情况也必须进行处理。在这种情况下，缓存是全空状态，需要一次载入一个请求，直至充分填满。

这意味着说，任何缓存的数据都应视作是临时性的。而且，千万不要期望缓存中包含你先前写入的值。

冷缓存的预热

有些冷缓存的情况是无法避免的，比如memcached发生了崩溃。而有些冷缓存情况，比如迁移到一个新的memcached服务器，是可以避免的。

当你预见会发生冷缓存的情况时，最好避开它。一个需要重新填满的缓存。意味着突然之间，所有缺少缓存数据的用户会大量地访问标准数据源。这种现象也称作“惊群效应”。

pymemcache库提供了一个名为FallbackClient的类来实现这种场景，如下所述：

FallbackClient类能够依照顺序，查询传递给构造函数的老的缓存。这种情况下，总是优先查询新的缓存服务器。如果未命中，则查询老的缓存，从而避免来回查询主数据源的可能。

键会被设置到新的缓存中。一段时间后，可以淘汰老的缓存，然后用new_cache客户端直接替换FallbackClient

检查和设置

在与缓存进行远程通信时，可能发生常见的并发性问题，即有多个客户端尝试同时访问同一个键。Memcached提供了一个叫做检查和设置(check and set)的操作，缩写CAS，来解决这一问题。

最简单的例子比如，有个程序希望统计它的用户数。每当有用户连接时，计数器加一。用memcached，简单实现起来是这样子的：

然而，如果这个程序的两个实例尝试同时更新这个计数器，情况会怎样呢？

第一个client.get(‘visitors’)调用会返回相同的用户数，比方说是42。两个实例同时加一，结果是43，但是43是错的，正确的结果应该是42+1+1 = 44。

通过CAS操作解决并发问题，就很方便。以下的片段实现了一个正确的方案。

类似于get方法，gets方法既返回键值，又返回CAS值。

值的内容是无关的，但在下一次cas方法的调用中会用得着。除了值的内容自gets操作后发生了变化就会导致运行失败，这个方法等同于set操作。运行成功时，循环是中断的，否则操作会从头开始。

当程序的两个实例尝试同时更新计数器时，只有一个实例可以成功地将计数器从42加到43。另一个实例会由client.cas调用返回一个“假”值，只能再次走一遍循环。这次它会得到43，加1得到44，且cas调用会成功完成，从而解决了我们的问题

增加计数器这个例子的有趣之处在于，简单地解释了CAS的工作原理。其实，memcached其实提供了incr和decr方法，可以在单个请求中递增或递减，而无需多次调用gets / cas 。现实中的程序中使用gets/cas来实现更加复杂的数据类型或者操作。

大多数的远程缓存服务器和数据存储都提供了类似的方法，以防止出现并发性问题。了解和合理的使用这些方法至关重要。

Tag: python

[翻译作品]我2018年开始Django开发时踩过的坑