Expressions de requête

Les expressions de requête décrivent une valeur ou un calcul pouvant faire partie d’une mise à jour, d’une création, d’un filtre, d’un tri, d’une annotation ou d’une agrégation. Il existe un certain nombre d’expressions intégrées (documentées ci-dessous) pouvant aider à construire des requêtes. Les expressions peuvent être combinées, ou même imbriquées dans certains cas, afin de former des calculs plus complexes.

Arithmétique prise en charge

Django prend en charge l’addition, la soustraction, la multiplication, la division, l’arithmétique modulo ainsi que l’opérateur de puissance pour les expressions de requête, à l’aide de constantes Python, de variables et même d’autres expressions.

Quelques exemples

from django.db.models import F, Count, Value
from django.db.models.functions import Length, Upper

# Find companies that have more employees than chairs.
Company.objects.filter(num_employees__gt=F('num_chairs'))

# Find companies that have at least twice as many employees
# as chairs. Both the querysets below are equivalent.
Company.objects.filter(num_employees__gt=F('num_chairs') * 2)
Company.objects.filter(
    num_employees__gt=F('num_chairs') + F('num_chairs'))

# How many chairs are needed for each company to seat all employees?
>>> company = Company.objects.filter(
...    num_employees__gt=F('num_chairs')).annotate(
...    chairs_needed=F('num_employees') - F('num_chairs')).first()
>>> company.num_employees
120
>>> company.num_chairs
50
>>> company.chairs_needed
70

# Create a new company using expressions.
>>> company = Company.objects.create(name='Google', ticker=Upper(Value('goog')))
# Be sure to refresh it if you need to access the field.
>>> company.refresh_from_db()
>>> company.ticker
'GOOG'

# Annotate models with an aggregated value. Both forms
# below are equivalent.
Company.objects.annotate(num_products=Count('products'))
Company.objects.annotate(num_products=Count(F('products')))

# Aggregates can contain complex computations also
Company.objects.annotate(num_offerings=Count(F('products') + F('services')))

# Expressions can also be used in order_by()
Company.objects.order_by(Length('name').asc())
Company.objects.order_by(Length('name').desc())

Expressions intégrées

Note

Ces expressions sont définies dans django.db.models.expressions et django.db.models.aggregates, mais par commodité elles sont disponibles et habituellement importées à partir de django.db.models.

Expressions F()

class F[source]

Un objet F() représente la valeur d’un champ de modèle ou d’une colonne annotée. Il permet de se référer à des valeurs de champs de modèles et d’effectuer avec elles des opérations en base de données sans avoir à les récupérer préalablement de la base de données vers la mémoire Python.

Au lieu de cela, Django utilise un objet F() pour générer une expression SQL qui décrit l’opération requise au niveau de la base de données.

Il est plus simple de faire comprendre cela par un exemple. Normalement, on peut faire quelque chose comme ceci :

# Tintin filed a news story!
reporter = Reporters.objects.get(name='Tintin')
reporter.stories_filed += 1
reporter.save()

Ici, nous avons obtenu en mémoire la valeur de reporter.stories_filed à partir de la base de données et nous l’avons manipulée avec des opérateurs Python familiers. Nous avons ensuite enregistré l’objet modifié en base de données. Cependant, nous aurions tout aussi bien pu écrire :

from django.db.models import F

reporter = Reporters.objects.get(name='Tintin')
reporter.stories_filed = F('stories_filed') + 1
reporter.save()

Même si reporter.stories_filed = F('stories_filed') + 1 apparaît comme une attribution normale de valeur à un attribut d’instance en Python, il s’agit en réalité d’une construction SQL décrivant une opération en base de données.

Lorsque Django rencontre une instance de F(), il surcharge les opérateurs Python standards pour créer une expression SQL encapsulée ; dans ce cas, une instruction qui demande à la base de données d’incrémenter le champ de base de données représenté par reporter.stories_filed.

Quelle que soit la valeur que contenait reporter.stories_filed, Python n’a jamais besoin de la connaître, car tout se passe en base de données. Tout ce que Python fait à travers la classe F() de Django est de créer la syntaxe SQL pour se référer au champ et décrire l’opération.

Pour accéder à la nouvelle valeur qui a été enregistrée de cette manière, l’objet doit être rechargé :

reporter = Reporters.objects.get(pk=reporter.pk)
# Or, more succinctly:
reporter.refresh_from_db()

En plus d’être utilisée dans les opérations sur des instances uniques comme ci-dessus, F() peut être utilisée sur des jeux QuerySets d’instances d’objets, avec update(). Cela permet de réduire les deux requêtes utilisées ci-dessus, get() et save(), à une seule :

reporter = Reporters.objects.filter(name='Tintin')
reporter.update(stories_filed=F('stories_filed') + 1)

Nous pouvons aussi utiliser update() pour incrémenter la valeur du champ sur plusieurs objets, ce qui peut être beaucoup plus rapide que de récupérer toutes les valeurs en Python depuis la base de données, de les passer en boucle en incrémentant la valeur des champs pour chacun, et de les réenregistrer individuellement dans la base de données :

Reporter.objects.all().update(stories_filed=F('stories_filed') + 1)

F() peut donc offrir des avantages de performance en :

  • faisant travailler la base de données plutôt que le code Python ;
  • réduisant le nombre de requêtes de certaines opérations.

Prévention des conflits de concurrence avec F()

Un autre bénéfice notable de F() est que de faire mettre à jour la valeur d’un champ par la base de données plutôt qu’en Python évite un conflit de concurrence.

Si deux fils d’exécution Python exécutent le code du premier exemple ci-dessus, un des fils pourrait obtenir, incrémenter et enregistrer une valeur de champ après que l’autre fil l’ait obtenu de la base de données. La valeur enregistrée par le second fil d’exécution sera basé sur la valeur d’origine ; le travail du premier fil d’exécution sera tout simplement perdu.

Si c’est la base de données qui est responsable de la mise à jour du champ, le processus est plus robuste : la valeur du champ sera toujours mise à jour en fonction de sa valeur en base de données au moment même de l’appel à save() ou update(), et non pas en fonction de la valeur obtenue au moment de la création de l’instance de modèle.

Les attributions par F() persistent après Model.save()

Les objets F() attribués aux champs de modèles persistent après l’enregistrement de l’instance de modèle et seront appliqués pour chaque save(). Par exemple :

reporter = Reporters.objects.get(name='Tintin')
reporter.stories_filed = F('stories_filed') + 1
reporter.save()

reporter.name = 'Tintin Jr.'
reporter.save()

stories_filed sera mis à jour deux fois dans ce cas. SI la valeur initiale est 1, la valeur finale sera 3.

Utilisation de F() dans les filtres

F() est aussi très utile dans les filtres QuerySet, là où il est possible de filtrer un jeu d’objets en fonction de critères basés sur les valeurs des champs, plutôt que sur des valeurs Python.

Cette utilisation est documentée dans Expressions F() dans les requêtes.

Utilisation de F() avec les annotations

F() peut être utilisée pour créer des champs dynamiques pour les modèles en combinant plusieurs champs de manière arithmétique :

company = Company.objects.annotate(
    chairs_needed=F('num_employees') - F('num_chairs'))

Si les champs que vous combinez sont de types différents, il est nécessaire d’indiquer à Django le type de champ qui en résultera. Comme F() ne prend pas directement en charge output_field, il faut envelopper l’expression dans ExpressionWrapper:

from django.db.models import DateTimeField, ExpressionWrapper, F

Ticket.objects.annotate(
    expires=ExpressionWrapper(
        F('active_at') + F('duration'), output_field=DateTimeField()))

Lorsqu’elle fait référence à des champs relationnels tels qu’une clé ForeignKey, F() renvoie la valeur de clé primaire plutôt qu’une instance de modèle :

>> car = Company.objects.annotate(built_by=F('manufacturer'))[0]
>> car.manufacturer
<Manufacturer: Toyota>
>> car.built_by
3

Expressions Func()

Les expressions Func() sont le type de base de toutes les expressions qui impliquent des fonctions de base de données telles que COALESCE et LOWER, ou des agrégations comme SUM. Elles peuvent être utilisées directement :

from django.db.models import Func, F

queryset.annotate(field_lower=Func(F('field'), function='LOWER'))

ou elles peuvent être utilisées pour bâtir une bibliothèque de fonctions de base de données :

class Lower(Func):
    function = 'LOWER'

queryset.annotate(field_lower=Lower('field'))

Mais dans les deux cas, chaque modèle du jeu de requête résultant sera annoté avec un attribut supplémentaire field_lower dont le contenu correspondra plus ou moins au code SQL suivant :

SELECT
    ...
    LOWER("db_table"."field") as "field_lower"

Voir Fonctions de base de données pour une liste de fonctions de base de données intégrées.

L’API Func se présente comme suit :

class Func(*expressions, **extra)[source]
function

Un attribut de classe décrivant la fonction qui sera générée. Plus précisément, function sera inséré par le substituant function à l’intérieur de template. Sa valeur par défaut est None.

template

Un attribut de classe, sous forme de chaîne de format, qui décrit le code SQL généré pour cette fonction. Sa valeur par défaut est '%(function)s(%(expressions)s)'.

SI vous construisez du code SQL tel que strftime('%W', 'date') et que vous avez besoin d’un caractère littéral % dans la requête, vous devez le quadrupler (%%%%) dans l’attribut template car la chaîne est interpolée deux fois : une fois pendant l’interpolation du gabarit dans as_sql(), et une autre fois dans l’interpolation SQL avec les paramètres de requête dans le curseur de base de données.

arg_joiner

Un attribut de classe qui précise la séquence de caractères utilisée pour joindre les éléments de la liste d”expressions. Sa valeur par défaut est ', '.

arity

Un attribut de classe qui indique le nombre de paramètres acceptés par la fonction. Si cet attribut est défini et que la fonction est appelée avec un nombre d’expressions différent, une exception TypeError sera générée. La valeur par défaut est None.

as_sql(compiler, connection, function=None, template=None, arg_joiner=None, **extra_context)[source]

Produit le code SQL pour la fonction de base de données.

Les méthodes as_vendor() devraient utiliser les paramètres function, template, arg_joiner et tout autre paramètre **extra_context pour adapter le code SQL en cas de besoin. Par exemple :

django/db/models/functions.py
class ConcatPair(Func):
    ...
    function = 'CONCAT'
    ...

    def as_mysql(self, compiler, connection):
        return super().as_sql(
            compiler, connection,
            function='CONCAT_WS',
            template="%(function)s('', %(expressions)s)",
        )

To avoid a SQL injection vulnerability, extra_context must not contain untrusted user input as these values are interpolated into the SQL string rather than passed as query parameters, where the database driver would escape them.

Le paramètre *expressions est une liste d’expressions positionnelles auxquelles la fonction s’applique. Les expressions sont converties en chaînes, jointes par arg_joiner, puis insérées dans template par le substituant expressions.

Les paramètres positionnels peuvent être des expressions ou des valeurs Python. Les chaînes sont censées être des références de colonnes et seront enveloppées dans des expressions F() alors que les autres valeurs sont enveloppées dans des expressions Value().

The **extra kwargs are key=value pairs that can be interpolated into the template attribute. To avoid a SQL injection vulnerability, extra must not contain untrusted user input as these values are interpolated into the SQL string rather than passed as query parameters, where the database driver would escape them.

The function, template, and arg_joiner keywords can be used to replace the attributes of the same name without having to define your own class. output_field can be used to define the expected return type.

Expressions Aggregate()

Une expression d’agrégation est un cas particulier d’une expression Func() qui informe la requête qu’une clause GROUP BY est nécessaire. Toutes les fonctions d’agrégation comme Sum() et Count() héritent de Aggregate().

Comme les Aggregate sont des des expressions et enveloppent des expressions, il est possible de représenter des calculs complexes :

from django.db.models import Count

Company.objects.annotate(
    managers_required=(Count('num_employees') / 4) + Count('num_managers'))

L’API Aggregate se présente comme suit :

class Aggregate(expression, output_field=None, filter=None, **extra)[source]
template

Un attribut de classe, sous forme de chaîne de format, qui décrit le code SQL généré pour cette agrégation. Sa valeur par défaut est '%(function)s(%(expressions)s)'.

function

Un attribut de classe décrivant la fonction d’agrégation qui sera générée. Plus précisément, function sera inséré par le substituant function à l’intérieur de template. Sa valeur par défaut est None.

window_compatible
New in Django 2.0.

Defaults to True since most aggregate functions can be used as the source expression in Window.

Le paramètre expression peut être le nom d’un champ de modèle ou une autre expression. Il sera converti en texte et utilisé comme substituant expressions à l’intérieur de template.

Le paramètre output_field doit être une instance de champ de modèle, comme IntegerField() ou BooleanField(), dans laquelle Django chargera la valeur après qu’elle aura été reçue de la base de données. Aucun paramètre n’est habituellement nécessaire lors de la création de l’instance du champ de modèle car aucun paramètre lié à la validation de données (max_length, max_digits, etc.) ne sera appliqué à la valeur résultante de l’expression.

Notez que output_field n’est obligatoire que lorsque Django est incapable de déterminer le type de champ du résultat. Les expressions complexes qui mélangent des types de champs doivent définir avec output_field le type de résultat attendu. Par exemple, l’addition d’un IntegerField() et d’un FloatField() va probablement demander la définition de output_field=FloatField().

The filter argument takes a Q object that’s used to filter the rows that are aggregated. See Agrégation conditionnelle and Filtrage sur les annotations for example usage.

Les paramètres nommés **extra sont des paires clé=valeur qui peuvent être insérées par interpolation dans l’attribut template.

Changed in Django 2.0:

The filter argument was added.

Création de ses propres fonctions d’agrégation

La création de ses propres agrégations est très facile. Il faut définir au minimum function, mais vous pouvez aussi personnaliser complètement le code SQL produit. Voici un court exemple :

from django.db.models import Aggregate

class Count(Aggregate):
    # supports COUNT(distinct field)
    function = 'COUNT'
    template = '%(function)s(%(distinct)s%(expressions)s)'

    def __init__(self, expression, distinct=False, **extra):
        super().__init__(
            expression,
            distinct='DISTINCT ' if distinct else '',
            output_field=IntegerField(),
            **extra
        )

Expressions Value()

class Value(value, output_field=None)[source]

Un objet Value() représente le composant le plus petit possible d’une expression : une simple valeur. Lorsque vous avez besoin de représenter la valeur d’un nombre entier, d’un booléen ou d’une chaîne à l’intérieur d’une expression, vous pouvez insérer cette valeur dans un objet Value().

Il est rarement nécessaire de faire appel directement à Value(). Lorsque vous écrivez l’expression F('champ') + 1, Django insère implicitement le 1 dans un objet Value(), ce qui permet d’utiliser des valeurs simples dans des expressions plus complexes. Value() devra être utilisé lors du passage d’une chaîne à une expression. La plupart des expressions interprètent un paramètre textuel comme le nom d’un champ, comme par exemple Lower('name').

Le paramètre value décrit la valeur à inclure dans l’expression, comme 1, True ou None. Django sait comment convertir ces valeurs Python dans le bon type de la base de données correspondante.

Le paramètre output_field doit être une instance de champ de modèle, comme IntegerField() ou BooleanField(), dans laquelle Django chargera la valeur après qu’elle aura été reçue de la base de données. Aucun paramètre n’est habituellement nécessaire lors de la création de l’instance du champ de modèle car aucun paramètre lié à la validation de données (max_length, max_digits, etc.) ne sera appliqué à la valeur résultante de l’expression.

Expressions ExpressionWrapper()

class ExpressionWrapper(expression, output_field)[source]

ExpressionWrapper ne fait qu’entourer une autre expression et permet d’accéder aux propriétés, telles que output_field, qui pourraient ne pas être disponibles dans d’autres expressions. ExpressionWrapper est nécessaire lorsqu’on utilise de l’arithmétique avec les expressions F() avec différents types, comme décrit dans Utilisation de F() avec les annotations.

Expressions conditionnelles

Les expressions conditionnelles permettent d’utiliser de la logique ifelifelse dans les requêtes. Django prend nativement en charge les expressions SQL CASE. Pour plus de détails, consultez Expressions conditionnelles.

Expressions Subquery()

class Subquery(queryset, output_field=None)[source]
New in Django 1.11.

Il est possible d’ajouter des sous-requêtes explicites à un objet QuerySet en utilisant l’expression Subquery.

Par exemple, pour annoter chaque post avec l’adresse de courriel de l’auteur du commentaire le plus récent de ce post:

>>> from django.db.models import OuterRef, Subquery
>>> newest = Comment.objects.filter(post=OuterRef('pk')).order_by('-created_at')
>>> Post.objects.annotate(newest_commenter_email=Subquery(newest.values('email')[:1]))

Avec PostgreSQL, le code SQL ressemble à ceci :

SELECT "post"."id", (
    SELECT U0."email"
    FROM "comment" U0
    WHERE U0."post_id" = ("post"."id")
    ORDER BY U0."created_at" DESC LIMIT 1
) AS "newest_commenter_email" FROM "post"

Note

Les exemples de cette section sont conçus pour montrer comment forcer Django à exécuter une sous-requête. Dans certains cas, il serait possible d’écrire une requête équivalente qui effectue la même tâche plus clairement ou plus efficacement.

Référencement des colonnes de la requête parente

class OuterRef(field)[source]
New in Django 1.11.

Utilisez OuterRef lorsqu’un jeu de requête dans une Subquery a besoin de se référer à un champ de la requête parente. Il se comporte comme une expression F sauf que le contrôle vérifiant s’il se réfère à un champ valable n’est pas effectué avant que la requête parente ne soit résolue.

Des instances de OuterRef peuvent être utilisées en lien avec des instances imbriquées de Subquery pour se référer à un jeu de requête supérieur qui n’est pas le parent immédiat. Par exemple, ce jeu de requête devrait se trouver dans une paire imbriquée d’instances Subquery pour être résolu correctement :

>>> Book.objects.filter(author=OuterRef(OuterRef('pk')))

Limite d’une sous-requête à une seule colonne

Dans certaines circonstances, une seule colonne doit être renvoyée d’une sous-requête Subquery, par exemple quand on veut utiliser la sous-requête comme cible d’une recherche __in. Pour renvoyer tous les commentaires de posts publiés durant les dernières 24 heures :

>>> from datetime import timedelta
>>> from django.utils import timezone
>>> one_day_ago = timezone.now() - timedelta(days=1)
>>> posts = Post.objects.filter(published_at__gte=one_day_ago)
>>> Comment.objects.filter(post__in=Subquery(posts.values('pk')))

Dans ce cas, la sous-requête doit utiliser values() pour ne renvoyer qu’une seule colonne : la clé primaire du post.

Limite de la sous-requête à une seule ligne

Pour empêcher une sous-requête de renvoyer plusieurs lignes, une segmentation ([:1]) du résultat de requête est appliquée :

>>> subquery = Subquery(newest.values('email')[:1])
>>> Post.objects.annotate(newest_commenter_email=subquery)

Dans ce cas, la sous-requête ne doit renvoyer qu’une seule colonne et une seule ligne : l’adresse électronique du commentaire créé le plus récent.

(L’utilisation de get() à la place d’une segmentation ne fonctionnerait pas car OuterRef ne peut pas être résolu tant que le résultat de requête n’est pas utilisé dans une sous-requête Subquery.)

Sous-requêtes Exists()

class Exists(queryset)[source]
New in Django 1.11.

Exists est une sous-classe de Subquery utilisant une instruction SQL EXISTS. Dans bien des cas, la performance sera meilleure qu’une sous-requête car la base de données est capable de stopper l’évaluation de la sous-requête dès qu’une première ligne correspondante est trouvée.

Par exemple, pour annoter chaque post avec une indication de la présence ou non d’un commentaire durant la journée écoulée :

>>> from django.db.models import Exists, OuterRef
>>> from datetime import timedelta
>>> from django.utils import timezone
>>> one_day_ago = timezone.now() - timedelta(days=1)
>>> recent_comments = Comment.objects.filter(
...     post=OuterRef('pk'),
...     created_at__gte=one_day_ago,
... )
>>> Post.objects.annotate(recent_comment=Exists(recent_comments))

Avec PostgreSQL, le code SQL ressemble à ceci :

SELECT "post"."id", "post"."published_at", EXISTS(
    SELECT U0."id", U0."post_id", U0."email", U0."created_at"
    FROM "comment" U0
    WHERE (
        U0."created_at" >= YYYY-MM-DD HH:MM:SS AND
        U0."post_id" = ("post"."id")
    )
) AS "recent_comment" FROM "post"

Il n’est pas nécessaire de forcer Exists à se référer à une seule colonne, car les colonnes sont ignorées et un résultat booléen est renvoyé. De même, comme le tri ne joue pas de rôle dans une sous-requête SQL EXISTS et ne ferait que baisser la performance, il est automatiquement enlevé.

Il est possible d’effectuer un NOT EXISTS avec ~Exists().

Filtrage sur une expression Subquery

Il n’est pas possible de filtrer directement en utilisant Subquery et Exists, par ex. :

>>> Post.objects.filter(Exists(recent_comments))
...
TypeError: 'Exists' object is not iterable

Pour filtrer une expression de sous-requête, vous devez commencer par annoter le jeu de requête, puis filtrer sur la base de cette annotation :

>>> Post.objects.annotate(
...     recent_comment=Exists(recent_comments),
... ).filter(recent_comment=True)

Utilisation d’agrégation dans une expression Subquery

Il est possible d’utiliser des agrégats dans une sous-requête, mais cela nécessite une combinaison spécifique de filter(), values() et annotate() afin d’obtenir un groupement correct dans la sous-requête.

En supposant que les deux modèles ont un champ length, voici comment trouver les posts dont la longueur est plus grande que la longueur totale de tous les commentaires ensemble :

>>> from django.db.models import OuterRef, Subquery, Sum
>>> comments = Comment.objects.filter(post=OuterRef('pk')).order_by().values('post')
>>> total_comments = comments.annotate(total=Sum('length')).values('total')
>>> Post.objects.filter(length__gt=Subquery(total_comments))

Le premier filter(...) limite la sous-requête aux paramètres qui nous intéressent. order_by() enlève le tri par défaut (le cas échéant) du modèle Comment, values('post') agrège les commentaires par Post. Pour terminer, annotate(...) effectue l’agrégation. L’ordre dans lequel sont appliqués ces méthodes de requête est important. Dans ce cas, comme la sous-requête doit être limitée à une seule colonne, values('total') est obligatoire.

Il s’agit de la seule manière d’effectuer une agrégation à l’intérieur d’une sous-requête, car aggregate() procède à l’évaluation du jeu de requête (et lorsqu’il existe une OuterRef, celle-ci ne pourrait pas être résolue).

Expressions SQL brutes

class RawSQL(sql, params, output_field=None)[source]

Parfois, les expressions de base de données ne peuvent pas facilement exprimer une clause WHERE complexe. Dans ces cas limites, utilisez l’expression RawSQL. Par exemple :

>>> from django.db.models.expressions import RawSQL
>>> queryset.annotate(val=RawSQL("select col from sometable where othercol = %s", (someparam,)))

Ces expressions brutes ne sont pas toujours portables entre moteurs de base de données (parce que vous écrivez du code SQL explicitement) et elles violent le principe DRY (ne pas se répéter), il s’agit donc de les éviter autant que possible.

Avertissement

To protect against SQL injection attacks, you must escape any parameters that the user can control by using params. params is a required argument to force you to acknowledge that you’re not interpolating your SQL with user-provided data.

You also must not quote placeholders in the SQL string. This example is vulnerable to SQL injection because of the quotes around %s:

RawSQL("select col from sometable where othercol = '%s'")  # unsafe!

You can read more about how Django’s SQL injection protection works.

Window functions

New in Django 2.0.

Window functions provide a way to apply functions on partitions. Unlike a normal aggregation function which computes a final result for each set defined by the group by, window functions operate on frames and partitions, and compute the result for each row.

You can specify multiple windows in the same query which in Django ORM would be equivalent to including multiple expressions in a QuerySet.annotate() call. The ORM doesn’t make use of named windows, instead they are part of the selected columns.

class Window(expression, partition_by=None, order_by=None, frame=None, output_field=None)[source]
filterable

Defaults to False. The SQL standard disallows referencing window functions in the WHERE clause and Django raises an exception when constructing a QuerySet that would do that.

template

Defaults to %(expression)s OVER (%(window)s)'. If only the expression argument is provided, the window clause will be blank.

The Window class is the main expression for an OVER clause.

The expression argument is either a window function, an aggregate function, or an expression that’s compatible in a window clause.

The partition_by argument is a list of expressions (column names should be wrapped in an F-object) that control the partitioning of the rows. Partitioning narrows which rows are used to compute the result set.

The output_field is specified either as an argument or by the expression.

The order_by argument accepts a sequence of expressions on which you can call asc() and desc(). The ordering controls the order in which the expression is applied. For example, if you sum over the rows in a partition, the first result is just the value of the first row, the second is the sum of first and second row.

The frame parameter specifies which other rows that should be used in the computation. See Frames for details.

For example, to annotate each movie with the average rating for the movies by the same studio in the same genre and release year:

>>> from django.db.models import Avg, F, Window
>>> from django.db.models.functions import ExtractYear
>>> Movie.objects.annotate(
>>>     avg_rating=Window(
>>>         expression=Avg('rating'),
>>>         partition_by=[F('studio'), F('genre')],
>>>         order_by=ExtractYear('released').asc(),
>>>     ),
>>> )

This makes it easy to check if a movie is rated better or worse than its peers.

You may want to apply multiple expressions over the same window, i.e., the same partition and frame. For example, you could modify the previous example to also include the best and worst rating in each movie’s group (same studio, genre, and release year) by using three window functions in the same query. The partition and ordering from the previous example is extracted into a dictionary to reduce repetition:

>>> from django.db.models import Avg, F, Max, Min, Window
>>> from django.db.models.functions import ExtractYear
>>> window = {
>>>    'partition_by': [F('studio'), F('genre')],
>>>    'order_by': ExtractYear('released').asc(),
>>> }
>>> Movie.objects.annotate(
>>>     avg_rating=Window(
>>>         expression=Avg('rating'), **window,
>>>     ),
>>>     best=Window(
>>>         expression=Max('rating'), **window,
>>>     ),
>>>     worst=Window(
>>>         expression=Min('rating'), **window,
>>>     ),
>>> )

Among Django’s built-in database backends, MySQL 8.0.2+, PostgreSQL, and Oracle support window expressions. Support for different window expression features varies among the different databases. For example, the options in asc() and desc() may not be supported. Consult the documentation for your database as needed.

Frames

For a window frame, you can choose either a range-based sequence of rows or an ordinary sequence of rows.

class ValueRange(start=None, end=None)[source]
frame_type

This attribute is set to 'RANGE'.

PostgreSQL has limited support for ValueRange and only supports use of the standard start and end points, such as CURRENT ROW and UNBOUNDED FOLLOWING.

class RowRange(start=None, end=None)[source]
frame_type

This attribute is set to 'ROWS'.

Both classes return SQL with the template:

%(frame_type)s BETWEEN %(start)s AND %(end)s

Frames narrow the rows that are used for computing the result. They shift from some start point to some specified end point. Frames can be used with and without partitions, but it’s often a good idea to specify an ordering of the window to ensure a deterministic result. In a frame, a peer in a frame is a row with an equivalent value, or all rows if an ordering clause isn’t present.

The default starting point for a frame is UNBOUNDED PRECEDING which is the first row of the partition. The end point is always explicitly included in the SQL generated by the ORM and is by default UNBOUNDED FOLLOWING. The default frame includes all rows from the partition to the last row in the set.

The accepted values for the start and end arguments are None, an integer, or zero. A negative integer for start results in N preceding, while None yields UNBOUNDED PRECEDING. For both start and end, zero will return CURRENT ROW. Positive integers are accepted for end.

There’s a difference in what CURRENT ROW includes. When specified in ROWS mode, the frame starts or ends with the current row. When specified in RANGE mode, the frame starts or ends at the first or last peer according to the ordering clause. Thus, RANGE CURRENT ROW evaluates the expression for rows which have the same value specified by the ordering. Because the template includes both the start and end points, this may be expressed with:

ValueRange(start=0, end=0)

If a movie’s « peers » are described as movies released by the same studio in the same genre in the same year, this RowRange example annotates each movie with the average rating of a movie’s two prior and two following peers:

>>> from django.db.models import Avg, F, RowRange, Window
>>> from django.db.models.functions import ExtractYear
>>> Movie.objects.annotate(
>>>     avg_rating=Window(
>>>         expression=Avg('rating'),
>>>         partition_by=[F('studio'), F('genre')],
>>>         order_by=ExtractYear('released').asc(),
>>>         frame=RowRange(start=-2, end=2),
>>>     ),
>>> )

If the database supports it, you can specify the start and end points based on values of an expression in the partition. If the released field of the Movie model stores the release month of each movies, this ValueRange example annotates each movie with the average rating of a movie’s peers released between twelve months before and twelve months after the each movie.

>>> from django.db.models import Avg, ExpressionList, F, ValueRange, Window
>>> Movie.objects.annotate(
>>>     avg_rating=Window(
>>>         expression=Avg('rating'),
>>>         partition_by=[F('studio'), F('genre')],
>>>         order_by=F('released').asc(),
>>>         frame=ValueRange(start=-12, end=12),
>>>     ),
>>> )

Informations techniques

Vous trouverez ci-après des détails d’implémentation technique pouvant être utiles aux auteurs de bibliothèques. L’API technique et les exemples qui suivent aident à créer des expressions de requête génériques pouvant étendre les fonctionnalités intégrées que Django propose.

API d’expression

Les expressions de requête implémentent l”API d’expressions de requête, mais exposent également un certain nombre de méthodes et d’attributs supplémentaires énumérés ci-dessous. Toutes les expressions de requête doivent hériter de Expression() ou d’une sous-classe appropriée.

Lorsqu’une expression de requête englobe une autre expression, elle est responsable d’appeler les méthodes appropriées de l’expression englobée.

class Expression[source]
contains_aggregate

Indique à Django que cette expression contient une agrégation et qu’une clause GROUP BY doit être ajoutée à la requête.

contains_over_clause
New in Django 2.0.

Tells Django that this expression contains a Window expression. It’s used, for example, to disallow window function expressions in queries that modify data. Defaults to True.

filterable
New in Django 2.0.

Tells Django that this expression can be referenced in QuerySet.filter(). Defaults to True.

window_compatible
New in Django 2.0.

Tells Django that this expression can be used as the source expression in Window. Defaults to False.

resolve_expression(query=None, allow_joins=True, reuse=None, summarize=False, for_save=False)

Offre l’opportunité d’effectuer un éventuel pré-traitement ou validation de l’expression avant que celle-ci ne soit ajoutée à la requête. resolve_expression() doit aussi être appelée pour toute expression imbriquée. Une copie copy() de self devrait être renvoyée avec les éventuelles transformations nécessaires.

query est l’implémentation de la requête en fonction du moteur de base de données.

allow_joins est une valeur booléenne permettant ou interdisant l’utilisation de jointures dans la requête.

reuse est un ensemble de jointures réutilisables dans des scénarios de jointures multiples.

summarize est une valeur booléenne qui, quand elle vaut True, signale que la requête en cours de calcul est une requête d’agrégation terminale.

get_source_expressions()

Renvoie une liste triée d’expressions internes. Par exemple :

>>> Sum(F('foo')).get_source_expressions()
[F('foo')]
set_source_expressions(expressions)

Accepte une liste d’expressions et les stocke afin que get_source_expressions() puisse les restituer.

relabeled_clone(change_map)

Renvoie un clone (copie) de self, sachant que tout alias de colonne aura été renommé. Les alias de colonnes sont renommés lorsque des sous-requêtes sont créées. relabeled_clone() doit également être appelée pour toute expression imbriquée et attribuée au clone.

change_map est un dictionnaire faisant correspondre les anciens alias aux nouveaux.

Exemple :

def relabeled_clone(self, change_map):
    clone = copy.copy(self)
    clone.expression = self.expression.relabeled_clone(change_map)
    return clone
convert_value(value, expression, connection)

Un point d’entrée permettant à l’expression de forcer value à un type plus approprié.

get_group_by_cols()

Responsable du renvoi de la liste des colonnes référencées par cette expression. get_group_by_cols() doit être appelée sur toute expression imbriquée. Les objets F() en particulier détiennent une référence sur une colonne.

asc(nulls_first=False, nulls_last=False)

Renvoie l’expression prête à être triée dans l’ordre croissant.

nulls_first et nulls_last définissent comment les valeurs nulles sont triées.

Changed in Django 1.11:

Les paramètres nulls_last et nulls_first ont été ajoutés.

desc(nulls_first=False, nulls_last=False)

Renvoie l’expression prête à être triée dans l’ordre décroissant.

nulls_first et nulls_last définissent comment les valeurs nulles sont triées.

Changed in Django 1.11:

Les paramètres nulls_last et nulls_first ont été ajoutés.

reverse_ordering()

Renvoie self avec toute modification nécessaire pour inverser l’ordre de tri à l’intérieur d’un appel order_by. Comme exemple, une expression implémentant NULLS LAST changerait sa valeur pour devenir NULLS FIRST. Les modifications sont uniquement requises pour les expressions qui implémentent l’ordre de tri telles que OrderBy. Cette méthode est appelée lorsque reverse() est appelée sur un jeu de requête (QuerySet).

Écriture de ses propres expressions de requête

Vous pouvez écrire vos propres classes d’expression de requête qui utilisent et peuvent s’intégrer avec d’autres expressions de requête. Prenons un exemple en écrivant une implémentation de la fonction SQL COALESCE, sans utiliser les expressions Func() intégrées.

La fonction SQL COALESCE est définie comme acceptant une liste de colonnes ou de valeurs. Elle renvoie la première colonne ou valeur qui n’est pas NULL.

Commençons par définir le gabarit à utiliser pour la génération du SQL ainsi qu’une méthode __init__() pour définir quelques attributs :

import copy
from django.db.models import Expression

class Coalesce(Expression):
    template = 'COALESCE( %(expressions)s )'

    def __init__(self, expressions, output_field):
      super().__init__(output_field=output_field)
      if len(expressions) < 2:
          raise ValueError('expressions must have at least 2 elements')
      for expression in expressions:
          if not hasattr(expression, 'resolve_expression'):
              raise TypeError('%r is not an Expression' % expression)
      self.expressions = expressions

Nous effectuons quelques validations de base sur les paramètres, y compris le minimum de 2 colonnes ou valeurs, et nous nous assurons qu’il s’agisse bien d’expressions. output_field est ici obligatoire afin que Django sache à quel type de champ de modèle attribuer l’éventuel résultat.

Nous implémentons maintenant le prétraitement et la validation. Comme nous n’avons aucune validation propre à ce stade, nous ne faisons que la déléguer aux expressions imbriquées :

def resolve_expression(self, query=None, allow_joins=True, reuse=None, summarize=False, for_save=False):
    c = self.copy()
    c.is_summary = summarize
    for pos, expression in enumerate(self.expressions):
        c.expressions[pos] = expression.resolve_expression(query, allow_joins, reuse, summarize, for_save)
    return c

Ensuite, nous écrivons la méthode responsable de la génération du code SQL :

def as_sql(self, compiler, connection, template=None):
    sql_expressions, sql_params = [], []
    for expression in self.expressions:
        sql, params = compiler.compile(expression)
        sql_expressions.append(sql)
        sql_params.extend(params)
    template = template or self.template
    data = {'expressions': ','.join(sql_expressions)}
    return template % data, params

def as_oracle(self, compiler, connection):
    """
    Example of vendor specific handling (Oracle in this case).
    Let's make the function name lowercase.
    """
    return self.as_sql(compiler, connection, template='coalesce( %(expressions)s )')

Les méthodes as_sql() savent gérer des paramètres nommés personnalisés, permettantaux méthodes as_nomfournisseur() de remplacer des données utilisées pour générer la chaîne SQL. Il est préférable d’utiliser des paramètres nommés pour as_sql() pour la personnalisation que de transformer self dans les méthodes as_nomfournisseur() car cela peut produire des erreurs lors du fonctionnement sur d’autres moteurs de base de données. Si votre classe s’appuie sur des attributs de classe pour définir des données, considérez la possibilité de permettre des surcharges dans votre méthode as_sql().

Nous générons le code SQL pour chacune des expressions en utilisant la méthode compiler.compile() et en combinant les résultats avec des virgules. Puis le gabarit est complété avec nos données et le code SQL est renvoyé avec ses paramètres.

Nous avons également défini une implémentation personnalisée spécifique au moteur Oracle. La fonction as_oracle() sera appelée à la place de as_sql() quand le moteur Oracle est en fonction.

Finalement, nous implémentons les autres méthodes qui permettent à notre expression de requête de collaborer harmonieusement avec d’autres expressions de requête :

def get_source_expressions(self):
    return self.expressions

def set_source_expressions(self, expressions):
    self.expressions = expressions

Voyons comment cela fonctionne :

>>> from django.db.models import F, Value, CharField
>>> qs = Company.objects.annotate(
...    tagline=Coalesce([
...        F('motto'),
...        F('ticker_name'),
...        F('description'),
...        Value('No Tagline')
...        ], output_field=CharField()))
>>> for c in qs:
...     print("%s: %s" % (c.name, c.tagline))
...
Google: Do No Evil
Apple: AAPL
Yahoo: Internet Company
Django Software Foundation: No Tagline

Avoiding SQL injection

Since a Func’s keyword arguments for __init__() (**extra) and as_sql() (**extra_context) are interpolated into the SQL string rather than passed as query parameters (where the database driver would escape them), they must not contain untrusted user input.

For example, if substring is user-provided, this function is vulnerable to SQL injection:

from django.db.models import Func

class Position(Func):
    function = 'POSITION'
    template = "%(function)s('%(substring)s' in %(expressions)s)"

    def __init__(self, expression, substring):
        # substring=substring is a SQL injection vulnerability!
        super().__init__(expression, substring=substring)

This function generates a SQL string without any parameters. Since substring is passed to super().__init__() as a keyword argument, it’s interpolated into the SQL string before the query is sent to the database.

Here’s a corrected rewrite:

class Position(Func):
    function = 'POSITION'
    arg_joiner = ' IN '

    def __init__(self, expression, substring):
        super().__init__(substring, expression)

With substring instead passed as a positional argument, it’ll be passed as a parameter in the database query.

Ajout de la prise en charge de moteurs de base de données externes

Si vous utilisez un moteur de base de données qui utilise une syntaxe SQL différente pour certaines fonctions, vous pouvez ajouter sa prise en charge en greffant une nouvelle méthode dans la classe de la fonction.

Admettons que nous écrivons un moteur pour SQL Server de Microsoft qui utilise l’instruction SQL LEN au lieu de LENGTH pour la fonction Length. Nous allons greffer une nouvelle méthode appelée as_sqlserver() dans la classe Length:

from django.db.models.functions import Length

def sqlserver_length(self, compiler, connection):
    return self.as_sql(compiler, connection, function='LEN')

Length.as_sqlserver = sqlserver_length

Il est aussi possible de personnaliser le code SQL en utilisant le paramètre template de as_sql().

Nous utilisons as_sqlserver() parce que django.db.connection.vendor renvoie sqlserver comme moteur.

Les moteurs tiers peuvent inscrire leurs fonctions dans le fichier __init__.py de premier niveau du paquet de moteur ou dans un fichier (ou paquet) expressions.py de premier niveauqui est lui-même importé depuis __init__.py.

Pour les projets d’utilisateurs qui souhaitent adapter le moteur qu’ils utilisent, ce code devrait se trouver dans une méthode AppConfig.ready().

Back to Top