Expressions de requête¶
Les expressions de requête décrivent une valeur ou un calcul pouvant faire partie d’une mise à jour, d’une création, d’un filtre, d’un tri, d’une annotation ou d’une agrégation. Il existe un certain nombre d’expressions intégrées (documentées ci-dessous) pouvant aider à construire des requêtes. Les expressions peuvent être combinées, ou même imbriquées dans certains cas, afin de former des calculs plus complexes.
Arithmétique prise en charge¶
Django prend en charge l’addition, la soustraction, la multiplication, la division, l’arithmétique modulo ainsi que l’opérateur de puissance pour les expressions de requête, à l’aide de constantes Python, de variables et même d’autres expressions.
Quelques exemples¶
from django.db.models import Count, F, Value
from django.db.models.functions import Length, Upper
# Find companies that have more employees than chairs.
Company.objects.filter(num_employees__gt=F('num_chairs'))
# Find companies that have at least twice as many employees
# as chairs. Both the querysets below are equivalent.
Company.objects.filter(num_employees__gt=F('num_chairs') * 2)
Company.objects.filter(
num_employees__gt=F('num_chairs') + F('num_chairs'))
# How many chairs are needed for each company to seat all employees?
>>> company = Company.objects.filter(
... num_employees__gt=F('num_chairs')).annotate(
... chairs_needed=F('num_employees') - F('num_chairs')).first()
>>> company.num_employees
120
>>> company.num_chairs
50
>>> company.chairs_needed
70
# Create a new company using expressions.
>>> company = Company.objects.create(name='Google', ticker=Upper(Value('goog')))
# Be sure to refresh it if you need to access the field.
>>> company.refresh_from_db()
>>> company.ticker
'GOOG'
# Annotate models with an aggregated value. Both forms
# below are equivalent.
Company.objects.annotate(num_products=Count('products'))
Company.objects.annotate(num_products=Count(F('products')))
# Aggregates can contain complex computations also
Company.objects.annotate(num_offerings=Count(F('products') + F('services')))
# Expressions can also be used in order_by()
Company.objects.order_by(Length('name').asc())
Company.objects.order_by(Length('name').desc())
Expressions intégrées¶
Note
Ces expressions sont définies dans django.db.models.expressions
et django.db.models.aggregates
, mais par commodité elles sont disponibles et habituellement importées à partir de django.db.models
.
Expressions F()
¶
Un objet F()
représente la valeur d’un champ de modèle ou d’une colonne annotée. Il permet de se référer à des valeurs de champs de modèles et d’effectuer avec elles des opérations en base de données sans avoir à les récupérer préalablement de la base de données vers la mémoire Python.
Au lieu de cela, Django utilise un objet F()
pour générer une expression SQL qui décrit l’opération requise au niveau de la base de données.
Il est plus simple de faire comprendre cela par un exemple. Normalement, on peut faire quelque chose comme ceci :
# Tintin filed a news story!
reporter = Reporters.objects.get(name='Tintin')
reporter.stories_filed += 1
reporter.save()
Ici, nous avons obtenu en mémoire la valeur de reporter.stories_filed
à partir de la base de données et nous l’avons manipulée avec des opérateurs Python familiers. Nous avons ensuite enregistré l’objet modifié en base de données. Cependant, nous aurions tout aussi bien pu écrire :
from django.db.models import F
reporter = Reporters.objects.get(name='Tintin')
reporter.stories_filed = F('stories_filed') + 1
reporter.save()
Même si reporter.stories_filed = F('stories_filed') + 1
apparaît comme une attribution normale de valeur à un attribut d’instance en Python, il s’agit en réalité d’une construction SQL décrivant une opération en base de données.
Lorsque Django rencontre une instance de F()
, il surcharge les opérateurs Python standards pour créer une expression SQL encapsulée ; dans ce cas, une instruction qui demande à la base de données d’incrémenter le champ de base de données représenté par reporter.stories_filed
.
Quelle que soit la valeur que contenait reporter.stories_filed
, Python n’a jamais besoin de la connaître, car tout se passe en base de données. Tout ce que Python fait à travers la classe F()
de Django est de créer la syntaxe SQL pour se référer au champ et décrire l’opération.
Pour accéder à la nouvelle valeur qui a été enregistrée de cette manière, l’objet doit être rechargé :
reporter = Reporters.objects.get(pk=reporter.pk)
# Or, more succinctly:
reporter.refresh_from_db()
En plus d’être utilisée dans les opérations sur des instances uniques comme ci-dessus, F()
peut être utilisée sur des jeux QuerySets
d’instances d’objets, avec update()
. Cela permet de réduire les deux requêtes utilisées ci-dessus, get()
et save()
, à une seule :
reporter = Reporters.objects.filter(name='Tintin')
reporter.update(stories_filed=F('stories_filed') + 1)
Nous pouvons aussi utiliser update()
pour incrémenter la valeur du champ sur plusieurs objets, ce qui peut être beaucoup plus rapide que de récupérer toutes les valeurs en Python depuis la base de données, de les passer en boucle en incrémentant la valeur des champs pour chacun, et de les réenregistrer individuellement dans la base de données :
Reporter.objects.all().update(stories_filed=F('stories_filed') + 1)
F()
peut donc offrir des avantages de performance en :
- faisant travailler la base de données plutôt que le code Python ;
- réduisant le nombre de requêtes de certaines opérations.
Prévention des conflits de concurrence avec F()
¶
Un autre bénéfice notable de F()
est que de faire mettre à jour la valeur d’un champ par la base de données plutôt qu’en Python évite un conflit de concurrence.
Si deux fils d’exécution Python exécutent le code du premier exemple ci-dessus, un des fils pourrait obtenir, incrémenter et enregistrer une valeur de champ après que l’autre fil l’ait obtenu de la base de données. La valeur enregistrée par le second fil d’exécution sera basé sur la valeur d’origine ; le travail du premier fil d’exécution sera tout simplement perdu.
Si c’est la base de données qui est responsable de la mise à jour du champ, le processus est plus robuste : la valeur du champ sera toujours mise à jour en fonction de sa valeur en base de données au moment même de l’appel à save()
ou update()
, et non pas en fonction de la valeur obtenue au moment de la création de l’instance de modèle.
Les attributions par F()
persistent après Model.save()
¶
Les objets F()
attribués aux champs de modèles persistent après l’enregistrement de l’instance de modèle et seront appliqués pour chaque save()
. Par exemple :
reporter = Reporters.objects.get(name='Tintin')
reporter.stories_filed = F('stories_filed') + 1
reporter.save()
reporter.name = 'Tintin Jr.'
reporter.save()
stories_filed
sera mis à jour deux fois dans ce cas. SI la valeur initiale est 1
, la valeur finale sera 3
.
Utilisation de F()
dans les filtres¶
F()
est aussi très utile dans les filtres QuerySet
, là où il est possible de filtrer un jeu d’objets en fonction de critères basés sur les valeurs des champs, plutôt que sur des valeurs Python.
Cette utilisation est documentée dans Expressions F() dans les requêtes.
Utilisation de F()
avec les annotations¶
F()
peut être utilisée pour créer des champs dynamiques pour les modèles en combinant plusieurs champs de manière arithmétique :
company = Company.objects.annotate(
chairs_needed=F('num_employees') - F('num_chairs'))
Si les champs que vous combinez sont de types différents, il est nécessaire d’indiquer à Django le type de champ qui en résultera. Comme F()
ne prend pas directement en charge output_field
, il faut envelopper l’expression dans ExpressionWrapper
:
from django.db.models import DateTimeField, ExpressionWrapper, F
Ticket.objects.annotate(
expires=ExpressionWrapper(
F('active_at') + F('duration'), output_field=DateTimeField()))
Lorsqu’elle fait référence à des champs relationnels tels qu’une clé ForeignKey
, F()
renvoie la valeur de clé primaire plutôt qu’une instance de modèle :
>> car = Company.objects.annotate(built_by=F('manufacturer'))[0]
>> car.manufacturer
<Manufacturer: Toyota>
>> car.built_by
3
Using F()
to sort null values¶
Use F()
and the nulls_first
or nulls_last
keyword argument to
Expression.asc()
or desc()
to control the ordering of
a field’s null values. By default, the ordering depends on your database.
For example, to sort companies that haven’t been contacted (last_contacted
is null) after companies that have been contacted:
from django.db.models import F
Company.object.order_by(F('last_contacted').desc(nulls_last=True))
Expressions Func()
¶
Les expressions Func()
sont le type de base de toutes les expressions qui impliquent des fonctions de base de données telles que COALESCE
et LOWER
, ou des agrégations comme SUM
. Elles peuvent être utilisées directement :
from django.db.models import F, Func
queryset.annotate(field_lower=Func(F('field'), function='LOWER'))
ou elles peuvent être utilisées pour bâtir une bibliothèque de fonctions de base de données :
class Lower(Func):
function = 'LOWER'
queryset.annotate(field_lower=Lower('field'))
Mais dans les deux cas, chaque modèle du jeu de requête résultant sera annoté avec un attribut supplémentaire field_lower
dont le contenu correspondra plus ou moins au code SQL suivant :
SELECT
...
LOWER("db_table"."field") as "field_lower"
Voir Fonctions de base de données pour une liste de fonctions de base de données intégrées.
L’API Func
se présente comme suit :
-
class
Func
(*expressions, **extra)[source]¶ -
function
¶ Un attribut de classe décrivant la fonction qui sera générée. Plus précisément,
function
sera inséré par le substituantfunction
à l’intérieur detemplate
. Sa valeur par défaut estNone
.
-
template
¶ Un attribut de classe, sous forme de chaîne de format, qui décrit le code SQL généré pour cette fonction. Sa valeur par défaut est
'%(function)s(%(expressions)s)'
.SI vous construisez du code SQL tel que
strftime('%W', 'date')
et que vous avez besoin d’un caractère littéral%
dans la requête, vous devez le quadrupler (%%%%
) dans l’attributtemplate
car la chaîne est interpolée deux fois : une fois pendant l’interpolation du gabarit dansas_sql()
, et une autre fois dans l’interpolation SQL avec les paramètres de requête dans le curseur de base de données.
-
arg_joiner
¶ Un attribut de classe qui précise la séquence de caractères utilisée pour joindre les éléments de la liste d”
expressions
. Sa valeur par défaut est', '
.
-
arity
¶ Un attribut de classe qui indique le nombre de paramètres acceptés par la fonction. Si cet attribut est défini et que la fonction est appelée avec un nombre d’expressions différent, une exception
TypeError
sera générée. La valeur par défaut estNone
.
-
as_sql
(compiler, connection, function=None, template=None, arg_joiner=None, **extra_context)[source]¶ Produit le code SQL pour la fonction de base de données.
Les méthodes
as_vendor()
devraient utiliser les paramètresfunction
,template
,arg_joiner
et tout autre paramètre**extra_context
pour adapter le code SQL en cas de besoin. Par exemple :django/db/models/functions.pyclass ConcatPair(Func): ... function = 'CONCAT' ... def as_mysql(self, compiler, connection): return super().as_sql( compiler, connection, function='CONCAT_WS', template="%(function)s('', %(expressions)s)", )
Pour éviter une vulnérabilité d’injection SQL,
extra_context
ne doit pas contenir de contenu non sûr provenant des utilisateurs car ces valeurs sont insérées dans la chaîne SQL et non passées comme paramètres de requête, auquel cas le pilote de base de données les aurait échappés.
-
Le paramètre *expressions
est une liste d’expressions positionnelles auxquelles la fonction s’applique. Les expressions sont converties en chaînes, jointes par arg_joiner
, puis insérées dans template
par le substituant expressions
.
Les paramètres positionnels peuvent être des expressions ou des valeurs Python. Les chaînes sont censées être des références de colonnes et seront enveloppées dans des expressions F()
alors que les autres valeurs sont enveloppées dans des expressions Value()
.
Les paramètres nommés **extra
sont des paires clé=valeur
qui peuvent être insérées dans l’attribut template
. Pour éviter une vulnérabilité d’injection SQL, extra
ne doit pas contenir de contenu non sûr provenant des utilisateurs car ces valeurs sont insérées dans la chaîne SQL et non passées comme paramètres de requête, auquel cas le pilote de base de données les aurait échappés.
Les mots-clés function
, template
et arg_joiner
peuvent être utilisés pour remplacer les attributs de même nom sans avoir besoin de définir une classe spécifique. output_field
peut être utilisé pour définir le type de la valeur renvoyée.
Expressions Aggregate()
¶
Une expression d’agrégation est un cas particulier d’une expression Func() qui informe la requête qu’une clause GROUP BY
est nécessaire. Toutes les fonctions d’agrégation comme Sum()
et Count()
héritent de Aggregate()
.
Comme les Aggregate
sont des des expressions et enveloppent des expressions, il est possible de représenter des calculs complexes :
from django.db.models import Count
Company.objects.annotate(
managers_required=(Count('num_employees') / 4) + Count('num_managers'))
L’API Aggregate
se présente comme suit :
-
class
Aggregate
(expression, output_field=None, filter=None, **extra)[source]¶ -
template
¶ Un attribut de classe, sous forme de chaîne de format, qui décrit le code SQL généré pour cette agrégation. Sa valeur par défaut est
'%(function)s(%(expressions)s)'
.
-
Le paramètre expression
peut être le nom d’un champ de modèle ou une autre expression. Il sera converti en texte et utilisé comme substituant expressions
à l’intérieur de template
.
Le paramètre output_field
doit être une instance de champ de modèle, comme IntegerField()
ou BooleanField()
, dans laquelle Django chargera la valeur après qu’elle aura été reçue de la base de données. Aucun paramètre n’est habituellement nécessaire lors de la création de l’instance du champ de modèle car aucun paramètre lié à la validation de données (max_length
, max_digits
, etc.) ne sera appliqué à la valeur résultante de l’expression.
Notez que output_field
n’est obligatoire que lorsque Django est incapable de déterminer le type de champ du résultat. Les expressions complexes qui mélangent des types de champs doivent définir avec output_field
le type de résultat attendu. Par exemple, l’addition d’un IntegerField()
et d’un FloatField()
va probablement demander la définition de output_field=FloatField()
.
Le paramètre filter
accepte un objet Q
utilisé pour filtrer les lignes agrégées. Voir Agrégation conditionnelle et Filtrage sur les annotations pour des exemples d’utilisation.
Les paramètres nommés **extra
sont des paires clé=valeur
qui peuvent être insérées par interpolation dans l’attribut template
.
Le paramètre filter
a été ajouté.
Création de ses propres fonctions d’agrégation¶
La création de ses propres agrégations est très facile. Il faut définir au minimum function
, mais vous pouvez aussi personnaliser complètement le code SQL produit. Voici un court exemple :
from django.db.models import Aggregate
class Count(Aggregate):
# supports COUNT(distinct field)
function = 'COUNT'
template = '%(function)s(%(distinct)s%(expressions)s)'
def __init__(self, expression, distinct=False, **extra):
super().__init__(
expression,
distinct='DISTINCT ' if distinct else '',
output_field=IntegerField(),
**extra
)
Expressions Value()
¶
Un objet Value()
représente le composant le plus petit possible d’une expression : une simple valeur. Lorsque vous avez besoin de représenter la valeur d’un nombre entier, d’un booléen ou d’une chaîne à l’intérieur d’une expression, vous pouvez insérer cette valeur dans un objet Value()
.
Il est rarement nécessaire de faire appel directement à Value()
. Lorsque vous écrivez l’expression F('champ') + 1
, Django insère implicitement le 1
dans un objet Value()
, ce qui permet d’utiliser des valeurs simples dans des expressions plus complexes. Value()
devra être utilisé lors du passage d’une chaîne à une expression. La plupart des expressions interprètent un paramètre textuel comme le nom d’un champ, comme par exemple Lower('name')
.
Le paramètre value
décrit la valeur à inclure dans l’expression, comme 1
, True
ou None
. Django sait comment convertir ces valeurs Python dans le bon type de la base de données correspondante.
Le paramètre output_field
doit être une instance de champ de modèle, comme IntegerField()
ou BooleanField()
, dans laquelle Django chargera la valeur après qu’elle aura été reçue de la base de données. Aucun paramètre n’est habituellement nécessaire lors de la création de l’instance du champ de modèle car aucun paramètre lié à la validation de données (max_length
, max_digits
, etc.) ne sera appliqué à la valeur résultante de l’expression.
Expressions ExpressionWrapper()
¶
ExpressionWrapper
ne fait qu’entourer une autre expression et permet d’accéder aux propriétés, telles que output_field
, qui pourraient ne pas être disponibles dans d’autres expressions. ExpressionWrapper
est nécessaire lorsqu’on utilise de l’arithmétique avec les expressions F()
avec différents types, comme décrit dans Utilisation de F() avec les annotations.
Expressions conditionnelles¶
Les expressions conditionnelles permettent d’utiliser de la logique if
… elif
… else
dans les requêtes. Django prend nativement en charge les expressions SQL CASE
. Pour plus de détails, consultez Expressions conditionnelles.
Expressions Subquery()
¶
Il est possible d’ajouter des sous-requêtes explicites à un objet QuerySet
en utilisant l’expression Subquery
.
Par exemple, pour annoter chaque post
avec l’adresse de courriel de l’auteur du commentaire le plus récent de ce post
:
>>> from django.db.models import OuterRef, Subquery
>>> newest = Comment.objects.filter(post=OuterRef('pk')).order_by('-created_at')
>>> Post.objects.annotate(newest_commenter_email=Subquery(newest.values('email')[:1]))
Avec PostgreSQL, le code SQL ressemble à ceci :
SELECT "post"."id", (
SELECT U0."email"
FROM "comment" U0
WHERE U0."post_id" = ("post"."id")
ORDER BY U0."created_at" DESC LIMIT 1
) AS "newest_commenter_email" FROM "post"
Note
Les exemples de cette section sont conçus pour montrer comment forcer Django à exécuter une sous-requête. Dans certains cas, il serait possible d’écrire une requête équivalente qui effectue la même tâche plus clairement ou plus efficacement.
Référencement des colonnes de la requête parente¶
Utilisez OuterRef
lorsqu’un jeu de requête dans une Subquery
a besoin de se référer à un champ de la requête parente. Il se comporte comme une expression F
sauf que le contrôle vérifiant s’il se réfère à un champ valable n’est pas effectué avant que la requête parente ne soit résolue.
Des instances de OuterRef
peuvent être utilisées en lien avec des instances imbriquées de Subquery
pour se référer à un jeu de requête supérieur qui n’est pas le parent immédiat. Par exemple, ce jeu de requête devrait se trouver dans une paire imbriquée d’instances Subquery
pour être résolu correctement :
>>> Book.objects.filter(author=OuterRef(OuterRef('pk')))
Limite d’une sous-requête à une seule colonne¶
Dans certaines circonstances, une seule colonne doit être renvoyée d’une sous-requête Subquery
, par exemple quand on veut utiliser la sous-requête comme cible d’une recherche __in
. Pour renvoyer tous les commentaires de posts
publiés durant les dernières 24 heures :
>>> from datetime import timedelta
>>> from django.utils import timezone
>>> one_day_ago = timezone.now() - timedelta(days=1)
>>> posts = Post.objects.filter(published_at__gte=one_day_ago)
>>> Comment.objects.filter(post__in=Subquery(posts.values('pk')))
Dans ce cas, la sous-requête doit utiliser values()
pour ne renvoyer qu’une seule colonne : la clé primaire du post
.
Limite de la sous-requête à une seule ligne¶
Pour empêcher une sous-requête de renvoyer plusieurs lignes, une segmentation ([:1]
) du résultat de requête est appliquée :
>>> subquery = Subquery(newest.values('email')[:1])
>>> Post.objects.annotate(newest_commenter_email=subquery)
Dans ce cas, la sous-requête ne doit renvoyer qu’une seule colonne et une seule ligne : l’adresse électronique du commentaire créé le plus récent.
(L’utilisation de get()
à la place d’une segmentation ne fonctionnerait pas car OuterRef
ne peut pas être résolu tant que le résultat de requête n’est pas utilisé dans une sous-requête Subquery
.)
Sous-requêtes Exists()
¶
Exists
est une sous-classe de Subquery
utilisant une instruction SQL EXISTS
. Dans bien des cas, la performance sera meilleure qu’une sous-requête car la base de données est capable de stopper l’évaluation de la sous-requête dès qu’une première ligne correspondante est trouvée.
Par exemple, pour annoter chaque post
avec une indication de la présence ou non d’un commentaire durant la journée écoulée :
>>> from django.db.models import Exists, OuterRef
>>> from datetime import timedelta
>>> from django.utils import timezone
>>> one_day_ago = timezone.now() - timedelta(days=1)
>>> recent_comments = Comment.objects.filter(
... post=OuterRef('pk'),
... created_at__gte=one_day_ago,
... )
>>> Post.objects.annotate(recent_comment=Exists(recent_comments))
Avec PostgreSQL, le code SQL ressemble à ceci :
SELECT "post"."id", "post"."published_at", EXISTS(
SELECT U0."id", U0."post_id", U0."email", U0."created_at"
FROM "comment" U0
WHERE (
U0."created_at" >= YYYY-MM-DD HH:MM:SS AND
U0."post_id" = ("post"."id")
)
) AS "recent_comment" FROM "post"
Il n’est pas nécessaire de forcer Exists
à se référer à une seule colonne, car les colonnes sont ignorées et un résultat booléen est renvoyé. De même, comme le tri ne joue pas de rôle dans une sous-requête SQL EXISTS
et ne ferait que baisser la performance, il est automatiquement enlevé.
Il est possible d’effectuer un NOT EXISTS
avec ~Exists()
.
Filtrage sur une expression Subquery
¶
Il n’est pas possible de filtrer directement en utilisant Subquery
et Exists
, par ex. :
>>> Post.objects.filter(Exists(recent_comments))
...
TypeError: 'Exists' object is not iterable
Pour filtrer une expression de sous-requête, vous devez commencer par annoter le jeu de requête, puis filtrer sur la base de cette annotation :
>>> Post.objects.annotate(
... recent_comment=Exists(recent_comments),
... ).filter(recent_comment=True)
Utilisation d’agrégation dans une expression Subquery
¶
Il est possible d’utiliser des agrégats dans une sous-requête, mais cela nécessite une combinaison spécifique de filter()
, values()
et annotate()
afin d’obtenir un groupement correct dans la sous-requête.
En supposant que les deux modèles ont un champ length
, voici comment trouver les posts
dont la longueur est plus grande que la longueur totale de tous les commentaires ensemble :
>>> from django.db.models import OuterRef, Subquery, Sum
>>> comments = Comment.objects.filter(post=OuterRef('pk')).order_by().values('post')
>>> total_comments = comments.annotate(total=Sum('length')).values('total')
>>> Post.objects.filter(length__gt=Subquery(total_comments))
Le premier filter(...)
limite la sous-requête aux paramètres qui nous intéressent. order_by()
enlève le tri ordering
par défaut (le cas échéant) du modèle Comment
, values('post')
agrège les commentaires par Post
. Pour terminer, annotate(...)
effectue l’agrégation. L’ordre dans lequel sont appliqués ces méthodes de requête est important. Dans ce cas, comme la sous-requête doit être limitée à une seule colonne, values('total')
est obligatoire.
Il s’agit de la seule manière d’effectuer une agrégation à l’intérieur d’une sous-requête, car aggregate()
procède à l’évaluation du jeu de requête (et lorsqu’il existe une OuterRef
, celle-ci ne pourrait pas être résolue).
Expressions SQL brutes¶
Parfois, les expressions de base de données ne peuvent pas facilement exprimer une clause WHERE
complexe. Dans ces cas limites, utilisez l’expression RawSQL
. Par exemple :
>>> from django.db.models.expressions import RawSQL
>>> queryset.annotate(val=RawSQL("select col from sometable where othercol = %s", (someparam,)))
Ces expressions brutes ne sont pas toujours portables entre moteurs de base de données (parce que vous écrivez du code SQL explicitement) et elles violent le principe DRY (ne pas se répéter), il s’agit donc de les éviter autant que possible.
Avertissement
Pour se protéger des `attaques par injection SQL<https://fr.wikipedia.org/wiki/Injection_SQL>`_, vous devez échapper tout paramètre pouvant être contrôlé par les utilisateurs en employant params
. params
est un paramètre obligatoire pour vous forcer à confirmer que vous n’effectuez pas d’interpolation de code SQL avec des données provenant des utilisateurs.
Vous devez aussi éviter de placer les substituants entre guillemets dans la chaîne SQL. Cet exemple est vulnérable à l’injection SQL en raison des guillemets autour de %s
:
RawSQL("select col from sometable where othercol = '%s'") # unsafe!
Vous pouvez en apprendre davantage sur le fonctionnement de la protection contre les injections SQL de Django.
Fonctions de fenêtrage¶
Les fonctions de fenêtrage fournissent une méthode pour appliquer des fonctions aux partitions. Au contraire d’une fonction d’agrégat normale qui calcule le résultat final pour chaque ensemble défini par la clause de groupement, les fonctions de fenêtrage opèrent sur des intervalles (frames) et des partitions, et calculent le résultat pour chaque ligne.
Vous pouvez définir plusieurs fenêtres dans la même requête, ce qui dans le contexte de l’ORM Django serait équivalent à inclure plusieurs expressions dans un appel à QuerySet.annotate(). L’ORM n’emploie pas les fenêtres nommées, elles font en fait partie des colonnes sélectionnées.
-
class
Window
(expression, partition_by=None, order_by=None, frame=None, output_field=None)[source]¶ -
filterable
¶ Vaut
False
par défaut. Le standard SQL interdit le référencement de fonctions de fenêtrage dans la clauseWHERE
et Django génère une exception lors de la construction d’unQuerySet
qui tenterait de faire cela.
-
template
¶ Vaut par défaut
%(expression)s OVER %(window)s
. Si seul le paramètreexpression
est donné, la clause de fenêtrage sera vide.
-
La classe Window
est l’expression principale d’une clause OVER
.
Le paramètre expression
est soit une fonction de fenêtrage, une fonction d’agrégat ou une expression compatible avec une clause de fenêtrage.
Le paramètre partition_by
est une liste d’expressions (les noms de colonnes doivent être enveloppés dans des objets F
) qui contrôlent le partitionnement des lignes. Le partitionnement limite les lignes utilisées pour calculer le jeu de résultats.
Le champ output_field
est défini soit comme paramètre, soit par l’expression.
Le paramètre order_by
accepte une suite d’expressions sur lesquelles vous pouvez appeler asc()
et desc()
. Ce tri contrôle l’odre dans lequel l’expression est appliquée. Par exemple, si vous faites la somme des lignes dans une partition, le premier résultat est simplement la valeur de la première ligne, le deuxième est la somme des première et deuxième lignes.
Le paramètre frame
indique quelles autres lignes devraient être utilisées dans le calcul. Voir Portées (frames) pour plus de détails.
Par exemple, pour annoter chaque film avec la note moyenne des films du même studio dans le même genre et la même année
>>> from django.db.models import Avg, F, Window
>>> from django.db.models.functions import ExtractYear
>>> Movie.objects.annotate(
>>> avg_rating=Window(
>>> expression=Avg('rating'),
>>> partition_by=[F('studio'), F('genre')],
>>> order_by=ExtractYear('released').asc(),
>>> ),
>>> )
Cela rend simplement possible la comparaison de la note d’un film par rapport à ses semblables.
Il peut être intéressant d’appliquer plusieurs expressions sur la même fenêtre, c-à-d sur les mêmes partition et intervalle. Par exemple, l’exemple précédent pourrait être modifié pour inclure également la meilleure et la pire note dans chaque groupe de films (mêmes studio, genre et date de sortie) en utilisant trois fonctions de fenêtrage dans la même requête. La partition et le tri de l’exemple précédent sont extraits dans un dictionnaire pour réduire la répétition
>>> from django.db.models import Avg, F, Max, Min, Window
>>> from django.db.models.functions import ExtractYear
>>> window = {
>>> 'partition_by': [F('studio'), F('genre')],
>>> 'order_by': ExtractYear('released').asc(),
>>> }
>>> Movie.objects.annotate(
>>> avg_rating=Window(
>>> expression=Avg('rating'), **window,
>>> ),
>>> best=Window(
>>> expression=Max('rating'), **window,
>>> ),
>>> worst=Window(
>>> expression=Min('rating'), **window,
>>> ),
>>> )
Parmi les moteurs de base de données inclus dans Django, MySQL 8.0.2+, PostgreSQL et Oracle prennent en charge les expressions de fenêtrage. La prise en charge des diverses fonctionnalités des expressions de fenêtrage varie en fonction des bases de données. Par exemple, les options dans asc()
et desc()
ne sont pas toujours prises en charge. Consultez la documentation de votre base de données si nécessaire.
Portées (frames)¶
Pour une portée de fenêtre, vous pouvez choisir soit une suite de lignes basée sur des intervalles, soit une suite de lignes normale.
-
class
ValueRange
(start=None, end=None)[source]¶ -
frame_type
¶ Cet attribut est défini à
'RANGE'
.
PostgreSQL ne prend en charge
ValueRange
que de manière limitée et ne gère que les points de début et de fin standard, tels queCURRENT ROW
etUNBOUNDED FOLLOWING
.-
Les deux classes renvoient du SQL selon le gabarit
%(frame_type)s BETWEEN %(start)s AND %(end)s
Les portées réduisent le nombre de lignes utilisées pour calculer le résultat. Elles ciblent un point de départ donné jusqu’à un point d’arrivée. Les portées peuvent être utilisées avec ou sans partition, mais il est généralement utile d’indiquer un tri de la fenêtre pour s’assurer d’un résultat déterministe. Dans une portée, un pair est une ligne de valeur équivalente, ou toutes les lignes si aucune clause de tri n’est présente.
Le point de départ par défaut d’une portée est UNBOUNDED PRECEDING
qui correspond à la première ligne de la partition. Le point d’arrivée est toujours explicitement inclus dans le code SQL généré par l’ORM et vaut par défaut UNBOUNDED FOLLOWING
. La portée par défaut contient toutes les lignes de la partition jusqu’à la dernière ligne du jeu de données.
Les valeurs acceptées des paramètres start
et end
sont None
, un nombre entier ou zéro. Un nombre négatif pour start
produit N preceding
, alors que None
produit UNBOUNDED PRECEDING
. Pour start
comme pour end
, zéro renvoie CURRENT ROW
. Des nombres entiers positifs sont acceptés pour end
.
Il y a une différence dans ce que CURRENT ROW
contient. Lorsqu’il est défini en mode ROWS
, l’intervalle commence et se termine avec la ligne en cours. Lorsqu’il est défini en mode RANGE
, l’intervalle commence et se termine à la première ou à la dernière ligne du groupe en fonction de la clause de tri. Ainsi, RANGE CURRENT ROW
évalue l’expression pour les lignes qui ont la même valeur définie par le tri. Comme le gabarit contient à la fois les points start
et end
, cela peut être exprimé par
ValueRange(start=0, end=0)
Si les « semblables » d’un film sont définis comme les films publiés par le même studio dans le même genre et la même année, cet exemple RowRange
annote chaque film avec la note moyenne des deux films précédents et des deux films suivants le film concerné
>>> from django.db.models import Avg, F, RowRange, Window
>>> from django.db.models.functions import ExtractYear
>>> Movie.objects.annotate(
>>> avg_rating=Window(
>>> expression=Avg('rating'),
>>> partition_by=[F('studio'), F('genre')],
>>> order_by=ExtractYear('released').asc(),
>>> frame=RowRange(start=-2, end=2),
>>> ),
>>> )
Si la base de données le gère, vous pouvez définir les points de départ et de fin sur la base des valeurs d’une expression dans la partition. Si le champ released
du model Movie
stocke le mois de publication de chaque film, cet exemple ValueRange
annote chaque film avec la note moyenne des films semblables publiés entre douze mois avant et douze mois après chaque film.
>>> from django.db.models import Avg, ExpressionList, F, ValueRange, Window
>>> Movie.objects.annotate(
>>> avg_rating=Window(
>>> expression=Avg('rating'),
>>> partition_by=[F('studio'), F('genre')],
>>> order_by=F('released').asc(),
>>> frame=ValueRange(start=-12, end=12),
>>> ),
>>> )
Informations techniques¶
Vous trouverez ci-après des détails d’implémentation technique pouvant être utiles aux auteurs de bibliothèques. L’API technique et les exemples qui suivent aident à créer des expressions de requête génériques pouvant étendre les fonctionnalités intégrées que Django propose.
API d’expression¶
Les expressions de requête implémentent l”API d’expressions de requête, mais exposent également un certain nombre de méthodes et d’attributs supplémentaires énumérés ci-dessous. Toutes les expressions de requête doivent hériter de Expression()
ou d’une sous-classe appropriée.
Lorsqu’une expression de requête englobe une autre expression, elle est responsable d’appeler les méthodes appropriées de l’expression englobée.
-
class
Expression
[source]¶ -
contains_aggregate
¶ Indique à Django que cette expression contient une agrégation et qu’une clause
GROUP BY
doit être ajoutée à la requête.
-
contains_over_clause
¶ - New in Django 2.0.
Tells Django that this expression contains a
Window
expression. It’s used, for example, to disallow window function expressions in queries that modify data.
-
filterable
¶ - New in Django 2.0.
Indique à Django que cette expression peut être référencée dans
QuerySet.filter()
. VautTrue
par défaut.
-
window_compatible
¶ - New in Django 2.0.
Indique à Django que cette expression peut être utilisée comme expression source dans
Window
. VautFalse
par défaut.
-
resolve_expression
(query=None, allow_joins=True, reuse=None, summarize=False, for_save=False)¶ Offre l’opportunité d’effectuer un éventuel pré-traitement ou validation de l’expression avant que celle-ci ne soit ajoutée à la requête.
resolve_expression()
doit aussi être appelée pour toute expression imbriquée. Une copiecopy()
deself
devrait être renvoyée avec les éventuelles transformations nécessaires.query
est l’implémentation de la requête en fonction du moteur de base de données.allow_joins
est une valeur booléenne permettant ou interdisant l’utilisation de jointures dans la requête.reuse
est un ensemble de jointures réutilisables dans des scénarios de jointures multiples.summarize
est une valeur booléenne qui, quand elle vautTrue
, signale que la requête en cours de calcul est une requête d’agrégation terminale.
-
get_source_expressions
()¶ Renvoie une liste triée d’expressions internes. Par exemple :
>>> Sum(F('foo')).get_source_expressions() [F('foo')]
-
set_source_expressions
(expressions)¶ Accepte une liste d’expressions et les stocke afin que
get_source_expressions()
puisse les restituer.
-
relabeled_clone
(change_map)¶ Renvoie un clone (copie) de
self
, sachant que tout alias de colonne aura été renommé. Les alias de colonnes sont renommés lorsque des sous-requêtes sont créées.relabeled_clone()
doit également être appelée pour toute expression imbriquée et attribuée au clone.change_map
est un dictionnaire faisant correspondre les anciens alias aux nouveaux.Exemple :
def relabeled_clone(self, change_map): clone = copy.copy(self) clone.expression = self.expression.relabeled_clone(change_map) return clone
-
convert_value
(value, expression, connection)¶ Un point d’entrée permettant à l’expression de forcer
value
à un type plus approprié.
-
get_group_by_cols
()¶ Responsable du renvoi de la liste des colonnes référencées par cette expression.
get_group_by_cols()
doit être appelée sur toute expression imbriquée. Les objetsF()
en particulier détiennent une référence sur une colonne.
-
asc
(nulls_first=False, nulls_last=False)¶ Renvoie l’expression prête à être triée dans l’ordre croissant.
nulls_first
andnulls_last
define how null values are sorted. See Using F() to sort null values for example usage.Changed in Django 1.11:Les paramètres
nulls_last
etnulls_first
ont été ajoutés.
-
desc
(nulls_first=False, nulls_last=False)¶ Renvoie l’expression prête à être triée dans l’ordre décroissant.
nulls_first
andnulls_last
define how null values are sorted. See Using F() to sort null values for example usage.Changed in Django 1.11:Les paramètres
nulls_last
etnulls_first
ont été ajoutés.
-
reverse_ordering
()¶ Renvoie
self
avec toute modification nécessaire pour inverser l’ordre de tri à l’intérieur d’un appelorder_by
. Comme exemple, une expression implémentantNULLS LAST
changerait sa valeur pour devenirNULLS FIRST
. Les modifications sont uniquement requises pour les expressions qui implémentent l’ordre de tri telles queOrderBy
. Cette méthode est appelée lorsquereverse()
est appelée sur un jeu de requête (QuerySet
).
-
Écriture de ses propres expressions de requête¶
Vous pouvez écrire vos propres classes d’expression de requête qui utilisent et peuvent s’intégrer avec d’autres expressions de requête. Prenons un exemple en écrivant une implémentation de la fonction SQL COALESCE
, sans utiliser les expressions Func() intégrées.
La fonction SQL COALESCE
est définie comme acceptant une liste de colonnes ou de valeurs. Elle renvoie la première colonne ou valeur qui n’est pas NULL
.
Commençons par définir le gabarit à utiliser pour la génération du SQL ainsi qu’une méthode __init__()
pour définir quelques attributs :
import copy
from django.db.models import Expression
class Coalesce(Expression):
template = 'COALESCE( %(expressions)s )'
def __init__(self, expressions, output_field):
super().__init__(output_field=output_field)
if len(expressions) < 2:
raise ValueError('expressions must have at least 2 elements')
for expression in expressions:
if not hasattr(expression, 'resolve_expression'):
raise TypeError('%r is not an Expression' % expression)
self.expressions = expressions
Nous effectuons quelques validations de base sur les paramètres, y compris le minimum de 2 colonnes ou valeurs, et nous nous assurons qu’il s’agisse bien d’expressions. output_field
est ici obligatoire afin que Django sache à quel type de champ de modèle attribuer l’éventuel résultat.
Nous implémentons maintenant le prétraitement et la validation. Comme nous n’avons aucune validation propre à ce stade, nous ne faisons que la déléguer aux expressions imbriquées :
def resolve_expression(self, query=None, allow_joins=True, reuse=None, summarize=False, for_save=False):
c = self.copy()
c.is_summary = summarize
for pos, expression in enumerate(self.expressions):
c.expressions[pos] = expression.resolve_expression(query, allow_joins, reuse, summarize, for_save)
return c
Ensuite, nous écrivons la méthode responsable de la génération du code SQL :
def as_sql(self, compiler, connection, template=None):
sql_expressions, sql_params = [], []
for expression in self.expressions:
sql, params = compiler.compile(expression)
sql_expressions.append(sql)
sql_params.extend(params)
template = template or self.template
data = {'expressions': ','.join(sql_expressions)}
return template % data, params
def as_oracle(self, compiler, connection):
"""
Example of vendor specific handling (Oracle in this case).
Let's make the function name lowercase.
"""
return self.as_sql(compiler, connection, template='coalesce( %(expressions)s )')
Les méthodes as_sql()
savent gérer des paramètres nommés personnalisés, permettantaux méthodes as_nomfournisseur()
de remplacer des données utilisées pour générer la chaîne SQL. Il est préférable d’utiliser des paramètres nommés pour as_sql()
pour la personnalisation que de transformer self
dans les méthodes as_nomfournisseur()
car cela peut produire des erreurs lors du fonctionnement sur d’autres moteurs de base de données. Si votre classe s’appuie sur des attributs de classe pour définir des données, considérez la possibilité de permettre des surcharges dans votre méthode as_sql()
.
Nous générons le code SQL pour chacune des expressions
en utilisant la méthode compiler.compile()
et en combinant les résultats avec des virgules. Puis le gabarit est complété avec nos données et le code SQL est renvoyé avec ses paramètres.
Nous avons également défini une implémentation personnalisée spécifique au moteur Oracle. La fonction as_oracle()
sera appelée à la place de as_sql()
quand le moteur Oracle est en fonction.
Finalement, nous implémentons les autres méthodes qui permettent à notre expression de requête de collaborer harmonieusement avec d’autres expressions de requête :
def get_source_expressions(self):
return self.expressions
def set_source_expressions(self, expressions):
self.expressions = expressions
Voyons comment cela fonctionne :
>>> from django.db.models import F, Value, CharField
>>> qs = Company.objects.annotate(
... tagline=Coalesce([
... F('motto'),
... F('ticker_name'),
... F('description'),
... Value('No Tagline')
... ], output_field=CharField()))
>>> for c in qs:
... print("%s: %s" % (c.name, c.tagline))
...
Google: Do No Evil
Apple: AAPL
Yahoo: Internet Company
Django Software Foundation: No Tagline
Empêchement des injections SQL¶
Comme les paramètres nommés d’une fonction Func
pour __init__()
(**extra
) et as_sql()
(**extra_context
) sont interpolés pour former une chaîne SQL et non pas transmis comme paramètres de requête (où le pilote de base de données se serait chargé de les échapper), ils ne doivent pas contenir des données non sûres soumises par des utilisateurs.
Par exemple, si le contenu de substring
provient d’un utilisateur, cette fonction est vulnérable à l’injection SQL
from django.db.models import Func
class Position(Func):
function = 'POSITION'
template = "%(function)s('%(substring)s' in %(expressions)s)"
def __init__(self, expression, substring):
# substring=substring is a SQL injection vulnerability!
super().__init__(expression, substring=substring)
Cette fonction produit une chaîne SQL sans paramètre. Comme substring
est transmis à super().__init__()
comme paramètre nommé, il est interpolé dans la chaîne SQL avant que la requête soit envoyée à la base de données.
Voici une réécriture corrigée
class Position(Func):
function = 'POSITION'
arg_joiner = ' IN '
def __init__(self, expression, substring):
super().__init__(substring, expression)
Quand substring
est transmis sous forme de paramètre positionnel, il est ensuite transmis comme paramètre à la requête de base de données.
Ajout de la prise en charge de moteurs de base de données externes¶
Si vous utilisez un moteur de base de données qui utilise une syntaxe SQL différente pour certaines fonctions, vous pouvez ajouter sa prise en charge en greffant une nouvelle méthode dans la classe de la fonction.
Admettons que nous écrivons un moteur pour SQL Server de Microsoft qui utilise l’instruction SQL LEN
au lieu de LENGTH
pour la fonction Length
. Nous allons greffer une nouvelle méthode appelée as_sqlserver()
dans la classe Length
:
from django.db.models.functions import Length
def sqlserver_length(self, compiler, connection):
return self.as_sql(compiler, connection, function='LEN')
Length.as_sqlserver = sqlserver_length
Il est aussi possible de personnaliser le code SQL en utilisant le paramètre template
de as_sql()
.
Nous utilisons as_sqlserver()
parce que django.db.connection.vendor
renvoie sqlserver
comme moteur.
Les moteurs tiers peuvent inscrire leurs fonctions dans le fichier __init__.py
de premier niveau du paquet de moteur ou dans un fichier (ou paquet) expressions.py
de premier niveauqui est lui-même importé depuis __init__.py
.
Pour les projets d’utilisateurs qui souhaitent adapter le moteur qu’ils utilisent, ce code devrait se trouver dans une méthode AppConfig.ready()
.