Maison  >  Article  >  base de données  >  Intervieweur : Connaissez-vous l'optimisation SQL ? Je n'en connais que 20 sortes, mais il y en a bien plus...

Intervieweur : Connaissez-vous l'optimisation SQL ? Je n'en connais que 20 sortes, mais il y en a bien plus...

Java后端技术全栈
Java后端技术全栈avant
2023-08-17 16:36:221139parcourir


Lors de l'entretien, l'intervieweur aime demander :

Connaissez-vous l'optimisation SQL ?

N'ayez pas peur face à ce genre de problème, frère Tian a préparé pour vous les 52instructions SQLstratégies d'optimisation des performances suivantes. Si cela ne fonctionne pas, mémorisez simplement quelques éléments supplémentaires et ce ne sera toujours pas un problème de répondre à vos besoins immédiats.

"Stratégie d'optimisation"

1. Pour optimiser la requête, vous devez essayer d'éviter les analyses de table complètes. Vous devez d'abord envisager de créer des index sur les colonnes impliquées dans WHERE et ORDER BY.

2. Essayez d'éviter le jugement de valeur NULL sur les champs de la clause WHERE. NULL est la valeur par défaut lors de la création d'une table, mais la plupart du temps, vous devez utiliser NOT NULL ou utiliser une valeur spéciale, telle que 0, -1. comme valeur par défaut.

3. Essayez d'éviter d'utiliser les opérateurs != ou a8093152e673feb7aba1828c43532094 MySQL utilise des index uniquement pour les opérateurs suivants : 23735d90c0339e974c9b8bbfdf9ee4cb, >=, BETWEEN, IN et parfois LIKE.

4. Essayez d'éviter d'utiliser OR dans la clause WHERE pour connecter les conditions, sinon le moteur abandonnera l'utilisation de l'index et effectuera une analyse complète de la table. Vous pouvez utiliser UNION pour fusionner la requête :

select id from t where num=10 union all select id from t where num=20。

5. IN doit également être utilisé avec prudence, sinon cela entraînera une analyse complète de la table. Pour les valeurs continues, n'utilisez pas IN si vous pouvez utiliser BETWEEN :

select id from t where num between 1 and 3。

6. La requête suivante provoquera également une analyse complète de la table :

select id from t where name like‘%abc%’

ou

select id from t where name like‘%abc’

Pour améliorer l'efficacité, vous pouvez envisager une recherche en texte intégral. Et

select id from t where name like‘abc%’

才用到索引。

7、如果在 WHERE 子句中使用参数,也会导致全表扫描。

8、应尽量避免在 WHERE 子句中对字段进行表达式操作,应尽量避免在 WHERE 子句中对字段进行函数操作。

9、很多时候用 EXISTS 代替 IN 是一个好的选择:

select num from a where num in(select num from b)

用下面的语句替换:

select num from a where exists(select 1 from b where num=a.num)

10、索引固然可以提高相应的 SELECT 的效率,但同时也降低了 INSERT 及 UPDATE 的效。因为 INSERT 或 UPDATE 时有可能会重建索引,所以怎样建索引需要慎重考虑,视具体情况而定。一个表的索引数最好不要超过 6 个,若太多则应考虑一些不常使用到的列上建的索引是否有必要。

11、应尽可能的避免更新 clustered 索引数据列, 因为 clustered 索引数据列的顺序就是表记录的物理存储顺序,一旦该列值改变将导致整个表记录的顺序的调整,会耗费相当大的资源。若应用系统需要频繁更新 clustered 索引数据列,那么需要考虑是否应将该索引建为 clustered 索引。

12、尽量使用数字型字段,若只含数值信息的字段尽量不要设计为字符型,这会降低查询和连接的性能,并会增加存储开销。

13、尽可能的使用 varchar, nvarchar 代替 char, nchar。因为首先变长字段存储空间小,可以节省存储空间,其次对于查询来说,在一个相对较小的字段内搜索效率显然要高些。

14、最好不要使用返回所有:select from t ,用具体的字段列表代替 “*”,不要返回用不到的任何字段。

15、尽量避免向客户端返回大数据量,若数据量过大,应该考虑相应需求是否合理。

16、使用表的别名(Alias):当在 SQL 语句中连接多个表时,请使用表的别名并把别名前缀于每个 Column 上。这样一来,就可以减少解析的时间并减少那些由 Column 歧义引起的语法错误。

17、使用“临时表”暂存中间结果 :

简化 SQL 语句的重要方法就是采用临时表暂存中间结果。但是临时表的好处远远不止这些,将临时结果暂存在临时表,后面的查询就在 tempdb 中了,这可以避免程序中多次扫描主表,也大大减少了程序执行中“共享锁”阻塞“更新锁”,减少了阻塞,提高了并发性能。

18、一些 SQL 查询语句应加上 nolock,读、写是会相互阻塞的,为了提高并发性能。对于一些查询,可以加上 nolock,这样读的时候可以允许写,但缺点是可能读到未提交的脏数据。

使用 nolock 有3条原则:

  • 查询的结果用于“插、删、改”的不能加 nolock;
  • 查询的表属于频繁发生页分裂的,慎用 nolock ;
  • 使用临时表一样可以保存“数据前影”,起到类似 Oracle 的 undo 表空间的功能,能采用临时表提高并发性能的,不要用 nolock。

19、常见的简化规则如下:

不要有超过 5 个以上的表连接(JOIN),考虑使用临时表或表变量存放中间结果。少用子查询,视图嵌套不要过深,一般视图嵌套不要超过 2 个为宜。

20、将需要查询的结果预先计算好放在表中,查询的时候再Select。这在SQL7.0以前是最重要的手段,例如医院的住院费计算。

21、用 OR 的字句可以分解成多个查询,并且通过 UNION 连接多个查询。他们的速度只同是否使用索引有关,如果查询需要用到联合索引,用 UNION all 执行的效率更高。多个 OR 的字句没有用到索引,改写成 UNION 的形式再试图与索引匹配。一个关键的问题是否用到索引。

22、在IN后面值的列表中,将出现最频繁的值放在最前面,出现得最少的放在最后面,减少判断的次数。

23、尽量将数据的处理工作放在服务器上,减少网络的开销,如使用存储过程。

存储过程是编译好、优化过、并且被组织到一个执行规划里、且存储在数据库中的 SQL 语句,是控制流语言的集合,速度当然快。反复执行的动态 SQL,可以使用临时存储过程,该过程(临时表)被放在 Tempdb 中。

24、当服务器的内存够多时,配制线程数量 = 最大连接数+5,这样能发挥最大的效率;否则使用配制线程数量1b837df401709d65ad33b953e9387142=”,不要使用 “>”。

28、索引的使用规范:

索引的创建要与应用结合考虑,建议大的 OLTP 表不要超过 6 个索引;尽可能的使用索引字段作为查询条件,尤其是聚簇索引,必要时可以通过 index index_name 来强制指定索引;避免对大表查询时进行 table scan,必要时考虑新建索引;在使用索引字段作为条件时,如果该索引是联合索引,那么必须使用到该索引中的第一个字段作为条件时才能保证系统使用该索引,否则该索引将不会被使用;要注意索引的维护,周期性重建索引,重新编译存储过程。

29、下列 SQL 条件语句中的列都建有恰当的索引,但执行速度却非常慢:

SELECT * FROM record WHERE substrINg(card_no, 1, 4) = '5378' --13秒 
SELECT * FROM record WHERE amount/30 < 1000 --11秒 
SELECT * FROM record WHERE convert(char(10), date, 112) = &#39;19991201&#39; --10秒

分析

WHERE 子句中对列的任何操作结果都是在 SQL 运行时逐列计算得到的,因此它不得不进行表搜索,而没有使用该列上面的索引。

如果这些结果在查询编译时就能得到,那么就可以被 SQL 优化器优化,使用索引,避免表搜索,因此将 SQL 重写成下面这样:

SELECT * FROM record WHERE card_no like &#39;5378%&#39; -- < 1秒 
SELECT * FROM record WHERE amount < 1000*30 -- < 1秒 
SELECT * FROM record WHERE date = &#39;1999/12/01&#39; -- < 1秒

30、当有一批处理的插入或更新时,用批量插入或批量更新,绝不会一条条记录的去更新。

31、在所有的存储过程中,能够用 SQL 语句的,我绝不会用循环去实现。

例如:列出上个月的每一天,我会用 connect by 去递归查询一下,绝不会去用循环从上个月第一天到最后一天。

32、选择最有效率的表名顺序(只在基于规则的优化器中有效):

Oracle 的解析器按照从右到左的顺序处理 FROM 子句中的表名,FROM 子句中写在最后的表(基础表 driving table)将被最先处理,在 FROM 子句中包含多个表的情况下,你必须选择记录条数最少的表作为基础表。

如果有 3 个以上的表连接查询,那就需要选择交叉表(intersection table)作为基础表,交叉表是指那个被其他表所引用的表。

33、提高 GROUP BY 语句的效率,可以通过将不需要的记录在 GROUP BY 之前过滤掉。下面两个查询返回相同结果,但第二个明显就快了许多。

低效

SELECT JOB, AVG(SAL) 
FROM EMP 
GROUP BY JOB 
HAVING JOB = &#39;PRESIDENT&#39; 
OR JOB = &#39;MANAGER&#39;

高效

SELECT JOB, AVG(SAL) 
FROM EMP
WHERE JOB = &#39;PRESIDENT&#39; 
OR JOB = &#39;MANAGER&#39; 
GROUP BY JOB

34、SQL 语句用大写,因为 Oracle 总是先解析 SQL 语句,把小写的字母转换成大写的再执行。

35、别名的使用,别名是大型数据库的应用技巧,就是表名、列名在查询中以一个字母为别名,查询速度要比建连接表快 1.5 倍。

36、避免死锁,在你的存储过程和触发器中访问同一个表时总是以相同的顺序;事务应经可能地缩短,在一个事务中应尽可能减少涉及到的数据量;永远不要在事务中等待用户输入。

37、避免使用临时表,除非却有需要,否则应尽量避免使用临时表,相反,可以使用表变量代替。大多数时候(99%),表变量驻扎在内存中,因此速度比临时表更快,临时表驻扎在 TempDb 数据库中,因此临时表上的操作需要跨数据库通信,速度自然慢。

38、最好不要使用触发器:

触发一个触发器,执行一个触发器事件本身就是一个耗费资源的过程;如果能够使用约束实现的,尽量不要使用触发器;不要为不同的触发事件(Insert、Update 和 Delete)使用相同的触发器;不要在触发器中使用事务型代码。

39、索引创建规则:

La clé primaire et la clé étrangère de la table doivent avoir des index ; les tables contenant plus de 300 volumes de données doivent avoir des index ; les tables qui sont fréquemment connectées à d'autres tables doivent avoir des index sur les champs de connexion qui apparaissent souvent dans la clause WHERE ; en particulier, les index doivent être construits sur des champs de grandes tables ; les index doivent être construits sur des champs très sélectifs ; les index ne doivent pas être construits sur de grands champs de texte ou même sur des champs très longs ; analyse. , essayez plutôt d'utiliser un index à champ unique ; sélectionnez correctement le champ de la colonne principale dans l'index composite, qui est généralement un champ avec une meilleure sélectivité ; plusieurs champs de l'index composite apparaissent-ils souvent dans la clause WHERE en mode AND ; en même temps? Y a-t-il peu ou pas de requêtes à champ unique ? Si tel est le cas, vous pouvez créer un index composite ; sinon, envisagez un index à champ unique ; si les champs contenus dans l'index composite apparaissent souvent seuls dans la clause WHERE, divisez-le en plusieurs index à champ unique si l'index composite en contient plus ; 3 champs, puis réfléchissez attentivement à la nécessité et envisagez de réduire le nombre de champs composés ; s'il y a à la fois des index à champ unique et des index composés sur ces champs, vous pouvez généralement supprimer l'index composé pour ne pas créer trop de tables qui exécutent fréquemment des données ; opérations. Index ; supprimez les index inutiles pour éviter les impacts négatifs sur les plans d'exécution ; chaque index créé sur la table augmentera la surcharge de stockage, et les index augmenteront également la surcharge de traitement pour les opérations d'insertion, de suppression et de mise à jour. De plus, trop d'index composés n'ont généralement aucune valeur lorsqu'il existe des index à champ unique ; au contraire, ils réduiront également les performances lors de l'ajout et de la suppression de données, en particulier pour les tables fréquemment mises à jour, l'impact négatif est encore plus important. . Essayez de ne pas indexer un champ de la base de données contenant un grand nombre de valeurs en double.

40. Résumé de l'optimisation des requêtes MySQL :

Utilisez les journaux de requêtes lentes pour découvrir les requêtes lentes, utilisez des plans d'exécution pour déterminer si les requêtes s'exécutent normalement et testez toujours vos requêtes pour voir si elles s'exécutent de manière optimale.

Les performances changeront toujours au fil du temps, évitez d'utiliser count(*) sur la table entière, cela peut verrouiller la table entière, rendre la requête cohérente afin que les requêtes similaires ultérieures puissent utiliser le cache de requêtes, utilisez GROUP BY dans des situations appropriées et à la place de DISTINCT, utilisez des colonnes indexées dans les clauses WHERE, GROUP BY et ORDER BY, gardez les index simples et n'incluez pas la même colonne dans plusieurs index.

Parfois, MySQL utilisera le mauvais index. Dans ce cas, utilisez USE INDEX et vérifiez le problème de l'utilisation de SQL_MODE=STRICT pour les champs d'index avec moins de 5 enregistrements, l'utilisation de LIMIT dans UNION n'est pas OR.

Pour éviter SELECT avant la mise à jour, utilisez INSERT ON DUPLICATE KEY ou INSERT IGNORE ; n'utilisez pas UPDATE pour implémenter, n'utilisez pas MAX ; n'utilisez pas les champs d'index et la clause ORDER BY LIMIT M, N peuvent en fait ralentir la requête dans certains cas, utilisez avec parcimonie, utilisez UNION dans la clause WHERE au lieu des sous-requêtes, avant de redémarrer MySQL, n'oubliez pas de réchauffer votre base de données pour vous assurer que les données sont en mémoire et que les requêtes sont rapides, envisagez des connexions persistantes au lieu de connexions multiples, pour réduire la surcharge.

Requêtes de référence, y compris l'utilisation de la charge sur le serveur. Parfois, une simple requête peut affecter d'autres requêtes lorsque la charge augmente sur le serveur. Utilisez SHOW PROCESSLIST pour voir les requêtes lentes et problématiques dans les données en miroir générées dans l'environnement de développement. requêtes suspectes.

41. Processus de sauvegarde MySQL :

Sauvegarde à partir du serveur de réplication secondaire ; arrêtez la réplication pendant la sauvegarde pour éviter les incohérences dans les dépendances de données et les contraintes de clé étrangère ; arrêtez complètement MySQL et sauvegardez à partir du fichier de base de données, si vous utilisez le dump MySQL pour la sauvegarde, veuillez sauvegarder en même temps ; Fichiers journaux binaires : assurez-vous que la réplication n'est pas interrompue ; ne faites pas confiance aux instantanés LVM, qui sont susceptibles de créer des incohérences de données qui vous causeront des problèmes à l'avenir. Pour une récupération plus facile d'une seule table, exportez les données en unités de tables ; différent des autres tables isolées. Utilisez –opt lors de l'utilisation de mysqldump ; vérifiez et optimisez les tables avant de sauvegarder pour une importation plus rapide, désactivez temporairement les contraintes de clé étrangère pendant l'importation. ; Pour une importation plus rapide, désactivez temporairement la détection de l'unicité lors de l'importation ; calculez la taille de la base de données, de la table et de l'index après chaque sauvegarde pour mieux surveiller la croissance de la taille des données et effectuez régulièrement des sauvegardes ;

42. Le tampon de requête ne gère pas automatiquement les espaces. Par conséquent, lors de l'écriture d'instructions SQL, l'utilisation des espaces doit être minimisée, en particulier les espaces au début et à la fin de SQL (car le tampon de requête n'intercepte pas automatiquement les espaces à la fin de SQL). le début et la fin).

43. Le membre peut-il utiliser mid comme norme pour diviser le tableau en tableaux afin de faciliter les requêtes ? Dans les exigences commerciales générales, le nom d'utilisateur est essentiellement utilisé comme base de requête. Normalement, le nom d'utilisateur doit être utilisé comme module de hachage pour diviser les tables.

En ce qui concerne le fractionnement des tables, la fonction de partition de MySQL le fait et est transparente pour le code ; il semble déraisonnable de l'implémenter au niveau du code.

44. Nous devrions définir un identifiant comme clé primaire pour chaque table de la base de données, et le meilleur est un type INT (UNSIGNED est recommandé), et définir l'indicateur AUTO_INCREMENT automatiquement augmenté.

45. Définissez SET NOCOUNT ON au début de toutes les procédures stockées et déclencheurs, et définissez SET NOCOUNT OFF à la fin. Il n'est pas nécessaire d'envoyer un message DONE_IN_PROC au client après chaque instruction de procédures stockées et de déclencheurs.

46. La requête MySQL peut activer le cache de requêtes à grande vitesse. C'est l'une des méthodes d'optimisation MySQL efficaces pour améliorer les performances de la base de données. Lorsque la même requête est exécutée plusieurs fois, il est beaucoup plus rapide d’extraire les données du cache et de les renvoyer directement depuis la base de données.

47. La requête EXPLAIN SELECT est utilisée pour suivre l'effet d'affichage :

L'utilisation du mot-clé EXPLAIN peut vous permettre de savoir comment MySQL traite votre instruction SQL. Cela peut vous aider à analyser les goulots d'étranglement des performances de vos instructions de requête ou de vos structures de table. Les résultats de la requête EXPLAIN vous indiqueront également comment vos clés primaires d'index sont utilisées et comment vos tables de données sont recherchées et triées.

48. Utilisez LIMIT 1 lorsqu'il n'y a qu'une seule ligne de données :

Parfois, lorsque vous interrogez une table, vous savez déjà que le résultat ne sera qu'un seul résultat, mais parce que vous devrez peut-être récupérer le curseur, ou vous pouvez vérifiez le nombre d'enregistrements renvoyés.

Dans ce cas, l'ajout de LIMIT 1 peut augmenter les performances. De cette façon, le moteur de base de données MySQL arrêtera la recherche après avoir trouvé une donnée, au lieu de continuer à rechercher la donnée suivante correspondant à l'enregistrement.

49. Sélectionnez le moteur de stockage approprié pour le tableau :

myisam : l'application se concentre principalement sur les opérations de lecture et d'insertion, avec seulement une petite quantité de mises à jour et de suppressions, et n'a pas d'exigences élevées pour l’intégrité et la concurrence des transactions. Élevé. InnoDB : traitement des transactions et cohérence des données requis dans des conditions concurrentes. En plus des insertions et des requêtes, il inclut également de nombreuses mises à jour et suppressions. (InnoDB réduit efficacement le verrouillage causé par les suppressions et les mises à jour). Pour les tables de type InnoDB qui prennent en charge les transactions, la principale raison qui affecte la vitesse est que le paramètre par défaut d'AUTOCOMMIT est activé et que le programme n'appelle pas explicitement BEGIN pour démarrer la transaction, ce qui entraîne la soumission automatique de chaque insertion, ce qui affecte sérieusement le vitesse. Vous pouvez appeler start avant d'exécuter SQL. Plusieurs SQL forment une seule chose (même si la validation automatique est activée), ce qui améliorera considérablement les performances. myisam:应用时以读和插入操作为主,只有少量的更新和删除,并且对事务的完整性,并发性要求不是很高的。InnoDB:事务处理,以及并发条件下要求数据的一致性。除了插入和查询外,包括很多的更新和删除。(InnoDB 有效地降低删除和更新导致的锁定)。对于支持事务的 InnoDB类 型的表来说,影响速度的主要原因是 AUTOCOMMIT 默认设置是打开的,而且程序没有显式调用 BEGIN 开始事务,导致每插入一条都自动提交,严重影响了速度。可以在执行 SQL 前调用 begin,多条 SQL 形成一个事物(即使 autocommit 打开也可以),将大大提高性能。

50、优化表的数据类型,选择合适的数据类型:

原则

50. Optimisez le type de données du tableau et choisissez le type de données approprié :

Principe : plus petit est généralement mieux, simple est mieux, tous les champs doivent avoir des valeurs par défaut et essayez d'éviter NUL.

Par exemple : lors de la conception de tables de base de données, utilisez des types entiers plus petits pour occuper autant que possible moins d'espace disque. (mediumint est plus approprié que int)

Par exemple, les champs d'heure : datetime et timestamp. datetime occupe 8 octets, timestamp occupe 4 octets, seule la moitié est utilisée. La plage représentée par l'horodatage est 1970-2037, ce qui convient à l'heure de mise à jour.

MySQL peut bien prendre en charge l'accès à de grandes quantités de données, mais d'une manière générale, plus la table de la base de données est petite, plus les requêtes exécutées dessus seront rapides.

Par conséquent, lors de la création d'un tableau, afin d'obtenir de meilleures performances, nous pouvons définir la largeur des champs du tableau la plus petite possible.

Par exemple : Lors de la définition du champ code postal, s'il est défini sur CHAR(255), cela ajoutera évidemment de l'espace inutile à la base de données. Même l'utilisation du type VARCHAR est redondante, puisque CHAR(6) fait très bien le travail. 🎜🎜De même, si possible, nous devrions utiliser MEDIUMINT au lieu de BIGIN pour définir des champs entiers, et nous devrions essayer de définir le champ sur NOT NULL, afin que lors de l'exécution de requêtes futures, la base de données n'ait pas besoin de comparer les valeurs NULL. 🎜

Pour certains champs de texte, tels que « province » ou « sexe », nous pouvons les définir comme type ENUM. Parce que dans MySQL, le type ENUM est traité comme des données numériques et les données numériques sont traitées beaucoup plus rapidement que les types texte. De cette façon, nous pouvons améliorer les performances de la base de données.

51. Type de données de chaîne : char, varchar, text Sélectionnez la différence.

52. Toute opération sur la colonne entraînera une analyse de la table, qui inclut les fonctions de base de données, les expressions de calcul, etc. Lors de l'interrogation, l'opération doit être déplacée autant que possible vers la droite du signe égal.

「Résumé」

Cet article décrit un total de 52 stratégies d'optimisation SQL. Si vous pouvez en nommer plus de 10, cela prouve que l'entretien est toujours intéressant. Si vous pouvez en nommer 20, l'intervieweur n'attendra pratiquement pas. Si vous continuez à parler, vous êtes déjà très impressionnant. À ce moment-là, l'impression de l'intervieweur est grandement améliorée.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer