mySQL: Index auf Spalten, die schon im Primary Index enthalten sind?

frank_m · 31. Juli 2022

Hallo,

die Frage in Kurzform: macht es Sinn, einen zusätzlichen Index auf Spalten zu erzeugen, die schon im Primary Index enthalten sind?

Lange Version:

Ich hab eine Datenbank im iobroker, in der ich u.a. die Daten meiner Wetterstation sammle, und in die ich auch die Daten aus der Cloud des Anbieters der Wetterstation importiert habe. Die Datenbank hat die Spalten:

id - der Messwert (z.B. Außentemperatur)

ts - ein Timestamp

value - der eigentliche Messwert zum jeweiligen Zeitpunkt

Im Primary Index sind id und ts, das hat iobroker bei der Einrichtung so angelegt. Die SELECT Statements für die Visualisierung sehen z.B. so aus:

SQL

SELECT ts, val FROM `iobroker`.ts_number WHERE  `iobroker`.ts_number.id=7 AND `iobroker`.ts_number.ts < 1659175200000 AND `iobroker`.ts_number.ts >= 1656583200000 UNION ( SELECT ts, val FROM `iobroker`.ts_number WHERE  `iobroker`.ts_number.id=7 AND `iobroker`.ts_number.ts < 1656583200000 ORDER BY `iobroker`.ts_number.ts DESC LIMIT 1) UNION ( SELECT ts, val FROM `iobroker`.ts_number WHERE  `iobroker`.ts_number.id=7 AND `iobroker`.ts_number.ts >= 1659175200000 ORDER BY `iobroker`.ts_number.ts ASC LIMIT 1) ORDER BY ts ASC;

An sich funktioniert das. Abfragen über einen Zeitraum von 2 Jahren dauern ca. 0,4 Sekunden. Allerdings tauchen die Statements im Log für "queries-not-using-indexes" auf, und ich weiß nicht, wieso. Denn wenn ich mir so ein SELECT Statement mit EXPLAIN ansehe, dann steht dort sogar, dass der PRIMARY Key benutzt wird - bis auf das UNION Result am Ende. Ist das der Grund?

Frage ist nun, ob die Abfragen beschleunigt werden können, indem man zusätzliches Indizes einführt, z.B. über die Spalte id oder ts. Ich hab das mal probiert, und die Anzeige in phpmyadmin wird spürbar beschleunigt (vermutlich, weil die ausschließlich nach ts sortiert wird). Die Anzeige im iobroker profitiert allerdings nicht.

ThomasChr · 31. Juli 2022

Kurze Antwort: Macht keinen Sinn.

Lange Antwort: Mach das Query Log an und mess mal.

CmdrXay · 31. Juli 2022

Hay,

Zitat von frank_m

macht es Sinn, einen zusätzlichen Index auf Spalten zu erzeugen, die schon im Primary Index enthalten sind?

JA!

Ein zusammengesetzter primary key ist nur effizient, wenn nach dem zusammengesetzten primary key gesucht wird.

Wir haben eine Tabelle, die über eine Mio Datensätze enhält und eine Abfrage, die diese Tabelle mit anderen sieben per JOIN verknüpft. Hat wunderbar funktioniert. Alle Verknüpfungen passieren über Indizes. Es wurde ein weiterer JOIN dazu gefügt, mit einem JOIN über einen Wert, der Bestandteil eines zusammengesetzten primary keys war -> 13 Sekunden dauerte das Query plötzlich. Ich vermutete als spontanen Auslöser den kombinierten Index - als der Parameter des JOINs in einen zusätzlichen Index überführt wurde -> 0.1 Sekunden.

Ich habe dann noch einen Abfrage optimiert, damit es noch schneller läuft. Es wurden auch jedesmal unnötige Daten generiert über einen zweifachen count, die nur einmal sonst im ganzen Projekt benötigt wurde - und sie werden jetzt nur noch dort mit generiert und nicht im Mega-JOIN.

CU, Peter

frank_m · 31. Juli 2022

Zitat von CmdrXay

Ein zusammengesetzter primary key ist nur effizient, wenn nach dem zusammengesetzten primary key gesucht wird.

Das ist der Normalfall. Eine SELECT der iobroker Visualisierung ist immer eine Kombination aus id und ts - siehe oben. Ausnahme ist eigentlich nur der Aufruf der Tabelle in phpmyadmin.

KB19 · 31. Juli 2022

Von wie vielen Datensätzen sprechen wir hier eigentlich? Und wie groß sind Daten bzw. Index?

Da Du sowieso immer (nur) id und ts im WHERE hast, sehe ich keinen Grund für einen weiteren Index. Das ist sowieso schon im primären Index enthalten. Anders würde es natürlich aussehen, wenn Du nur nach ts suchen willst, da der Index mit id anfängt und dadurch nicht verwendet werden kann. Wenn das aber nur bei phpMyAdmin der Fall ist und Du dort nicht jeden Tag ran musst, würde ich es bleiben lassen. Ob der Query in phpMyAdmin nun eine halbe oder drei Sekunden braucht, ist meiner Meinung nach kaum der Rede wert.

ThomasChr · 31. Juli 2022

… jep, auf exakte Abfrage nach dem Index (in der richtigen Reihenfolge) und auf Index covering hatte ich schon geguckt.

Wobei man halt trotzdem nicht weiß ob Mysql vielleicht da doch noch ne Optimierung hat wenn es den extra Index findet (Index covering ist z.B. so ein Fall). Deshalb mal messen und Execution Plans dafür rauslassen. Und dann gucken wir weiter

frank_m · 31. Juli 2022

Zitat von KB19

Von wie vielen Datensätzen sprechen wir hier eigentlich? Und wie groß sind Daten bzw. Index?

Im Moment sieht es so aus:

pasted-from-clipboard.png

Zitat von ThomasChr

Deshalb mal messen und Execution Plans dafür rauslassen.

Was genau heißt das? Slow Queries Log? Sorry, ich bin nicht so der mysql Experte.

CmdrXay · 31. Juli 2022

Hay,

also ich wette, dass das ORDER BY hier die show versaut. Dort wird immer nur auf ts referenziert.

Ein Hinweis, falls das Mißverstanden wurde: Wenn ich schreibe "gesucht wird", dann umfasst das alle elementaren Operationen, bei denen in Datebanken gesucht wird, das umfasst nicht nur WHERE, JOIN, sondern auch HAVING, ORDER und in gewissem Umfang auch GROUP (letzteres for Oracle auf jeden Fall, mysql/Mariadb weiß ich jetzt nicht).

CU. Peter

ThomasChr · 31. Juli 2022

Die Anleitung von Mariadb ist da zum Thema Query Plan eigentlich ganz gut: https://mariadb.com/kb/en/explain/

Und ja, ein zusätzlicher Index auf ts -könnte- das sortieren unterstützen, da hat CmdrXay natürlich recht!

Prinzipiell machst den Query mal mit explain im query und mal mit und ohne den extra Index und schaust ob sich was am Plan ändert.

Bzw: Explain Analyze ist natürlich noch nen ticken detailreicher. Explain führt den Select nicht aus, explain analyze schon.

frank_m · 31. Juli 2022

Ich hab den Aufruf einmal mit einem Index auf ts und einmal ohne gemacht. Das Ergebnis war allerdings bis auf wenige ms identisch.

Code

-> Sort: ts  (cost=175107.86..175110.36 rows=580510) (actual time=853.991..870.106 rows=322394 loops=1)
    -> Table scan on <union temporary>  (cost=2.50 rows=0) (actual time=694.193..771.654 rows=322394 loops=1)
        -> Union materialize with deduplication  (cost=175107.86..175110.36 rows=580510) (actual time=694.187..694.187 rows=322394 loops=1)
            -> Filter: ((ts_number.id = 36) and (ts_number.ts < 1659041413994) and (ts_number.ts > 1557463327273))  (cost=116978.27 rows=580508) (actual time=0.025..156.749 rows=322393 loops=1)
                -> Index range scan on ts_number using PRIMARY over (id = 36 AND 1557463327273 < ts < 1659041413994)  (cost=116978.27 rows=580508) (actual time=0.024..109.652 rows=322393 loops=1)
            -> Limit: 1 row(s)  (cost=1.11 rows=1) (actual time=0.031..0.031 rows=0 loops=1)
                -> Filter: ((ts_number.id = 36) and (ts_number.ts < 1557463327274))  (cost=1.11 rows=1) (actual time=0.031..0.031 rows=0 loops=1)
                    -> Index range scan on ts_number using PRIMARY over (id = 36 AND ts < 1557463327274) (reverse)  (cost=1.11 rows=1) (actual time=0.030..0.030 rows=0 loops=1)
            -> Limit: 1 row(s)  (cost=77.48 rows=1) (actual time=0.011..0.011 rows=1 loops=1)
                -> Filter: ((ts_number.id = 36) and (ts_number.ts > 1659041413993))  (cost=77.48 rows=380) (actual time=0.011..0.011 rows=1 loops=1)
                    -> Index range scan on ts_number using PRIMARY over (id = 36 AND 1659041413993 < ts)  (cost=77.48 rows=380) (actual time=0.009..0.009 rows=1 loops=1)

Alles anzeigen

Auf der einen Seite scheint das Einsammeln der Daten aus den drei Select Statements nicht allzulange zu dauern. Die beiden Limits sind sehr kurz, und die Filter Zeile mit 156 ms auch ok. Aber eine Ebene höher dauert das Union materialize plötzlich fast 700 ms. Wenn ich die Beschreibung richtig verstanden hab, dann hätte ich dort in etwa die Summe der drei Selects erwartet.

Die zusätzlichen 170 ms für den Table Scan und das Sortieren sind meines Erachtens wieder ok.

Was dauert an dem Union materialize so lange und kann man das optimieren?

CmdrXay · 31. Juli 2022

Hay,

könnte ev. an der deduplication liegen. Versuch mal in den Statements UNION ALL nur zum Spaß...

CU, Peter

KB19 · 31. Juli 2022

Wenn ich das richtig im Kopf habe, kann der Cache einem solche Tests ebenfalls vermiesen. Verwende beim SELECT unbedingt mal ein SQL_NO_CACHE. Und teste es keinesfalls mit einer Dummy-Tabelle, die nur ein paar Testeinträge enthält, da werden Indizes Dank dem Optimizer oft gar nicht verwendet.

(Dass auch das Dateisystem theoretisch einen Cache hat, lasse ich mal außen vor. Das spielt bei SSDs eher eine untergeordnete Rolle.)

frank_m · 31. Juli 2022

Zitat von CmdrXay

Versuch mal in den Statements UNION ALL nur zum Spaß...

Das macht aus den knapp 700 ms bei "Union materialize" 180 ms ... In der Gesamtabfrage sinkt die Zeit von gut 870 ms auf 305.

Zitat von KB19

Verwende beim SELECT unbedingt mal ein SQL_NO_CACHE.

Das hingegen hatte keinen Einfluss. Die gesamte Abfrage dauerte 30 ms länger.

Zitat von KB19

Und teste es keinesfalls mit einer Dummy-Tabelle, die nur ein paar Testeinträge enthält, da werden Indizes Dank dem Optimizer oft gar nicht verwendet.

Ich teste das auf der produktiven Tabelle mit den 13 Mio Einträgen. Die Daten da drin sind nur für mich privat zum Spaß, und ggf. auch noch als Backup in der Herstellercloud verfügbar.

Bleibt die Frage: Das Ganze ist ja Bestandteil des eChart Plugins vom ibroker. Vermutlich muss ich da jetzt in den Sourcecode und schauen, wo die SQL Statements zusammengebaut werden?

CmdrXay · 31. Juli 2022

Hay,

Zitat von frank_m

Das macht aus den knapp 700 ms bei "Union materialize" 180 ms ... In der Gesamtabfrage sinkt die Zeit von gut 870 ms auf 305

Fein.

Allerdings ein wichtiger Hinweis: Deduplizieren heißt ja, dass doppelte Datensätze, die ggf. durch UNION entstehen, im nachhinein entfernt werden. D.h. Du solltest zählen, ob vor und nach dem ALL die Anzahl der ausgeworfenen Datensätze gleich ist bzw. entscheiden, ob Dir das überhaupt wichtig, falls sie sich unterscheiden.

CU, Peter

ThomasChr · 1. August 2022

frank_m Was willst du denn noch erreichen wenn du meinst den Source zu durchsuchen?

Wenn du die tatsächlich gesendeten Statements sehen willst dann kannst du das Slow Query Log mit einer sehr geringen Zeit einstellen um erstmal alle Querys einzusammeln. Alternativ gibts bei Mysql noch sehr viele Protokolltabellen die du aktivieren könntest, je nachdem was du vorhast

Es gibt fürs Query Log sogar einen Parameter 'log_queries_not_using_indexes': https://stackoverflow.com/ques…ies-not-using-index-mysql

(Achtung: Thread is sehr alt!)

frank_m · 1. August 2022

Zitat von ThomasChr

Es gibt fürs Query Log sogar einen Parameter 'log_queries_not_using_indexes':

Genau damit habe ich die Aufrufe ja gefunden, um sie dann mit "explain" bzw. nun mit "explain analyze" zu untersuchen.

Und genau da stehe ich jetzt. Anhand von "explain analyze" weiß ich, dass ein "UNION ALL" deutlich fixer ist, als ein "UNION". Nun muss ich ja die aufrufende Software modifizieren, da wo das SQL Statement zusammengebaut wird. Denn ich werde ja kaum dem SQL Server sagen können, dass er UNION ALL anstatt UNION ausführen soll.

ThomasChr · 1. August 2022

Wenn du dir sicher bist dass der UNION ALL keine Probleme verursacht solltest du den Programmcode direkt beim Hersteller anpassen. Für dein Plugin hätte ich vermutet das es hier ist: https://github.com/ioBroker/ioBroker.echarts

Das ist aber wohl nur der Vordergrund, weil nur Javascript. Da werden die SQL Statements definitiv nicht sein.

Evtl. also im Hauptrepo: https://github.com/ioBroker/ioBroker

Wobei ich auch da nix mit SQL finde...

CmdrXay · 1. August 2022

Hay,

Zitat von ThomasChr

Wobei ich auch da nix mit SQL finde...

anderes Repo... https://github.com/ioBroker/io…/blob/master/lib/mssql.js

Ungefähr Zeile 189 und 210 sehen bei oberflächlicher Ansicht so aus, als ob da der passende Ort wäre.

CU, Peter

frank_m · 1. August 2022

Ja, wobei ich eher gedacht hätte, es ist der mysql Teil:

https://github.com/ioBroker/ioBroker.sql/blob/master/lib/mysql.js

Und dann Zeilen 168 + 191. Ich werde das in meiner lokalen Installation einfach mal ausprobieren, was passiert.

frank_m · 2. August 2022

So, ich habe noch ein bisschen experimentiert.

Die Ergebnisse bei UNION und UNION ALL sind bei mir identisch. Das ist nicht verwunderlich, denn die Tabelle sollte eigentlich immer nur einen Messwert für die Kombination aus id und ts haben. Die Abfragen mit UNION ALL sind aber ca. doppelt so schnell, wie mit UNION.

Ich bin mir aber nicht sicher, ob ich daraus einen Request an das SQL Plugin vom iobroker mache. Denn es ist denkbar, dass andere Datenquellen die Datenbank anders befüllen, und da könnte das UNION ALL möglicherweise problematisch sein. Grundsätzlich funktioniert es ja.