Dokumentation
Robert Koch-Institut, & Umweltbundesamt
Beitragende
Fachgebiet 32¹
Zitieren
Robert Koch-Institut, & Umweltbundesamt. (2025). Abwassersurveillance AMELAG [Data set]. Zenodo. https://doi.org/10.5281/zenodo.17142259
Zusammenfassung
Im Datensatz "Abwassersurveillance AMELAG" des Robert Koch-Instituts und Umweltbundesamts werden Daten aus der Überwachung von Infektionserregern im Abwasser bereitgestellt. Die Daten zur SARS-CoV-2-Viruslast werden seit Februar 2022 in einem bundesweiten Netzwerk von Kläranlagen, Laboren und Behörden erhoben. Seitdem wurden die Daten um die Viruslast weiterer respiratorischer Viren (Influenza A/B, RSV) ergänzt. Der Datensatz enthält neben Einzelwerten der Kläranlagen auch bevölkerungsgewichtete, aggregierte Zeitreihen. Darüber hinaus werden Auswertungsskripte als Kontextmaterialien bereitgestellt.
Inhaltsverzeichnis
- Informationen zum Datensatz und Entstehungskontext
- Inhalt und Aufbau des Datensatzes
- Hinweise zur Nachnutzung der Daten
--- please find the English version here ---
Das Vorhaben „Abwassermonitoring für die epidemiologische Lagebewertung“ (AMELAG) läuft vom 22.11.2022 bis zum 31.12.2025. Behörden, Kläranlagen und Labore arbeiten zusammen, um Proben zu nehmen, zu analysieren und zu bewerten. Das Ziel dieses Vorhabens ist es, SARS-CoV-2-Nachweise aus dem Abwasser als zusätzlichen Indikator zur epidemiologischen Lagebewertung auf Länder- und Bundesebene zu etablieren. Ebenso ist es das Ziel, Strukturen und Prozesse für ein bundesweites Netzwerk für die Abwassersurveillance weiter auszubauen, Konzepte für eine Verstetigung zu erstellen und die Möglichkeiten für ein Monitoring von weiteren Krankheitserregern im Abwasser zu erforschen. Aktuell werden Abwasserproben von ausgewählten Kläranlagen auf SARS-CoV-2, Influenzaviren und Respiratorische Synzytial-Viren (RSV) untersucht.
Bei der Abwassersurveillance werden Erreger im Abwasser gemessen um Gesundheitsschutzmaßnahmen besser steuern zu können. Abwassersurveillance kann einen Beitrag für eine Reihe von Anwendungsfällen liefern. Abwasserdaten unterliegen speziellen Limitationen, beispielsweise erlauben sie keine genaue Einschätzung von Krankheitsschwere oder Belastung des Gesundheitssystems. Bei der epidemiologischen Bewertung sollten die Daten mit anderen Indikatoren, z.B. aus der syndromischen Surveillance, kombiniert werden.
AMELAG ist ein vom Bundesministerium für Gesundheit (BMG) gefördertes Vorhaben und wird in Kooperation mit dem Bundesministerium für Umwelt, Naturschutz, nukleare Sicherheit und Verbraucherschutz (BMUV) durchgeführt.
Das Vorhaben wird vom Robert Koch-Institut (RKI) und Umweltbundesamt (UBA) gemeinsam durchgeführt. Weitere Informationen zu AMELAG finden Sie auf der Projektwebseite.
Die Durchführung der Probenahme erfolgt durch die teilnehmenden Kläranlagen. Die Analyse der Proben erfolgt durch die teilnehmenden Labore. Neben kommerziellen Laboren, Landeslaboren und dem Umweltbundesamt führt der zentrale Sanitätsdienst der Bundeswehr einen Teil der Analytik durch.
Ein Teil der Kläranlagen und Labore sind gleichzeitig in Projekten der Bundesländer zur Abwassersurveillance beteiligt (Baden-Württemberg, Bayern, Berlin, Brandenburg, Hamburg, Hessen, Rheinland-Pfalz, Sachsen-Anhalt). Weitere Kläranlagen und Labore sind Teil der folgenden Forschungsprojekte:
- WBEready - Einen Forschungskonsortium bestehend aus Emschergenossenschaft und LippeverbandEGLV, Forschungsinstitut für Wasserwirtschaft und Klimazukunft an der RWTH Aachen FiW, Universitätsklinikum Frankfurt, Goethe-Universität Frankfurt am Main, Universitätsmedizin Essen (Institut für künstliche Intelligenz, Institut für Urban Public Health), RWTH Aachen, Institut für Siedlungswasserwirtschaft.
- Etablierung von Verfahren für den Nachweis von Viren im Abwasser zur Bewertung der Infektionslage in der Bevölkerung (Universität Dresden)
- Entwicklung einer landesweiten Abwassersurveillance in Thüringen mittels Mobilitätsdaten und künstlicher Intelligenz (Forschungskonsortium der Universität Weimar, Universität Jena, Universität Hamburg, Hochschule Hamm-Lippstadt, SMA Development GmbH, KOWUG Kommunale Wasser- und Umwelttechnik GmbH, Analytik Jena GmbH)
- Etablierung einer Multiplex-PCR aus Abwasser und für Detektion und Charakterisierung von RSV im Rahmen des SARS-CoV-2-Abwasser-Monitoring (AMELAG) (Universität Bonn und Düsseldorf).
Die Firma ENDA wurde mit der Datenhaltung beauftragt. Die erhobenen Daten werden dort in einer Datenbank (PiA-Monitor) gespeichert und weiterverarbeitet.
Die Verarbeitung, Aufbereitung und Veröffentlichung der Daten erfolgen durch das Fachgebiet MF 4 | Fach- und Forschungsdatenmanagement. Fragen zum Datenmanagement und zur Publikationsinfrastruktur können an das Open Data-Team des Fachgebiets MF4 unter OpenData@rki.de gerichtet werden.
In AMELAG wurden aufbauend auf die im Rahmen des ESI-CorA-Projekts erstellten Handreichungen zur Probennahme und Laboranalytik technische Leitfäden entwickelt. Die SARS-CoV-2-Rohdaten der im ESI-CorA-Projekt analysierten Abwasserproben wurden in AMELAG nachgenutzt und sind in den ausgewerteten Daten enthalten. An jeder beteiligten Kläranlage werden in aller Regel zwei Mal pro Woche Rohabwasserproben entnommen und zusammen mit den Begleitparametern (z.B. Volumenstrom, pH-Wert, Temperatur), die für die Normalisierung und Qualitätssicherung nötig sind, erhoben. Die Rohabwasserproben sollen, sofern möglich, nach dem Sandfang der Kläranlage entnommen werden. Es wird eine 24-Stunden-Mischprobe entnommen, welche mit einem automatischen Probennehmer durchgeführt wird. Die 24-Stunden-Probennahmen erfolgen in der Regel jeweils montags auf dienstags und mittwochs auf donnerstags. Im Regelfall wird ein Liter der Probe in Probenflaschen abgefüllt und an das Analyselabor versendet. Im Labor erfolgt die Aufkonzentrierung, Extraktion der viralen Nukleinsäure und Quantifizierung der viralen Gensequenzen durch digitale PCR (dPCR) oder quantitative real time PCR (qRT-PCR). Bei SARS-CoV-2 werden mindestens zwei Genfragmente (vorzugsweise N1, N2, E, ORF oder RdRp) bestimmt, bei den Influenzaviren ein Genfragment (vorzugsweise M1 für Influenza-A-Virus und M1, NS1, NS2 oder HA für Influenza-B-Virus) und bei RSV ebenfalls ein Genfragment (vorzugsweise N für RSV A und RSV B, M oder N für das gemeinsam gemessene RSV A/B).
Robert Koch-Institut, Fachgebiet 32 (2024): "ESI-CorA: SARS-CoV-2-Abwassersurveillance" [Data set]. Zenodo. DOI: 10.5281/zenodo.10781653
Beim UBA laufen die Metadaten zu den Kläranlagen und den Laboren sowie die regelmäßig erhobenen Monitoringdaten zentral in einer Webanwendung, dem PiA-Monitor (Pathogene im Abwasser), zusammen, werden dort gespeichert und weiterverarbeitet. Die regelmäßig zu erfassenden Monitoringdaten der Kläranlagen und die Analysedaten der Labore werden zusammengeführt und von den datenliefernden Stellen über die Web-Anwendung der Datenbank importiert. Das UBA, das RKI und die Landesbehörden können auf die Daten im Rahmen ihrer jeweiligen Rechte zugreifen.
Mit dem Datenimport werden die Daten auf Plausibilität geprüft. Dabei werden die Formate, Vollständigkeit der Angaben (Pflichtfeldangaben), Wertebereiche der Monitoringdaten, Plausibilität der Datumsangaben und die Übereinstimmung mit hinterlegten Metadaten geprüft. Nur Datensätze, welche die Qualitätsprüfung erfolgreich durchlaufen, werden auch in die Datenbank importiert. Für SARS-CoV-2 wird der geometrische Mittelwert der Viruslast (Genkopien/Liter) aus den zwei oder mehr gemessenen Zielgenen ermittelt.
Eine variierende Abwasserzusammensetzung, z. B. aufgrund von unregelmäßigen industriellen Einflüssen oder Starkregenereignissen, kann zu veränderten Konzentrationen der Viren führen. Um diese externen Einflüsse zu berücksichtigen, kann die gemessene Viruslast normalisiert werden.
In AMELAG ist die auf den Durchfluss der Kläranlage normalisierte Viruslast unter der Variable viruslast_normalisiert
verfügbar. Dabei ist der Trockenwetterzufluss der Kläranlage die Referenz. Folgende Formel wurde hierbei verwendet:
wo:
-
$Q_{KA_aktuell}$ : Volumenstrom der Kläranlage im Probenahmezeitraum und -
$Q_{KA_median}$ : Median des Volumenstrom der Kläranlage
Die Normalisierung erfolgt automatisiert mit dem Datenimport. Die gemessenen Viruslasten im Wochenbericht sowie in der Variable viruslast
sind nicht normalisiert, da sich keine verbesserte Datenqualität durch die Normalisierung feststellen lässt.
Die Auswertung der Daten erfolgt am RKI über R-Skripte. Die Skripte sind in den Kontextmaterialien enthalten. Eine genaue Beschreibung der Methodik ist in den technischen Leitfäden hinterlegt. Die Ergebnisse werden wöchentlich im AMELAG Wochenbericht auf der RKI-Webseite veröffentlicht.
Für jeden Standort werden die nicht normalisierten Messwerte (optional können auch die normalisierten Messwerte verwendet werden) für SARS-CoV-2, Influenza A und B-Virus sowie RSV A, RSV B und das gemeinsam gemessene RSV A/B in Genkopien pro Liter (Genkopien/L) angegeben. Zusätzlich werden die Messwerte der logarithmierten Genkopien mittels einer lokal gewichteten Regression (LOESS) geglättet und zugehörige Konfidenzintervalle berechnet.
Es werden die einzelnen Zeitreihen der Standorte aggregiert, um einen bundesweiten Verlauf der jeweiligen Viruslast im Abwasser abzubilden. Dafür wird zunächst der Mittelwert über die über eine Woche gemittelten Messwerte der einzelnen Standorte berechnet. Dann wird für jeden Standort für jede Woche die Differenz vom Wochenmittelwert über alle Standorte dieser Woche berechnet. Für jede Standort-Labor-Kombination wird der Mittelwert über diese Differenzen über alle Wochen gebildet um diesen Mittelwert danach von den ursprünglich gemessenen Werten abzuziehen. Dadurch wird für mittlere Unterschiede in den Viruslasten zwischen unterschiedlichen Standort-Labor-Kombinationen, adjustiert. Abschließend wird in jeder Woche, in der für mindestens 20 Standorte Messwerte vorliegen, der Mittelwert über diese adjustierten Werte berechnet. Dabei wird nach den angeschlossenen Einwohnern der Kläranlage gewichtet.
Da mit verschiedenen Kläranlagen und Laboren viele Akteure in die Datenerhebung involviert sind, kann es zu Unregelmäßigkeiten in den Daten der Einzelstandorte kommen, die einen großen Einfluss auf die über alle Standorte aggregierten Werte haben können. Sobald solche Auffälligkeiten festgestellt werden, werden diese Werte bis zur vollständigen Abklärung der Ursachen aus den aggregierten Kurven (amelag_aggregierte_kurve.tsv
) ausgeschlossen. In den Daten der Einzelstandorte (amelag_aggregierte_kurve.tsv
) bleiben die Werte weiterhin enthalten.
Bei der Datenbewertung sind einige Besonderheiten zu beachten:
- Es wurden an den unterschiedlichen Kläranlagen und für die unterschiedlichen Viren verschiedene Zielgene gemessen
- SARS-CoV-2: eine Kombination aus vorzugsweise N1, N2, E, ORF oder RdRp
- Influenza A-Virus: vorzugsweise M1
- Influenza B-Virus: vorzugsweise M1, NS1, NS2, HA
- RSV A: vorzugsweise N
- RSV B: vorzugsweise N
- RSV A/B: M, N
- Einige Städte sind mit mehr als einer Kläranlage bzw. mehr als einem Zulauf vertreten.
- Bei Werten unterhalb der Bestimmungsgrenze (BG) wird mit der Hälfte der Bestimmungsgrenze als Wert gerechnet (0,5 * BG).
Abwasserdaten erlauben keinen Rückschluss auf die Krankheitsschwere oder die Belastung des Gesundheitssystems. Aus Abwasserdaten kann nach aktuellem Stand nicht präzise auf Inzidenz/Prävalenz oder die Untererfassung (die sog. „Dunkelziffer”) geschlossen werden. Für die epidemiologische Lagebewertung sollten die Daten immer in Zusammenschau mit anderen Indikatoren, z.B. aus der syndromischen Surveillance, betrachtet werden. Absolute Viruslasten können insbesondere über längere Zeiträume nicht direkt im Hinblick auf die Anzahl an Infizierten verglichen werden, da sich die ausgeschiedene Virusmenge pro infizierter Person beispielsweise zwischen verschiedenen Virusvarianten unterscheiden kann. Die ermittelten Werte werden durch eine Vielzahl von Faktoren (z.B. Veränderungen der Abwasserzuleitung, Starkregenereignisse oder touristische Ereignisse) beeinflusst, was durch Normalisierungsmethoden bisher nicht ausgeglichen werden kann.
Von der Probenahme bis zur Datenübermittlung und Veröffentlichung vom RKI kann es zu einem Zeitverzug von bis zu zwei Wochen kommen.
Im AMELAG-Datensatz werden Daten und Kontextmaterialien zu SARS-CoV-2-Nachweisen im Abwasser bereitgestellt. Die im Projekt erhobenen Daten liegen für einzelne Standorte und als aggregierte Zeitreihe vor.
Im Datensatz zusätzlich enthalten sind:
- Lizenz-Datei mit der Nutzungslizenz des Datensatzes in Deutsch und Englisch
- Datensatzdokumentation in deutscher Sprache
- Metadaten zur automatisierten Weiterverarbeitung
- Kontexmaterialien zur Datenanalyse
In der Datei amelag_einzelstandorte.tsv
sind die normalisierten und nicht normalisierten Daten zur Viruslast für SARS-CoV-2, Influenza A und B (einzeln und als Summe) sowie zu RSV A, RSV B, deren Summe (RSV A+B) und gemeinsamen Messungen von RSV A und B (RSV A/B) für die einzelnen Standorte angegeben.
Die Datei amelag_einzelstandorte.tsv enthält die in der folgenden Tabelle abgebildeten Variablen und deren Ausprägungen. Ein maschinenlesbares Datenschema ist im Data Package Standard in tableschema_amelag_einzelstandorte.json hinterlegt:
Variable | Typ | Ausprägungen | Beschreibung |
---|---|---|---|
standort | string | Beispiele: Aachen , Ratzeburg , Weil am Rhein |
Standort der Kläranlage. |
bundesland | string | Werte: BB , BE , BW , BY , HB , HE , HH , … |
Kürzel des Bundeslandes, in dem sich die Kläranlage befindet. |
datum | date | Format: YYYY-MM-DD Fehlende Werte: NA |
Datum, an dem die 24-Stunden-Mischprobenahme in der Kläranlage begonnen hat. |
viruslast | number | Werte: ≥0 Fehlende Werte: NA |
Gemessene Viruslast (in Genkopien pro Liter). |
viruslast_normalisiert | number | Werte: ≥0 Fehlende Werte: NA |
Nach dem Durchfluss normalisierte Viruslast (wie in der Variable "viruslast" beschrieben). |
loess_vorhersage | number | Werte: ≥0 Fehlende Werte: NA |
Vorhergesagte Viruslast (mittels einer LOESS-Regression auf Basis der nicht-normalisierten Viruslasten, optimiert mittels AICc-Kriterium für die 10er-logarithmierten Viruslasten). |
loess_obere_schranke | number | Werte: ≥0 Fehlende Werte: NA |
Obere Grenze des punktweisen 95%-Konfidenzintervalls des LOESS-Vorhersagewerts. |
loess_untere_schranke | number | Werte: ≥0 Fehlende Werte: NA |
Untere Grenze des punktweisen 95%-Konfidenzintervalls des LOESS-Vorhersagewerts. |
einwohner | integer | Werte: ≥0 Fehlende Werte: NA |
Anzahl an Einwohnern, die an die Kläranlage angeschlossen sind. |
laborwechsel | string | Werte: ja , nein Fehlende Werte: NA |
Gibt an, ob es Laborwechsel bzw. Änderungen in den Labormethoden gab. |
typ | string | Werte: SARS-CoV-2 , Influenza A , Influenza B , Influenza A+B , RSV A , RSV B , RSV A+B , … |
Virustyp. |
unter_bg | string | Werte: ja , nein Fehlende Werte: NA |
Gibt an, ob mindestens die Hälfte der gemessenen Gene unterhalb der Bestimmungsgrenze liegen. |
In der Datei amelag_aggregierte_kurve.tsv
ist die Zeitreihe der SARS-CoV-2-, Influenza A- und Influenza B-Viruslast einzeln und als Summe (Influenza A+B) sowie von RSV A, RSV B einzeln und als Summe (RSV A+B) und der gemeinsamen Messungen von RSV A und RSV B (RSV A/B) auf aggregierter bzw. bundesweiter Ebene enthalten.
Die Datei amelag_aggregierte_kurve.tsv enthält die in der folgenden Tabelle abgebildeten Variablen und deren Ausprägungen. Ein maschinenlesbares Datenschema ist im Data Package Standard in tableschema_amelag_aggregierte_kurve.json hinterlegt:
Variable | Typ | Ausprägungen | Beschreibung |
---|---|---|---|
datum | date | Format: YYYY-MM-DD |
Datum des Mittwochs einer Woche. Die Daten der unterliegenden Einzelzeitreihen werden innerhalb des Zeitraums vom vorherigen Donnerstag bis zum angegebenen Mittwoch gemittelt. |
n | integer | Werte: ≥0 Fehlende Werte: NA |
Anzahl der Standorte, die mindestens einen Messwert im durch "datum" beschriebenen Zeitraum übermittelt haben. |
anteil_bev | number | Werte: ≥0 Fehlende Werte: NA |
Anteil der Gesamtbevölkerung in Deutschland, der an die übermittelnden Kläranlagen angeschlossen ist. |
viruslast | number | Werte: ≥0 Fehlende Werte: NA |
Gemessene Viruslast (in Genkopien pro Liter), gemittelt über alle Standorte und gewichtet nach angeschlossenen Einwohnern der Kläranlagen. Vor der Mittelung über die Standorte wurden alle Messwerte der Standorte in den letzten 7 Tagen jeweils mittels 10er-Logarithmus transformiert und über die einzelnen Standorte gemittelt. Die angegebene Viruslast ist der auf die Originalskala zurücktransformierte Mittelwert. |
viruslast_normalisiert | number | Werte: ≥0 Fehlende Werte: NA |
Nach dem Durchfluss normalisierte Viruslast (wie in der Variable "viruslast" beschrieben). |
loess_vorhersage | number | Werte: ≥0 Fehlende Werte: NA |
Vorhergesagte Viruslast (mittels einer LOESS-Regression auf Basis der nicht-normalisierten Viruslasten, zurücktransformiert auf die Originalskala). |
loess_obere_schranke | number | Werte: ≥0 |
Obere Grenze des punktweisen 95%-Konfidenzintervalls des LOESS-Vorhersagewerts. |
loess_untere_schranke | number | Werte: ≥0 |
Untere Grenze des punktweisen 95%-Konfidenzintervalls des LOESS-Vorhersagewerts. |
typ | string | Werte: SARS-CoV-2 , Influenza A , Influenza B , Influenza A+B , RSV A , RSV B , RSV A+B , … |
Virustyp. |
Zur Reproduktion der Ergebnisse des AMELAG Wochenberichts werden die zur Erstellung der Analyse verwendeten R-Skripte bereitgestellt. Die Skripte befinden sich im Ordner "Kontextmaterialien" des Datensatzes.
Zur Erhöhung der Auffindbarkeit sind die bereitgestellten Daten mit Metadaten beschrieben. Über GitHub Actions werden Metadaten an die entsprechenden Plattformen verteilt. Für jede Plattform existiert eine spezifische Metadatendatei, diese sind im Metadatenordner hinterlegt:
Versionierung und DOI-Vergabe erfolgt über Zenodo.org. Die für den Import in Zenodo bereitgestellten Metadaten sind in der zenodo.json hinterlegt. Die Dokumentation der einzelnen Metadatenvariablen ist unter https://developers.zenodo.org/#representation nachlesbar.
In der zenodo.json ist neben dem Publikationsdatum ("publication_date"
) auch der Datenstand in folgendem Format enthalten (Beispiel):
"dates": [
{
"start": "2023-09-11T15:00:21+02:00",
"end": "2023-09-11T15:00:21+02:00",
"type": "Collected",
"description": "Date when the Dataset was created"
}
],
Zusätzlich beschreiben wir tabellarische Daten mithilfe des Data Package Standards. Ein Data Package ist eine strukturierte Sammlung von Daten und zugehörigen Metadaten, die den Austausch und die Wiederverwendung von Daten erleichtert. Es besteht aus einer datapackage.json-Datei, die zentrale Informationen wie die enthaltenen Ressourcen, ihre Formate und Schema-Definitionen beschreibt.
Der Data Package Standard wird von der Open Knowledge Foundation bereitgestellt und ist ein offenes Format, das eine einfache, maschinenlesbare Beschreibung von Datensätzen ermöglicht.
Die Liste der in diesem Repository enthaltenen Daten ist in folgender Datei hinterlegt:
Für tabellarische Daten definieren wir zusätzlich ein Table Schema, das die Struktur der Tabellen beschreibt, einschließlich Spaltennamen, Datentypen und Validierungsregeln. Diese Schema-Dateien finden sich unter:
Offene Forschungsdaten des RKI werden auf Zenodo.org, github.com, OpenCoDE und Edoc.rki.de bereitgestellt:
- https://zenodo.org/communities/robertkochinstitut
- https://github.com/robert-koch-institut
- https://gitlab.opencode.de/robert-koch-institut
- https://edoc.rki.de/
Der Datensatz "Abwassersurveillance AMELAG" ist lizenziert unter der Creative Commons Namensnennung 4.0 International Public License | CC-BY 4.0 International.
Die im Datensatz bereitgestellten Daten sind, unter Bedingung der Namensnennung des Robert Koch-Instituts als Quelle, frei verfügbar. Das bedeutet, jede Person hat das Recht die Daten zu verarbeiten und zu verändern, Derivate des Datensatzes zu erstellen und sie für kommerzielle und nicht kommerzielle Zwecke zu nutzen. Weitere Informationen zur Lizenz finden sich in der LICENSE bzw. LIZENZ Datei des Datensatzes.