Concentraciones armonizadas de nitrógeno y fósforo en la cuenca del río Mississippi/Atchafalaya de 1980 a 2018

Blog

HogarHogar / Blog / Concentraciones armonizadas de nitrógeno y fósforo en la cuenca del río Mississippi/Atchafalaya de 1980 a 2018

Jul 25, 2023

Concentraciones armonizadas de nitrógeno y fósforo en la cuenca del río Mississippi/Atchafalaya de 1980 a 2018

Datos científicos volumen 9, número de artículo: 524 (2022) Citar este artículo 1550 Accesos 1 Citas 2 Detalles de Altmetric Metrics El monitoreo de la calidad del agua puede informar las políticas que abordan la contaminación;

Datos científicos volumen 9, número de artículo: 524 (2022) Citar este artículo

1550 Accesos

1 Citas

2 altmétrico

Detalles de métricas

El monitoreo de la calidad del agua puede informar políticas que aborden la contaminación; sin embargo, las prácticas inconsistentes de medición y presentación de informes hacen que muchas observaciones sean incomparables entre masas de agua, lo que impide los esfuerzos por caracterizar patrones espaciales y tendencias a largo plazo en la contaminación. Aquí, armonizamos 9,2 millones de lecturas de monitores disponibles públicamente de 226 autoridades distintas de monitoreo del agua que abarcan la totalidad de la cuenca del río Mississippi/Atchafalaya (MARB) en los Estados Unidos. Creamos el Conjunto de datos estandarizados de nitrógeno y fósforo (SNAPD), un novedoso conjunto de datos de 4,8 millones de observaciones estandarizadas de compuestos que contienen nitrógeno y fósforo de 107 mil sitios durante el período 1980-2018. Hasta donde sabemos, este conjunto de datos representa el registro más grande de estos contaminantes en una sola red fluvial donde las mediciones se pueden comparar en el tiempo y el espacio. Abordamos numerosos problemas bien documentados asociados con la presentación de informes y la interpretación de estos datos sobre la calidad del agua, que hasta ahora no se habían abordado a esta escala, y nuestro enfoque para el procesamiento de datos sobre la calidad del agua se puede aplicar a otros compuestos de nutrientes y regiones.

Mediciones)

Compuesto de nitrógeno • compuesto de fósforo

Tipo(s) de tecnología

monitores de agua

Característica de la muestra: entorno

cuerpo de agua • cuenca hidrográfica • cantidad de átomos de nitrógeno en el agua • contaminación del agua • monitoreo de la contaminación • cantidad de fósforo en el agua

Característica de la muestra: ubicación

río, Estados Unidos de América contiguos • Cuenca del río Mississippi/Atchafalaya

La gestión de la contaminación del agua requiere la capacidad de medir la cantidad de contaminación en las vías fluviales para garantizar la eficacia de la mitigación de la contaminación. Sin embargo, las prácticas inconsistentes de presentación de informes sobre la calidad del agua limitan dichos esfuerzos en muchos sistemas fluviales de todo el mundo. A menudo, existen diferentes prácticas de muestreo y presentación de informes entre las autoridades locales que recopilan e informan mediciones de la calidad del agua a lo largo de una sola red fluvial, o las prácticas de una sola autoridad en un sitio de muestreo determinado pueden cambiar con el tiempo. En los casos en que la recopilación y presentación de informes de estas mediciones no están estandarizadas de antemano, el conjunto de datos combinado resultante puede contener inconsistencias que impidan el análisis a gran escala de patrones espaciales y tendencias en la contaminación del agua, ya que no todas las observaciones son comparables entre sí. Por lo tanto, armonizar los datos sobre la calidad del agua recopilados dentro de una red fluvial es un primer paso necesario para comprender cómo los contaminantes ingresan y se mueven a lo largo de un sistema fluvial. Aquí, definimos la armonización como el proceso de creación de un conjunto de datos estandarizado y con control de calidad que puede usarse para análisis de tendencias, estudios comparativos y modelado.

La incomparabilidad de los datos sobre la calidad del agua plantea un grave desafío para la gestión de la contaminación del agua de fuentes difusas (NPS), que implica el transporte difuso de contaminantes a las vías fluviales y está predominantemente asociada con actividades humanas como la agricultura1,2. En los Estados Unidos, los contaminantes a base de nitrógeno y fósforo asociados con fertilizantes y desechos ganaderos son la mayor fuente de contaminación del agua por NPS y pueden provocar degradación ambiental, destrucción de ecosistemas y resultados perjudiciales para la salud humana1,2,3. A menudo, estos contaminantes se originan en extensas regiones terrestres antes de ingresar a los sistemas fluviales que pueden ser monitoreados por numerosas autoridades4. Para mitigar la contaminación por NPS y sus efectos, los reguladores necesitan datos confiables y estandarizados sobre la calidad del agua de muchas autoridades diferentes de monitoreo del agua para medir la gravedad del problema y evaluar las tendencias temporales y espaciales dentro de una red fluvial.

Nos centramos aquí en armonizar los registros de contaminantes NPS comunes en toda la cuenca del río Mississippi/Atchafalaya (MARB) de EE. UU., que cubre 3,2 millones de kilómetros cuadrados (aproximadamente el 40 % de la tierra en los EE. UU. continentales) y cruza 31 fronteras estatales, lo que lo convierte en el río más grande. cuenca en Estados Unidos y la cuarta más grande a nivel mundial (Fig. 1)2,5. El MARB se ha visto gravemente afectado por los contaminantes del agua NSP desde al menos la década de 1970 y ha sufrido altos niveles de escorrentía agrícola. Esta escorrentía ha resultado en proliferación de algas, eutrofización y condiciones anóxicas que dañan ampliamente los ecosistemas, reducen la productividad de muchas industrias dependientes del mar y pueden ser tóxicas para los humanos y la vida silvestre6,7,8. Las grandes cantidades de contaminación del agua por NPS transportadas por el MARB drenan hacia el Golfo de México, formando una zona muerta que cubre áreas tan grandes como 15,000 millas cuadradas9,10. La zona muerta cuesta más de 2.400 millones de dólares (en dólares de 2018) cada año debido a los daños causados ​​a la pesca y al hábitat marino en el Golfo11.

Cuenca del río Mississippi/Atchafalaya y red fluvial26,27.

En Estados Unidos, cientos de organizaciones de monitoreo del agua, que van desde agencias locales hasta entidades tribales, estatales, regionales y federales, han recopilado información sobre la calidad del agua en los 3,5 millones de millas de vías fluviales del país, algunas desde principios del siglo XIX12,13. En 2012, el Servicio Geológico de los Estados Unidos (USGS), la Agencia de Protección Ambiental de los Estados Unidos (EPA) y el Consejo Nacional de Monitoreo de la Calidad del Agua establecieron conjuntamente el Portal de Calidad del Agua (WQP), una base de datos que sirve como el mayor punto de acceso para información pública. calidad del agua disponible. El WQP recopila datos de numerosas fuentes, incluido el Sistema Nacional de Información sobre el Agua (NWIS) del USGS, el Almacén de datos de ALMACENAMIENTO y Recuperación (STORET) de la EPA y la Base de datos de investigación agrícola sobre el mantenimiento de las cuencas hidrográficas de la Tierra del Servicio de Investigación del Departamento de Agricultura de los Estados Unidos (USDA). Sistema (ADMINISTRADORES)14,15. Al momento de escribir este artículo, el WQP contenía datos sobre la calidad del agua que se remontan a 1892 de más de 900 organizaciones, reportando más de 342 millones de registros en más de 900,000 sitios de muestreo de agua en los 50 estados14. Si bien el WQP tiene el potencial de ser un recurso invaluable para evaluar los problemas de calidad del agua en todo el país, la base de datos carece de métodos estandarizados para monitorear, informar y almacenar datos sobre la calidad del agua13,15.

Específicamente, algunos detalles son críticos para interpretar con precisión las muestras de calidad del agua, como las unidades de medida (p. ej., mg/L o ppm), la forma química del nutriente (p. ej., nitrato o nitrógeno) y la fracción de la muestra (p. ej., filtrada o sin filtrar), entre otros15. Sin estandarizar estos detalles, es posible que los usuarios secundarios, como investigadores y formuladores de políticas, no puedan utilizar los datos para identificar y comparar tendencias en una región donde varias organizaciones recolectan muestras de agua. Un estudio encontró que en una muestra de 25 millones de registros de nutrientes de 488 organizaciones estadounidenses que miden datos sobre la calidad del agua desde 1899, el 58% no pudo interpretarse ni utilizarse debido a la falta de estandarización entre las organizaciones. La recuperación de esta “pérdida” de datos se ha valorado en 12 mil millones de dólares (en dólares de 2016), una cifra basada en la inversión de las organizaciones de recursos hídricos de EE. UU. en la recolección y muestreo de la calidad del agua15.

En este artículo, recuperamos y armonizamos datos de calidad del agua del WQP de 136,277 sitios de monitoreo ubicados dentro del MARB que miden compuestos de nutrientes que contienen nitrógeno (N) y fósforo (P) entre 1980 y 2018. Nuestro objetivo fue construir una muestra completa de observaciones que eran comparables en el tiempo y el espacio. Nuestro proceso de recopilación y armonización de datos siguió las mejores prácticas para eliminar y remediar inconsistencias entre y dentro de las organizaciones, como lo detallan organizaciones clave de monitoreo de la calidad del agua, incluidas la EPA, el USGS y el USDA14. Cuando no hubo información suficiente para abordar estas inconsistencias, descartamos o marcamos estas observaciones.

Aquí, detallamos nuestra construcción de nuestro conjunto de datos armonizados sobre la calidad del agua, denominado Conjunto de datos estandarizados de nitrógeno y fósforo (SNAPD), que se puede utilizar para analizar la contaminación de fuentes difusas durante un lapso de cuatro décadas en el MARB. A pesar de la disponibilidad de mejores prácticas y los desafíos conocidos asociados con los datos no estandarizados sobre la calidad del agua, no conocíamos ningún otro esfuerzo para estandarizar estos datos a esta escala. Hasta donde sabemos, esta es la primera vez que se pondrá a disposición del público un conjunto de datos de concentraciones estandarizadas de calidad del agua de N y P de múltiples décadas de observaciones en todo el MARB. Nuestros métodos se pueden aplicar a otros datos de monitoreo de la calidad del agua para abordar preguntas de investigación sobre la contaminación del agua que requieren datos estandarizados de fuentes dispares. Además, nuestro conjunto de datos tiene una serie de usos potenciales, incluido el análisis del estado actual y las tendencias espaciales y temporales a largo plazo de la calidad del agua de ríos y arroyos, la evaluación de brechas en el monitoreo en todo el MARB, el modelado de la calidad del agua en toda la cuenca para ayudar a planificar para futuras necesidades de monitoreo e informar sobre la reglamentación y permisos federales. Esperamos que los investigadores, los administradores del agua y las agencias gubernamentales a nivel local, estatal y federal puedan beneficiarse del acceso a datos armonizados sobre la calidad del agua del MARB que sean comparables en el tiempo y el espacio.

La sección de Métodos se divide en dos subsecciones: (i) Fuente y recuperación de datos, y (ii) Armonización de datos.

Seleccionamos y recuperamos datos de un total de 31 compuestos de nutrientes a base de N y P asociados principalmente con la escorrentía agrícola del WQP. Para cada compuesto de nutrientes, filtramos los datos a muestras de calidad del agua medidas dentro de los límites geográficos del MARB y tomadas entre 1980 y 2018. Teniendo en cuenta estos criterios, recuperamos 9,217,921 observaciones únicas de la calidad del agua de 136,277 sitios de monitoreo del agua (Tabla 1).

Recopilamos datos sobre la calidad del agua de 226 organizaciones. Estas observaciones requirieron una amplia armonización de los metadatos tanto a nivel de muestra como a nivel de resultados. Los metadatos a nivel de muestra contienen una jerarquía de información asociada con la recolección de una muestra de agua de una fuente de agua, como el sitio donde se tomó la muestra, la fecha y hora, y si la muestra se tomó del agua o del suelo. Luego se puede analizar una muestra de agua determinada para detectar la presencia de múltiples compuestos de nutrientes. Los metadatos a nivel de resultados contienen información específica del compuesto nutritivo medido en una muestra determinada, como la concentración del compuesto, el estado de filtración (también conocido como fracción de muestra), el método analítico utilizado para determinar la forma química y la detección. límite (cuando corresponda), entre otra información (Fig. 2)15.

Observación de la calidad del agua, desde el muestreo hasta los resultados.

Para informar nuestro proceso de armonización, utilizamos documentación de la Guía de mejores prácticas de nutrientes de Water Quality eXchange (WQX) para identificar y abordar cualquier inconsistencia de los datos y la complementamos según sea necesario para problemas específicos de calidad de los datos13,14,15. Aquí, proporcionamos antecedentes adicionales sobre elementos de metadatos específicos que requieren armonización, incluida la forma y denominación de los nutrientes, el valor y las unidades de concentración, los códigos y límites de detección, el tipo de resultado, el tipo de actividad y la fracción de muestra. También destacamos los desafíos asociados con la estandarización de estos metadatos y describimos cómo se armonizaron los metadatos, incluidas las suposiciones que hicimos.

Como parte de nuestro proceso de armonización, creamos dos conjuntos de datos para permitir a los usuarios secundarios elegir cuál se adapta mejor a las necesidades de su proyecto. El primer conjunto de datos, denominado SNAPD, es el resultado final de nuestro proceso de armonización y ha eliminado observaciones que no cumplían con nuestros criterios de armonización. SNAPD contiene dos indicadores de datos: outlier_flag que indica si una observación podría ser un posible valor atípico; e impute_flag que indica si una observación no fue detectada y su valor de concentración fue imputado posteriormente. Mantuvimos estas banderas en nuestro conjunto de datos armonizados ya que pueden ser útiles para análisis específicos.

El segundo conjunto de datos, denominado WQP_to_SNAPD_flagged, conserva todas las observaciones sin procesar que se recuperaron originalmente del WQP. En lugar de descartar datos que no cumplían con nuestros criterios de armonización, creamos indicadores de datos para cada observación sin procesar. Estos indicadores de datos (es decir, "eliminar" o "mantener") indican cómo armonizar las observaciones sin procesar después de nuestro proceso, si se desea. Debido a que WQP_to_SNAPD_flagged conserva todas las observaciones y metadatos sin procesar, los futuros usuarios tienen la opción de comunicarse directamente con las organizaciones para encontrar los metadatos faltantes, aceptar las decisiones y suposiciones en nuestro proceso de armonización o elegir los diferentes pasos que mejor se adapten a sus objetivos de investigación.

En este documento, nos centramos en describir nuestro proceso de armonización para producir SNAPD y también proporcionamos información adicional en la sección Registros de datos para nuestro conjunto de datos secundario, WQP_to_SNAPD_flagged.

Definimos un sitio de monitoreo de agua como la combinación única de un Identificador de Ubicación de Monitoreo (MLI) y coordenadas que indican la ubicación donde se tomó una muestra de la calidad del agua. Cuando fue posible, armonizamos las coordenadas y los MLI como se detalla a continuación.

Dentro de nuestro conjunto de datos, hubo 54,578 observaciones correspondientes a 248 MLI que fueron marcadas por tener más de un conjunto de coordenadas. Todos los MLI marcados tenían exactamente dos pares de coordenadas, por lo que para cada MLI marcado, evaluamos la distancia euclidiana entre los pares de coordenadas. La distancia entre los pares de coordenadas osciló entre menos de un metro y más de 50.000 metros para un MLI determinado. El mismo MLI puede tener coordenadas diferentes debido a una variedad de razones que requerirían mover un lugar de muestreo a una distancia pequeña, por ejemplo, erosión fluvial, cambios en los patrones de flujo, daños al equipo de monitoreo o un cambio en la gestión del sitio de una organización a otra.

En muchos contextos, resulta útil consolidar las coordenadas de un único MLI si las variaciones en las coordenadas no sugieren cambios significativamente grandes en la posición. Sin embargo, grandes cambios en la posición de las coordenadas pueden representar cambios materiales en la ubicación del muestreo que pueden necesitar ser tenidos en cuenta en cualquier análisis. Por lo tanto, si un MLI tenía un par de coordenadas que estaba a más de 400 metros de distancia, asumimos que estas coordenadas se referían a diferentes sitios a lo largo de un río y dejamos ambos pares de coordenadas para un MLI determinado como estaban. Sin embargo, cuando ambas coordenadas para un MLI determinado estaban a menos de 400 metros de distancia, armonizamos los datos de modo que el MLI solo tuviera una coordenada única. Específicamente, asignamos a cada MLI las coordenadas correspondientes que aparecieron por primera vez en los datos, es decir, etiquetamos cada par de coordenadas único para un MLI determinado con su respectivo número de fila y elegimos las coordenadas de la primera fila (Tabla 2: Paso 2).

Dentro de nuestro conjunto de datos, hubo 965,724 observaciones correspondientes a 6,552 coordenadas únicas que fueron marcadas por tener más de un MLI. El número de MLI asociados con un par de coordenadas único osciló entre dos y 74. Los MLI pueden cambiar si una organización de monitoreo del agua inicia un nuevo proyecto o si cambia la organización responsable del muestreo de un sitio determinado. Armonizamos los datos de manera que a una coordenada única solo se le asignara un MLI, asegurando así que hubiera un registro continuo de datos sobre la calidad del agua en un sitio determinado. Identificamos observaciones que tenían múltiples MLI asociados con una coordenada única y conservamos el MLI original en caso de que un usuario secundario necesitara esta información. Elegimos el MLI armonizado asignando números de fila a cada MLI único para una coordenada determinada y luego elegimos el MLI de la primera fila (Tabla 2: Paso 2).

Para nuestro conjunto de datos, utilizamos una combinación de tres elementos de metadatos (el nombre del nutriente, las unidades de concentración y el método analítico) para identificar la forma química de un nutriente. La forma química de un nutriente indica si la concentración de un compuesto de nutriente se informa como un elemento único, por ejemplo, nitrógeno (N), o como un compuesto, por ejemplo, nitrato (NO3). Dependiendo de la forma química de un compuesto nutritivo, las concentraciones reportadas pueden interpretarse de manera muy diferente debido a la diferente masa por unidad de volumen. Para los nutrientes reportados en su forma de nutriente elemental, las concentraciones se reportan usando el peso elemental, que es la concentración de un solo átomo en un nutriente, por ejemplo, solo el N en NO3. Por el contrario, las concentraciones de nutrientes reportadas en su forma de nutriente molecular utilizan el peso molecular, que es la concentración del compuesto nutritivo, por ejemplo, nitrato o NO3. Asumir la forma química incorrecta de un nutriente puede dar lugar a una interpretación incorrecta del valor de concentración, introduciendo así errores en cualquier cálculo15.

Cuando fue posible, primero recuperamos la forma química de un nutriente a partir del nombre del nutriente mismo. Por ejemplo, una medición de la concentración de nitrato en la calidad del agua se puede informar de dos maneras: forma elemental (es decir, nitrato como nitrógeno o nitrato como N) o forma molecular (es decir, nitrato como nitrato o nitrato como NO3). Ambas convenciones de nomenclatura indican la forma química del nutriente y, por tanto, la masa de nitrógeno que debe tenerse en cuenta en la medición de concentración respectiva. Para las observaciones en las que se identificó la forma química del nutriente, armonizamos los datos convirtiendo los nutrientes a su forma elemental, ya sea como N o como P, según el compuesto nutritivo (Tabla 2: Paso 5 y Paso 12). Sin embargo, en algunos casos, no pudimos determinar la forma del nutriente según el nombre del nutriente. Como resultado, confiamos en el método de laboratorio o en unidades de concentración para determinar la forma del nutriente. Utilizamos una variedad de recursos, como el Índice Nacional de Métodos Ambientales (NEMI), para identificar la forma química de un compuesto. Por ejemplo, se puede utilizar un método de laboratorio para medir nitrato, conocido como 4500-NO3-E en NEMI, para determinar la concentración de nitrato en agua y se informa en unidades de mg/L como N16. Por lo tanto, pudimos utilizar metadatos que indicaron el método de laboratorio para determinar la forma química en la que se informó una medición de concentración. Cuando se determinó la forma química de un nutriente, convertimos de forma molecular a elemental usando factores de conversión del WQX (Tabla 3). )17. Eliminamos observaciones de nuestro conjunto de datos armonizados cuando no pudimos determinar la forma química del nutriente a partir de los metadatos.

Limitamos nuestro conjunto de datos a observaciones que se tomaron muestras del agua. Si se indicó otro tipo de medio de muestra (p. ej., suelo, aire), descartamos estas observaciones (Tabla 2: Paso 3).

Para comparar los valores de concentración de la calidad del agua entre sitios y a lo largo del tiempo, convertimos los valores de concentración a una unidad estandarizada de miligramos por litro (mg/L) como N o P, según el nutriente. Para hacerlo, utilizamos metadatos de unidades de concentración para identificar observaciones que tenían unidades interpretables. En algunos casos, no pudimos convertir observaciones a las que les faltaban unidades de concentración o valores de concentración faltantes y, como resultado, eliminamos estas observaciones de nuestro conjunto de datos (Tabla 2: Paso 6, Paso 7 y Paso 12). Sin embargo, los valores de concentración faltantes podrían significar que no había ningún valor asociado con una medición de calidad del agua determinada y, por lo tanto, la observación realmente faltaba, o que la observación no se detectó. Los datos no detectados fueron un caso especial de datos faltantes, que se analiza en la siguiente sección.

Las observaciones con concentraciones que se encuentran por debajo de un límite de detección son una forma de datos censurados conocidos como "no detectados", ya que su verdadero valor de concentración se encuentra entre cero y el límite de detección de un método de procesamiento de muestra determinado. Un límite de detección no está determinado por una restricción química inherente a la muestra de agua; más bien, cada límite es específico del método de prueba y del equipo utilizado por un laboratorio para determinar la concentración de un nutriente. Las no detección se informan cuando los métodos analíticos de un laboratorio no pueden distinguir entre una concentración cero y una concentración positiva distinta de cero pero por debajo del límite de detección15,17,18. En general, dependiendo de la organización de seguimiento, las observaciones que no se detectan se notifican con valores de concentración iguales a cero, un número negativo o no se notifican en absoluto. Las organizaciones también pueden informar códigos de detección junto con valores de concentración que no se detectan para indicar detalles relevantes sobre el método analítico utilizado para determinar la concentración y su correspondiente límite de detección15,17. Debido a que los métodos analíticos de laboratorio varían entre las organizaciones de monitoreo y dentro de ellas y a lo largo del tiempo, puede haber muchos límites de detección asociados con un determinado compuesto nutritivo.

Para nuestro conjunto de datos, identificamos no detectados si se cumplían dos condiciones: (1) si el valor de concentración informado era cero, negativo o faltaba y (2) si el código de detección y los metadatos del límite de detección indicaban que la observación no era detectar17. A continuación, creamos una bandera que consolidaba los metadatos indicando qué observaciones no se detectaron. Cuando el código de detección o los metadatos del límite de detección indicaron que una observación no se detectó debido a contaminación o problemas de control de calidad con la muestra, descartamos estas observaciones (Tabla 2: Paso 8).

Para nuestro proceso de armonización, imputamos observaciones no detectadas, y nuestro procedimiento de imputación requirió que cada observación no detectada tuviera un límite de detección asociado (detallado en la siguiente sección). Si se proporcionó un límite de detección para una observación no detectada, utilizamos ese valor. En los casos en los que se identificó una observación como no detectada pero no se proporcionó un límite de detección, aproximamos un límite de detección asignando un límite de detección común basado en nuestros datos para cada año-nutriente (Tabla 2: Paso 14). Adoptamos un enfoque conservador al suponer que para estas observaciones, los no detectados se midieron utilizando la metodología menos sensible que se registró en nuestra muestra en estas organizaciones.

Específicamente, cuando no se informó ningún límite de detección para una observación sin detección, primero identificamos la medida de concentración mínima informada para cada combinación de organización, nutriente y año, entre aquellas organizaciones que informan no detectadas sin un límite de detección en ese año. Interpretamos que esta concentración mínima es mayor o igual al límite de detección del método utilizado por la organización respectiva. A continuación, tomando este conjunto de valores de concentración mínima en todas las diferentes organizaciones para el mismo año-nutriente, identificamos el valor más grande y lo asignamos como límite de detección común a todas las observaciones sin detección a las que les faltaba un límite de detección para ese nutriente. año. Al seleccionar el valor más grande, asumimos que estas observaciones sin detección se midieron utilizando el método menos sensible disponible. Esto permitió que el límite de detección variara entre diferentes nutrientes-año, ya que los métodos de laboratorio utilizados para medir la concentración podían variar entre nutrientes y con el tiempo.

Una vez que identificamos las observaciones no detectadas que tenían un límite de detección, imputamos sus valores de concentración. Adoptamos este enfoque, con base en análisis previos19, en lugar de aplicar sustituciones alternativas que a veces se aplican, tales como: dejar los no detectados como faltantes; dejarlos caer; o sustituir en cero, la mitad del límite de detección o el límite de detección los valores de concentración faltantes18. Estudios anteriores han demostrado que estas simples sustituciones pueden introducir sesgos en los datos; mientras que el uso de imputación estadística para manejar datos no detectados se considera más preciso para calcular estadísticas sobre datos con datos no detectados19. Utilizamos un método de imputación bayesiano univariante para generar valores de concentración para cualquier observación sin detección, utilizando una regresión de suma cuantil ponderada en el marco de imputación múltiple19,20. Los límites de detección utilizados para esta imputación se basaron en los límites de detección proporcionados o aproximados (consulte la sección No detectados, códigos de detección y límites de detección para el procedimiento de aproximación). Específicamente, empleamos la función impute.univariate.bayesian.mi del paquete miWQS en Comprehensive R Archive Network (CRAN)20, que utiliza imputación bayesiana univariada para estimar los valores de concentración para una combinación determinada de sitio, nutriente y año. Solo utilizamos valores de observaciones muestreadas en un sitio determinado para informar los valores imputados en ese sitio.

Imputamos valores no detectados para cada conjunto de observaciones de sitio-nutrientes-año en nuestro conjunto de datos que tenían menos del 80% de sus observaciones identificadas como no detectadas. Elegimos el 80% como límite con base en los indicadores de desempeño de Hargarten & Wheeler, 2020; sin embargo, algunos análisis identificaron el 50% como un límite más conservador19. Para cada una de estas combinaciones de sitio, nutrientes y año, construimos diez conjuntos de datos imputados (K = 10)21,22. Promediamos los valores de los diez conjuntos de datos imputados para generar un conjunto de datos final con un valor de concentración imputado por observación no detectada. Para las combinaciones de sitio, nutrientes y año en las que más del 80 % de sus observaciones estaban marcadas como no detectadas, dejamos los valores no detectados como N/A y creamos una bandera (a la que llamamos impute_flag), para que los usuarios secundarios sepan qué observaciones no se detectaron y posteriormente se imputaron (Tabla 2: Paso 15).

Los metadatos de las fracciones de muestra describen el estado de filtración de las observaciones de la calidad del agua y pueden informarse como "disueltos", "totales", "filtrados" o "sin filtrar", entre otras categorías. Esta información indica la composición de partículas (sedimentos) versus materia acuosa (líquida) de una observación de la calidad del agua. Dependiendo de la descomposición entre partículas y materia acuosa, los valores de concentración para el mismo nutriente pueden ser muy diferentes si la fracción de muestra está "sin filtrar" o "filtrada". 13,15,17 Además, los metadatos de la fracción de muestra son fundamentales para la interpretación si se nombran las convenciones no indican la forma del nutriente13,15.

Actualmente, hasta donde sabemos, no existen estándares de informes ampliamente adoptados para los metadatos de fracciones de muestra en todas las organizaciones, y los metadatos utilizados para describir el estado de filtración de una observación de la calidad del agua para una organización pueden no ser utilizados de la misma manera por una organización diferente. Por ejemplo, las organizaciones de monitoreo del agua pueden usar el término “total” de manera diferente, lo que lleva a una interpretación errónea del valor de concentración. En los casos en que "total" describe el estado de filtración de una observación, "total" indica que una muestra contiene tanto la porción acuosa como la porción particulada de una forma de nutriente (por ejemplo, nitrato) en el valor de concentración. Esto se describiría más claramente como fracción de muestra "sin filtrar". En otros casos no relacionados con el estado de filtración, algunas organizaciones utilizan “total” para indicar que una muestra contiene múltiples formas químicas de nutrientes, como amoníaco (NH3) y nitrógeno orgánico (N), y que estas formas químicas de nutrientes se suman para encontrar el total. concentración de la forma elemental del nutriente (p. ej., nitrógeno total). Por lo tanto, los metadatos de las fracciones de muestra indican más claramente cómo interpretar una observación de la calidad del agua13,15.

Las concentraciones pueden no ser comparables dado el mismo nutriente con diferentes fracciones de muestra. En nuestro conjunto de datos, eliminamos las observaciones si no pudimos determinar tanto la forma del nutriente como la fracción de muestra de una observación. Sin embargo, cuando fue posible, armonizamos los nombres de los nutrientes para incluir la fracción de muestra, como "nitrógeno total filtrado" o "amoníaco sin filtrar" (Tabla 2: Paso 9 y Paso 13). Esta nueva categorización nos permitió comparar concentraciones de nutrientes similares y fracciones de muestra. Además, identificamos y descartamos observaciones que tenían una concentración filtrada igual o mayor que la concentración sin filtrar para una muestra determinada (mismo sitio, fecha, nutriente) (Tabla 2: Paso 19)23.

Los metadatos del tipo de actividad describen la actividad de muestreo que genera un resultado de calidad del agua, como una medición de campo, una muestra de laboratorio de control de calidad, una muestra de rutina, una muestra compuesta o una réplica de laboratorio, entre otras. Los tipos de actividades se dividieron en dos categorías: (1) tipos de actividades que indican que se tomó una medición de la calidad del agua en un sitio específico de monitoreo de la calidad del agua en el campo, y (2) tipos de actividades que no se tomaron en un sitio de muestreo en el campo y fueron a menudo asociado con controles de calidad de laboratorio. Usamos definiciones de la Guía del usuario de WQP para identificar tipos de actividades que no requerían que una muestra de calidad del agua tuviera una ubicación de monitoreo específica y eliminamos estas observaciones de nuestro conjunto de datos (Tabla 2: Paso 10)13,15.

Los metadatos del tipo de resultado describen el enfoque utilizado para determinar el valor de concentración de un resultado. Por ejemplo, los tipos de resultados pueden ser mediciones directas, mediciones calculadas o estimaciones de laboratorio. Utilizamos definiciones proporcionadas por la Guía del usuario de WQP para determinar qué tipos de resultados eran indicativos de un método que podría introducir una fuente adicional de error en el proceso de presentación de datos13,15. Específicamente, eliminamos de nuestro conjunto de datos las observaciones con tipos de resultados que contenían los términos "aproximación" o "conjetura fundamentada" (Tabla 2: Paso 11).

Dado que el objetivo del WQP es recopilar muestras discretas en lugar de muestras subdiarias de alta frecuencia23, optamos por crear un conjunto de datos a nivel diario. Como parte de nuestro proceso de armonización, definimos y abordamos diferentes tipos de observaciones duplicadas (Tabla 4) para garantizar que cada punto de datos restante fuera exclusivo de un nutriente, fracción de muestra, sitio de monitoreo del agua y fecha (Tabla 2: Paso 12 y Paso 14).

Identificamos valores atípicos que probablemente se debieron a errores de medición o de informe, pero mantuvimos estos valores en nuestro conjunto de datos final, SNAPD. Para un nutriente determinado y una fracción de muestra, marcamos valores de concentración que estaban por encima del percentil 99 o cayeron por debajo del percentil 1 en todos los años de nuestra muestra, bajo la variable outlier_flag (Tabla 2: Paso 16).

Los nutrientes de nitrógeno y fósforo a veces se pueden combinar usando sus fracciones de muestra para determinar el nitrógeno total o el fósforo total en una fecha determinada para un sitio determinado. Cuando fue posible, los nutrientes se combinaron utilizando la orientación del Consejo Nacional de Monitoreo del Agua para mejorar la comparabilidad de las observaciones en el tiempo y el espacio15,23. Por ejemplo, combinamos nitrógeno disuelto (formas mixtas) con nitrógeno suspendido y categorizamos esta combinación como nitrógeno total. De manera similar, agregamos los valores de concentración de fósforo disuelto y fósforo particulado y categorizamos el resultado como fósforo total24. Las combinaciones de nutrientes y sus fracciones de muestra crearon 352 observaciones adicionales en sitios que originalmente no habían medido el nutriente total resultante en la fecha indicada (Tabla 2: Paso 18).

Hemos puesto a disposición del público nuestro conjunto de datos armonizado final, SNAPD, en HydroShare25. Las siguientes variables se incluyeron en el conjunto de datos armonizado final:

medio: el medio en el que se tomó la muestra (es decir, agua)

st_abbr: el nombre abreviado del estado de EE. UU. en el que se tomó la muestra.

st_name: el nombre completo del estado de EE. UU. en el que se tomó la muestra.

org_name: nombre de la organización o agencia responsable de informar una muestra de agua determinada. Todos los nombres de las organizaciones fueron estandarizados, por ejemplo, cuando hay múltiples grafías o abreviaturas que se refieren a la misma organización de monitoreo del agua.

N_or_P: variable para indicar si la base nutritiva es nitrógeno o fósforo.

nutrient_name: nombre del compuesto nutritivo armonizado, por ejemplo, amoníaco.

fracción_muestra: descripción del estado de filtración del resultado, por ejemplo, filtrado.

nutrient_parameter: nombre de nutriente armonizado combinado con la fracción de muestra, por ejemplo, ammonia_filtered.

año: año calendario en que se tomó la muestra.

fecha: fecha en la que se tomó la muestra (formato: AAAA-MM-DD).

MLI: abreviatura de Identificador de ubicación de monitoreo (MLI), que es un designador utilizado para describir el nombre, número o código único asignado para identificar la ubicación de monitoreo. Esta variable es un MLI ajustado a partir de los datos sin procesar, de modo que cada MLI es un identificador único asignado a un único par de coordenadas donde se recolectaron muestras de calidad del agua y se informaron los resultados (consulte la sección Creación de sitios únicos de monitoreo del agua).

conc: valor de concentración para un parámetro de nutriente determinado (reportado o imputado).

conc_units: unidades de concentración reportadas o convertidas en miligramos por litro (mg/L).

outlier_flag: los valores posibles son “not_flagged_as_outlier”, “potential_outlier” o “NA”. “not_flagged_as_outlier” indica que la concentración de una observación estuvo dentro de los percentiles 1 y 99 para un nutriente determinado; “potential_outlier” indica que la concentración de una observación estuvo por debajo del percentil 1 o por encima del percentil 99 para un nutriente determinado; y el valor “NA” indica que faltaba el valor de concentración (porque no se detectó y no se imputó), por lo que no se realizó ninguna determinación del estado del valor atípico.

num_obs_per_date: número entero que representa un recuento de cuántas mediciones de concentración se combinaron mediante un promedio en la misma fecha, para el mismo sitio, nutriente y fracción de muestra.

impute_flag: los valores posibles son "imputados", "detectados" o "calculados_por_combinación". “imputado” indica que la observación se identificó directamente como no detectada y se imputaron valores de concentración; “detectado” indica que la observación se midió directamente; “calculated_by_combining” indica que la observación se calculó combinando diferentes nutrientes y fracciones de muestra.

DL: límite de detección para no detectados que fue proporcionado o aproximado. Esta columna solo contiene valores para las concentraciones no detectadas que fueron imputadas.

DL_units: las unidades para el valor límite de detección. Esta columna solo contiene valores para las concentraciones no detectadas que fueron imputadas.

x: coordenada de longitud para el MLI (ubicación del sitio) único en metros (proyección cónica de área igual de Albers contiguos de EE. UU., ESRI: 102003).

y: coordenada de latitud para el MLI (ubicación del sitio) único en metros (proyección cónica de área igual de Albers contiguos de EE. UU., ESRI: 102003).

La Tabla 5 muestra el número de sitios y observaciones para cada compuesto que incluimos en el conjunto de datos armonizado final, y la Fig. 3 mapea las ubicaciones de los sitios correspondientes en la red MARB.

Cobertura espacial del SNAPD en el MARB26,27.

Nuestro conjunto de datos secundario marcado, WQP_to_SNAPD_flagged, contiene todas las observaciones sin procesar con indicadores de datos y también está disponible en HydroShare25. Para generar WQP_to_SNAPD_flagged, seguimos el mismo proceso de armonización que SNAPD, excepto que marcamos observaciones en lugar de descartarlas para que los usuarios secundarios puedan decidir más fácilmente qué aspectos de nuestro proceso de armonización son más relevantes para sus intereses. Además, en este conjunto de datos no se abordaron duplicados, ni se combinaron fracciones de muestra para calcular nuevas concentraciones de nutrientes. Los usuarios secundarios pueden armonizar WQP_to_SNAPD_flagged utilizando los indicadores de datos como se detalla en las definiciones de variables a continuación. WQP_to_SNAPD_flagged contiene las siguientes variables:

st_abbr: el nombre abreviado del estado de EE. UU. en el que se tomó la muestra.

st_name: el nombre completo del estado de EE. UU. en el que se tomó la muestra.

org_name: nombre de la organización o agencia responsable de informar una muestra de agua determinada. Todos los nombres de las organizaciones fueron estandarizados, por ejemplo, cuando hay múltiples grafías o abreviaturas que se refieren a la misma organización de monitoreo del agua.

N_or_P: variable para indicar si la base nutritiva es nitrógeno o fósforo.

nutrient_parameter: nombre de nutriente armonizado combinado con la fracción de muestra, por ejemplo, ammonia_filtered.

nutrient_handle: nombre de nutriente prearmonizado, por ejemplo, amoníaco_N_as_N. Esta variable es exclusiva de WQP_to_SNAPD_flagged.

new_MLI: abreviatura de Identificador de ubicación de monitoreo, que es un designador utilizado para describir el nombre, número o código único asignado para identificar la ubicación de monitoreo. Este es un MLI ajustado a partir de los datos sin procesar, de modo que cada MLI es un identificador único asignado a un único sitio donde se recolectaron muestras de calidad del agua y se informaron los resultados. new_MLI corresponde a la variable "MLI" en SNAPD.

new_x: coordenada de longitud ajustada para el MLI (ubicación del sitio) único en metros (proyección cónica de área igual de Albers contiguos de EE. UU., ESRI: 102003); este valor solo difiere del orig_x si se combinaron las coordenadas (consulte combine_coord_flag). new_x corresponde a la variable “x” en SNAPD.

new_y: coordenada de latitud ajustada para el MLI (ubicación del sitio) único en metros (proyección cónica de área igual de Albers contiguos de EE. UU., ESRI: 102003); este valor solo difiere del orig_y si se combinaron las coordenadas (consulte combine_coord_flag). new_y corresponde a la variable “y” en SNAPD.

año: año calendario en que se tomó la muestra.

fecha: fecha en la que se tomó la muestra (formato: AAAA-MM-DD).

hora: hora en la que se tomó la muestra (formato: hh:mm:ss), basándose en una escala de tiempo de 24 horas.

chem_form_flag: los valores posibles incluyen “chem_form_known”, “chem_form_unknown” o “NA”. “chem_form_known” indica que hubo suficientes metadatos para interpretar si la concentración del nutriente se informó en su forma elemental o molecular; “chem_form_unknown” indica que no había metadatos suficientes y no se puede determinar la forma química del nutriente; "NA" indica que la observación no fue marcada porque ya fue marcada en otro paso de armonización como "eliminación". Esta variable es exclusiva de WQP_to_SNAPD_flagged.

new_conc: medida de concentración ajustada para el nutriente que se está analizando. Cuando sea posible, este valor representa la concentración que se ha convertido a forma elemental y mg/L. new_conc corresponde a la variable "conc" en SNAPD.

new_conc_units: unidades de concentración ajustadas reportadas en mg/L como N o mg/L como P. new_conc_units corresponde a la variable “conc_units” en SNAPD.

new_DL: valor límite de detección para observaciones que no se detectan. Esto se informa o se aproxima cuando no se proporciona el límite de detección. new_DL corresponde a la variable "DL" en SNAPD.

new_DL_units: unidades de concentración ajustadas para los límites de detección reportados en mg/L como N o mg/L como P. new_DL_units corresponde a la variable “DL_units” en SNAPD.

ND_flag: una variable que consolida todos los metadatos no detectados de otras columnas. Los valores posibles son "mantener", "ND", "eliminar" o "NA". "mantener" indica que se detectó la concentración; "ND" indica que la observación fue marcada como no detectada; “eliminar” indica que la observación debe descartarse debido a metadatos insuficientes o de mala calidad; "NA" indica que la observación no fue marcada porque ya fue marcada en otro paso de armonización como "eliminación". Esta variable es exclusiva de WQP_to_SNAPD_flagged.

impute_flag: los valores posibles incluyen "dont_impute", "imputar" o "NA". “dont_impute” indica que el valor de concentración no se imputó porque el valor de concentración ya se proporcionó o porque el 80% o más de las observaciones para una determinada fracción de muestra de nutrientes-sitio-año no fueron detectadas; “imputar” indica que se imputó cualquier no detección en una determinada fracción de muestra de nutrientes, sitio-año; "NA" indica que la observación no fue marcada porque ya fue marcada en otro paso de armonización como "eliminación". impute_flag aquí es similar a “impute_flag” en SNAPD, pero tiene diferentes valores posibles porque las fracciones de muestra de nutrientes no se combinaron en WQP_to_SNAPD_flagged.

fracción_muestra: descripción del estado de filtración del resultado, por ejemplo, filtrado.

sample_fraction_flag: los valores posibles son "mantener", "eliminar" o "NA". “conservar” indica que la fracción de muestra se proporcionó directamente como sin filtrar o filtrada o se podría suponer que representa lo mismo (por ejemplo, disuelta o filtrada); “gota” indica que la fracción de muestra no estaba ni sin filtrar ni filtrada ni ninguna variación de la misma (p. ej., sedimento del lecho); "NA" indica que la observación no fue marcada porque ya fue marcada en otro paso de armonización como "eliminación". Esta variable es exclusiva de WQP_to_SNAPD_flagged.

tipo_resultado: una breve descripción del proceso que se utilizó en la determinación del valor de concentración, por ejemplo, real, estimado o calculado. Esta variable se armonizó en SNAPD y se incluye en WQP_to_SNAPD_flagged para proporcionar a los usuarios secundarios los metadatos sin procesar.

result_type_flag: los valores posibles son "mantener", "eliminar" y "NA". “conservar” indica que se proporcionó el tipo de resultado y que fue de calidad razonable; "caída" indica que el tipo de resultado fue "estimado" y puede introducir errores en el valor de concentración informado; "NA" indica que la observación no fue marcada porque ya fue marcada en otro paso de armonización como "eliminación". Esta variable es exclusiva de WQP_to_SNAPD_flagged.

medio: el medio en el que se tomó la muestra (p. ej., agua).

media_flag: los valores posibles son "mantener" o "eliminar". “conservar” indica que la muestra fue tomada en agua; "gota" indica que la muestra se tomó en otro medio además del agua. Esta variable es exclusiva de WQP_to_SNAPD_flagged.

tipo_actividad: texto que describe el propósito de la observación de la calidad del agua, por ejemplo, para el monitoreo del agua o el control de calidad del laboratorio. Esta variable se armonizó en SNAPD y se incluye en WQP_to_SNAPD_flagged para proporcionar a los usuarios secundarios los metadatos sin procesar.

Activity_type_flag: los valores posibles son "mantener", "eliminar" y "NA". “mantener” indica que se proporcionó el tipo de actividad y que la muestra se tomó en un sitio de monitoreo del agua; “gota” indica que el tipo de actividad fue para fines de control de calidad o no se realizó en un sitio de monitoreo del agua; "NA" indica que la observación no fue marcada porque ya fue marcada en otro paso de armonización como "eliminación". Esta variable es exclusiva de WQP_to_SNAPD_flagged.

filt2unfilt_flag: los valores posibles son "mantener", "conc unfilt < = conc filt" o "NA". “mantener” indica que cuando se midieron fracciones de muestra filtradas y sin filtrar en la misma fecha y sitio, la medición de la concentración filtrada fue menor que la concentración sin filtrar en la misma muestra; “conc no filtrada < = conc filtrada” indica que una medición de concentración sin filtrar fue menor o igual a la concentración filtrada en la misma muestra y debe descartarse; “NA” indica que un sitio en particular no midió ambas fracciones de muestra para un nutriente determinado en la misma fecha. Esta variable es exclusiva de WQP_to_SNAPD_flagged.

método_analítico: el número o código de identificación asignado por el editor del método de laboratorio. Esta variable se armonizó en SNAPD y se incluye en WQP_to_SNAPD_flagged para proporcionar a los usuarios secundarios los metadatos sin procesar.

proveedor: el nombre de la base de datos que proporcionó los datos al Portal de Calidad del Agua (por ejemplo, WQX, NWIS, STEWARDS). Esta variable es exclusiva de WQP_to_SNAPD_flagged.

orig_conc: la medida de concentración informada para un compuesto nutritivo determinado en los datos sin procesar. Esta variable es exclusiva de WQP_to_SNAPD_flagged.

orig_conc_units: las unidades de concentración informadas proporcionadas en los datos sin procesar.

conc_flag: los valores posibles son "mantener", "eliminar" y "NA". "mantener" indica que se proporcionó el valor de concentración; "caída" indica que el valor de concentración sin procesar era negativo, cero o texto y no se identificó como no detectado; "NA" indica que la observación no fue marcada porque ya fue marcada en otro paso de armonización como "eliminación". Esta variable es exclusiva de WQP_to_SNAPD_flagged.

conc_unit_flag: los valores posibles son "mantener", "eliminar" y "NA". “mantener” indica que se proporcionó la unidad de concentración y se puede convertir a mg/L como N o mg/L como P; “gota” indica que faltaba la unidad de concentración o que no se podía convertir a mg/L como N o mg/L como P; "NA" indica que la observación no fue marcada porque ya fue marcada en otro paso de armonización como "eliminación". Esta variable es exclusiva de WQP_to_SNAPD_flagged.

orig_DL_val: valor límite de detección proporcionado en los datos sin procesar. Esta variable fue armonizada en el SNAPD.

orig_DL_units: unidades de concentración límite de detección proporcionadas en los datos sin procesar. Esta variable fue armonizada en el SNAPD.

DL_code: un código utilizado para identificar cualquier problema de calificación que afectó los resultados de la concentración. Esta variable fue armonizada en el SNAPD.

DL_text: descripción textual de un resultado, que a menudo indica problemas de no detección o de control de calidad para una observación determinada. Esta variable fue armonizada en el SNAPD.

orig_MLI: MLI es una abreviatura de Identificador de ubicación de monitoreo, que es un designador utilizado para describir el nombre, número o código único asignado para identificar el sitio de monitoreo. Este es el MLI original de la descarga de datos sin procesar. Nota: no todas las MLI son exclusivas de una ubicación de muestra (consulte dup_MLI_flag). Esta variable fue armonizada en el SNAPD.

dup_MLI_flag: los valores posibles incluyen "one_MLI" o "dup_MLI". “one_MLI” indica que un par de coordenadas determinado (x, y) tenía solo un MLI asociado; “dup_MLI” indica que un par de coordenadas determinado (x, y) tenía más de un MLI asociado. Esta variable es exclusiva de WQP_to_SNAPD_flagged.

num_MLIs_at_loc: número entero que representa el número de MLI únicos que se asociaron con un par de coordenadas determinado (x, y). Esta variable es exclusiva de WQP_to_SNAPD_flagged.

orig_x: coordenada de longitud bruta para el MLI (ubicación del sitio) en metros (proyección cónica de área igual de Albers contiguos de EE. UU., ESRI: 102003). Esta variable fue armonizada en el SNAPD.

orig_y: coordenada de latitud bruta para el MLI (ubicación del sitio) en metros (proyección cónica de área igual de Albers contiguos de EE. UU., ESRI: 102003). Esta variable fue armonizada en el SNAPD.

num_coords_at_loc: número entero que representa el número de pares de coordenadas únicos (x, y) que se asociaron con un MLI. Esta variable es exclusiva de WQP_to_SNAPD_flagged.

dup_coords_flag: los valores posibles incluyen "one_coord_set" o "dup_coords". “one_coord_set” indica que un MLI determinado tenía un par de coordenadas único (x, y) asociado; “dup_coords” indica que un MLI determinado tenía múltiples pares de coordenadas únicos (x, y) asociados. Esta variable es exclusiva de WQP_to_SNAPD_flagged.

combine_coords_flag: los valores posibles son "combinar" o "mantener_separar". "combinar" indica que había múltiples coordenadas dentro de 400 m de distancia asociadas con un MLI, y estas coordenadas se consolidaron de manera que a un MLI determinado se le asignó un par de coordenadas único; “mantener separado” indica que había múltiples coordenadas a más de 400 m de distancia asociadas con un MLI, y no se realizaron cambios en estas coordenadas. Esta variable es exclusiva de WQP_to_SNAPD_flagged.

pct1: valor numérico que indica el primer percentil (inferior) de todos los valores de concentración para un nutriente determinado. Esta variable es exclusiva de WQP_to_SNAPD_flagged.

pct99: valor numérico que indica el percentil 99 (superior) de todos los valores de concentración de un nutriente determinado. Esta variable es exclusiva de WQP_to_SNAPD_flagged.

outlier_flag: los valores posibles son "not_flagged_as_outlier", "potential_outlier" o "NA". “not_flagged_as_outlier” indica que la concentración de una observación estuvo dentro de los percentiles 1 y 99 para un nutriente determinado; “potential_outlier” indica que la concentración de una observación estuvo por debajo del percentil 1 o por encima del percentil 99 para un nutriente determinado; El valor “NA” indica que esta observación ya fue marcada en otro paso de armonización como “disminución”. Esta variable corresponde a la variable “outlier_flag” en SNAPD.

num_obs_per_date: número entero que indica el número de observaciones reportadas para una determinada fecha, MLI, par de coordenadas, nutriente y fracción de muestra. Esta variable corresponde a la variable “outlier_flag” en SNAPD.

num_orgs_per_obs: número entero que indica el número de organizaciones que reportan el mismo registro para una determinada fecha, IML, par de coordenadas, nutriente, concentración y fracción de muestra. Esta variable es exclusiva de WQP_to_SNAPD_flagged.

num_nds_per_obs: número entero que indica el número de códigos de detección (no detectados u observados) reportados para una fecha, MLI, par de coordenadas, nutriente y fracción de muestra determinados. Esta variable es exclusiva de WQP_to_SNAPD_flagged.

num_conc_per_time: número entero que indica el número de observaciones reportadas para un tiempo, fecha, MLI, par de coordenadas, nutriente y fracción de muestra determinados. Esta variable es exclusiva de WQP_to_SNAPD_flagged.

pct_ND: porcentaje de observaciones para un sitio de monitoreo de agua determinado (MLI único y combinación de pares de coordenadas), nutriente, fracción de muestra que no se detectaron. Un valor "NA" indica que esta observación ya fue marcada para ser eliminada en un paso de armonización anterior. Esta variable es exclusiva de WQP_to_SNAPD_flagged.

date_flag: los valores posibles son "mantener" o "eliminar". “conservar” indica que el registro tenía un valor de fecha completo; “soltar” indica que el registro no tenía una fecha asociada. Esta variable es exclusiva de WQP_to_SNAPD_flagged.

Si bien no teníamos control directo sobre la calidad de los datos brutos contenidos en el WQP, presentamos un método que armonizaba los metadatos de calidad del agua de maneras que eran recomendadas y necesarias para interpretar los datos y hacer comparaciones en el espacio y el tiempo. Nuestro proceso de armonización siguió las mejores prácticas dictadas por WQX, USGS y US EPA cuando estuvieron disponibles13,15,17, además de los métodos estándar de limpieza de datos que detallamos anteriormente.

Sin embargo, nuestro conjunto de datos tiene algunas limitaciones. Dado que elegimos crear un conjunto de datos a nivel diario, SNAPD no ofrece los detalles necesarios para que los usuarios secundarios exploren las tendencias de la calidad del agua en un río o arroyo en una escala de tiempo más granular. Además, hicimos algunas suposiciones en nuestro proceso de armonización (por ejemplo, combinar coordenadas y MLI, aproximar límites de detección y marcar valores atípicos) que otros usuarios pueden optar por no hacer dadas sus necesidades de datos. Todos los supuestos se detallan arriba y se marcan en el conjunto de datos intermedio, WQP_to_SNAPD_flagged, lo que permite a los usuarios secundarios la flexibilidad de crear una versión de su propio conjunto de datos armonizado.

Nuestro proceso de armonización fue auditado por un investigador externo independiente no asociado con este proyecto para verificar la lógica de nuestro código, verificar los resultados de cada paso y garantizar la replicabilidad de nuestro proceso y conjunto de datos final. También realizamos verificaciones de nuestros datos a lo largo de nuestro proceso de armonización para asegurarnos de que nuestros resultados de datos sean razonables, por ejemplo, asegurando que no haya valores de concentración negativos y que las concentraciones filtradas sean menores que las concentraciones no filtradas en la misma muestra. Todo el código está disponible públicamente (consulte Disponibilidad de código).

Nuestro proceso de armonización identificó mediciones que eran comparables en términos químicos, pero que no habrían sido fácilmente comparables en los datos brutos del WQP debido a diferencias en el etiquetado, métodos de medición, metadatos ambiguos, etc. Para demostrar que nuestros datos armonizados mejoraron el número de observaciones. que se pueden comparar entre sí, nos centramos en dos nutrientes, el nitrógeno total (TN) y el fósforo total (TP) como ejemplos. Trazamos la distribución de la concentración de calidad del agua prearmonizada junto con los datos armonizados para TN y TP (Fig. 4). Para los datos prearmonizados, solo incluimos observaciones identificadas como TN o TP en los datos sin procesar. Para comparar las concentraciones entre los conjuntos de datos armonizados y prearmonizados, transformamos los datos en registros. En particular, el conjunto de datos armonizados recuperó aproximadamente seis veces más observaciones comparables para TN y trece veces más para TP que los datos prearmonizados porque nuestro proceso de armonización nos permitió comparar observaciones estandarizadas basadas en los metadatos disponibles.

Distribución de los datos de concentración de calidad del agua prearmonizados a armonizados para todos los sitios de monitoreo del agua que miden TN y TP en nuestros datos recuperados. La distribución armonizada de TN que se representa aquí incluye observaciones de la calidad del agua que anteriormente se etiquetaban como nitrógeno, formas mixtas de nitrógeno o nitrógeno total y ahora se clasifican como TN según nuestros métodos. De manera similar, las observaciones de la calidad del agua previamente etiquetadas como fósforo, formas mixtas de fósforo o fósforo total ahora se clasifican como TP según nuestros métodos.

Una contribución de nuestro proceso de armonización es la estandarización de los metadatos de calidad del agua en diferentes estándares de informes. Esto es relevante en todas las organizaciones, que pueden tener diferentes estándares internos, pero también es relevante dentro de las organizaciones, donde los estándares pueden cambiar con el tiempo, estar definidos de manera imprecisa o el cumplimiento puede ser bajo.

Aquí, trazamos la distribución de las concentraciones de calidad del agua (transformadas logarítmicamente) para organizaciones seleccionadas en el MARB que midieron TN o TP entre 1980 y 2018, tanto para los datos prearmonizados como para los armonizados (Fig. 5). Mostramos ejemplos de organizaciones que mostraron cambios distributivos en las concentraciones de nutrientes luego de nuestro proceso de armonización. Para esta selección de organizaciones, observamos que las medias de distribución armonizadas están más alineadas entre sí que las de los datos de concentración prearmonizados. Esto podría sugerir que nuestro proceso de armonización creó concentraciones de nutrientes más comparables entre las organizaciones.

Distribución de datos prearmonizados a armonizados para organizaciones seleccionadas de monitoreo del agua que miden (a) nitrógeno total y (b) fósforo total. Para su visualización, seleccionamos organizaciones en las que nuestro proceso de armonización afectó tanto el número de observaciones como la distribución. Incluimos todas las mediciones sin procesar para TN o TP que pueden armonizarse utilizando sus metadatos. Las distribuciones prearmonizadas incluyeron observaciones que midieron el fósforo total, las formas mixtas de fósforo total y el fósforo para nutrientes a base de fósforo; y nitrógeno, formas mixtas de nitrógeno y formas mixtas de nitrógeno total para nutrientes a base de nitrógeno. Las distribuciones de los datos armonizados tenían menos observaciones que las de las observaciones prearmonizadas porque descartamos observaciones si no podían armonizarse en función de los metadatos.

Además, la presencia de una distribución multimodal podría indicar que existe alguna inconsistencia interna dentro de una organización determinada. Por ejemplo, una organización puede tener diferentes prácticas de presentación de datos para diferentes compuestos de nutrientes (por ejemplo, denominación de nutrientes y unidades de concentración), y/o sus métodos de medición y laboratorio pueden haber cambiado con el tiempo. Sin una fuente secundaria de información sobre el terreno, no es posible saber con certeza si los cambios en la distribución de la concentración de nutrientes se debieron a cambios reales en las condiciones ambientales o a cambios en la información sobre las condiciones ambientales. Sin embargo, los casos en los que nuestro proceso de armonización afectó la modalidad de distribución dentro de una organización podrían proporcionar evidencia prima facie de que los informes inconsistentes pueden haber sido la fuente de la prearmonización de la distribución multimodal en lugar de las condiciones ambientales reales.

Si bien la figura 5 muestra ejemplos de organizaciones con cambios distributivos desde antes hasta después de la armonización, es importante señalar que muchas organizaciones que no se muestran aquí no demostraron cambios similares. Puede haber procesos físicos que conduzcan a una distribución multimodal válida tanto antes como después de la armonización, y si los estándares de presentación de informes de una organización fueran internamente consistentes, entonces no esperaríamos que cambiara la modalidad de las concentraciones de nutrientes específicos.

La Figura 5 demuestra cómo nuestro proceso de armonización cambió la distribución de las concentraciones de nutrientes dentro de la organización de diferentes maneras, lo que sugiere que los datos prearmonizados contenían observaciones que probablemente eran incomparables tanto entre organizaciones como dentro de ellas.

Por último, examinamos las unidades de concentración como un ejemplo de metadatos que armonizamos. Convertimos las unidades de concentración a “mg/L como N” para todos los compuestos de nitrógeno y “mg/L como P” para los compuestos de fósforo. En nuestra muestra había 32 unidades de concentración prearmonizadas para compuestos de nitrógeno y 21 para compuestos de fósforo. Estas unidades no se pueden comparar directamente entre sí. Aquí, demostramos con un gráfico de Sankey la transformación de unidades de concentración prearmonizadas en unidades armonizadas (Fig. 6).

Gráficos de Sankey que demuestran el proceso de armonización de datos para los metadatos de unidades de concentración para todos los compuestos de nitrógeno y fósforo en nuestra muestra. Para fines de visualización, combinamos unidades de concentración con 50.000 observaciones o menos en una categoría "otra". (a) Armonización de unidades de compuestos nitrogenados. Para compuestos de nitrógeno, la otra categoría incluye las siguientes unidades de concentración: #/100 ml, %, % en vol, % en peso, % de recuperación, cm3/g @stp, cm3/g stp, g/kg, g/m2, mg N/l, mg/g, mg/kg, mg/kg como N, mg/m2 NH4, mgd, MPN, MPN/100 ml, ninguno, NTU, pci/l, ppb, ppm, ueq/l, ug /kg, ug/l, ug/l como N y umol/l. (b) Armonización de unidades de compuestos de fósforo. Para compuestos de fósforo, la otra categoría incluye las siguientes unidades de concentración: #/100 ml, %, ufc/100 ml, g/kg, g/m2, lb/día, mg/g, mg/kg, mg/kg como P , mg/kg PO4, ml/l, mV, ninguno, ppb, ppm, ug/l y ug/l como P.

Nuestro proceso de armonización implicó convertir y/o escalar los datos de concentración para que las observaciones de la calidad del agua fueran comparables. Si bien algunas unidades de concentración parecían ser reportadas comúnmente entre las organizaciones de calidad del agua en el MARB, estas categorías amplias no eran comparables entre sí en los datos prearmonizados. Todas las observaciones deben estar en las mismas unidades de concentración para que sean comparables. La Figura 6 destaca la amplia variedad de unidades de concentración reportadas en el conjunto de datos sin procesar. Armonizar las unidades de concentración fue uno de los muchos pasos de nuestro proceso que necesitaban estandarización. Como parte de nuestro proceso, identificamos y convertimos observaciones a unidades estandarizadas y formas químicas. Como resultado, pudimos estandarizar el 81% y el 75% de las observaciones prearmonizadas para compuestos de nitrógeno y fósforo, respectivamente. Sin embargo, incluso después de armonizar las unidades de concentración con una unidad estándar para compuestos de nitrógeno y fósforo, muchas observaciones finalmente no se incluyeron en nuestro conjunto de datos final debido a otros problemas de calidad de los metadatos. Por ejemplo, algunas observaciones carecían de información suficiente que nos permitiera convertir las mediciones en mg/L, como "% de recuperación" o "cm3/g".

Nuestra principal contribución es el Conjunto de datos estandarizados de nitrógeno y fósforo (SNAPD), el primer conjunto de datos armonizado que permite comparar las concentraciones de N y P entre sitios y a lo largo del tiempo durante un lapso de cuatro décadas en toda la cuenca del río Mississippi/Atchafalaya. Este conjunto de datos se construyó combinando datos de 226 organizaciones diferentes y transformando todas las observaciones en formas de nutrientes comparables basadas en metadatos heterogéneos. Cuando la estandarización no fue posible porque la información necesaria no era recuperable, las observaciones se eliminaron de la muestra. Hasta donde sabemos, este es el primer conjunto de datos que estandarizó las observaciones de la calidad del agua en el espacio y el tiempo a esta escala, para cualquier cuenca fluvial.

También proporcionamos indicadores al conjunto de datos intermedio, WQP_to_SNAPD_flagged, para brindar a los usuarios secundarios más flexibilidad a la hora de crear un conjunto de datos adaptado a sus necesidades. WQP_to_SNAPD_flagged permite a los usuarios modificar nuestras suposiciones o refinar nuestros pasos de armonización, por ejemplo, alterando los umbrales para la detección de valores atípicos o imputando no detección.

Es importante señalar que nuestro conjunto de datos armonizados SNAPD es un subconjunto de los datos disponibles sobre la calidad del agua almacenados en el WQP. Si bien nuestros métodos son específicos de la cuenca del río Mississippi/Atchafalaya y de nuestros nutrientes elegidos, otros usuarios pueden aplicar nuestros pasos de armonización a una región diferente o diferentes variables de calidad del agua y mantener muchos de los mismos pasos. Hemos documentado nuestro proceso en detalle e identificado desafíos clave al trabajar con datos de calidad del agua para que los futuros usuarios puedan comprender mejor estos datos y/o tomar decisiones de acuerdo con sus intereses de investigación.

Utilizamos R Versión 4.0.3, un lenguaje y entorno de programación de código abierto para computación estadística, para implementar nuestro método de armonización. El proceso de armonización completo, desde la recuperación de datos hasta la producción del conjunto de datos final, se proporciona en scripts R. Todo el código, las entradas de datos, el conjunto de datos final (SNAPD) y el conjunto de datos intermedio marcado (WQP_to_SNAPD_flagged) están disponibles públicamente en HydroShare aquí: https://doi.org/10.4211/hs.9547035cf37940eb9b500b7994a378a125.

Grupo de trabajo sobre innovaciones en nutrientes de la EPA estatal. Un llamado urgente a la acción: Informe del Grupo de Trabajo sobre Innovaciones de Nutrientes del Estado y la EPA https://www.epa.gov/sites/default/files/documents/nitgreport.pdf (2009).

Grupo de trabajo sobre hipoxia del río Mississippi y el Golfo de México. La cuenca del río Mississippi/Atchafalaya (MARB) https://www.epa.gov/ms-htf/mississippiatchafalaya-river-basin-marb (2021).

Dressing, SA et al. Monitoreo y evaluación de proyectos de cuencas hidrográficas de fuentes difusas. Informe No. EPA 841-R-16-010 (Agencia de Protección Ambiental de los Estados Unidos, Oficina del Agua, Subdivisión de Control de Fuentes No Puntuales, 2016).

Carpenter, SR y cols. Contaminación difusa de aguas superficiales con fósforo y nitrógeno. Aplicaciones ecológicas 8 (núm. 3), 559–568 (1998).

Artículo de Google Scholar

Contaminación por nitrógeno y fósforo en la cuenca del río Mississippi: resultados de la evaluación de corrientes vadeables. Informe No. EPA 841-F-11-004 (Agencia de Protección Ambiental de los Estados Unidos, Oficina de Monitoreo del Agua, 2011).

Inventario Nacional de Calidad del Agua: Informe al Congreso. Informe No. EPA 841-R-16-011 (Agencia de Protección Ambiental de Estados Unidos, 2017).

Kaufman, L. Productos químicos en los estados de escorrentía agrícola en el Mississippi. https://www.nytimes.com/2011/06/03/science/earth/03runoff.html (2011).

Administración Nacional Oceánica y Atmosférica (NOAA). ¿Qué es la eutrofización? https://oceanservice.noaa.gov/facts/eutrophication.html (2017).

Diaz, RJ & Rosenberg, R. Difusión de zonas muertas y consecuencias para los ecosistemas marinos. Ciencia 321, 926–929 (2008).

Artículo ADS CAS Google Scholar

NOAA. Se midió una 'zona muerta' del Golfo de México más grande que el promedio https://www.noaa.gov/news-release/larger-than-average-gulf-of-mexico-dead-zone-measured (2021).

Boehm, R. Reviviendo la zona muerta: soluciones que beneficiarán tanto a los pescadores de la costa del Golfo como a los agricultores del Medio Oeste. Unión de Científicos Preocupados https://www.ucsusa.org/resources/reviving-dead-zone (2020).

Myers, DN Fundamentos del monitoreo y evaluación de la calidad del agua en los Estados Unidos. Alimentos, energía y agua, 21–92 (2015).

Consejo Nacional de Vigilancia de la Calidad del Agua. Portal de calidad del agua https://www.waterqualitydata.us/ (2019).

Leer, EK et al. Datos sobre la calidad del agua para la investigación acuática a escala nacional: The Water Quality Portal. Investigación de recursos hídricos 53 (2), 1735–1745 (2017).

ADS del artículo Google Scholar

Sprague, LA, Oelsner, GP y Argue, DM Desafíos del uso secundario de datos de múltiples fuentes sobre la calidad del agua en los Estados Unidos. Investigación sobre el agua 110, 252–261 (2017).

Artículo CAS Google Scholar

Consejo Nacional de Vigilancia de la Calidad del Agua. Índice Nacional de Métodos Ambientales https://www.nemi.gov/home/ (2002).

Agencia de Protección Ambiental de los Estados Unidos, Servicio Geológico de los Estados Unidos y Intercambio de Calidad del Agua. Mejores prácticas para enviar datos de nutrientes al Water Quality eXchange (WQX) https://www.epa.gov/sites/default/files/2017-06/documents/wqx_nutrient_best_practices_guide.pdf (2017).

Helsel, DR Más que obvio: mejores métodos para interpretar datos no detectados. Ciencia y tecnología ambientales 39(20), 419A–423A (2005).

Artículo ADS CAS Google Scholar

Hargarten, PM y Wheeler, DC miWQS: Imputación múltiple mediante regresión de suma cuantil ponderada. El diario R 12(2), 226–250 (2020).

Artículo de Google Scholar

Hargarten, PM y Wheeler, DC Imputación múltiple mediante regresión de suma cuantil ponderada. https://cran.r-project.org/web/packages/miWQS/miWQS.pdf (2021).

White, IR, Royston, P. & Wood, AM Imputación múltiple mediante ecuaciones encadenadas: problemas y orientación para la práctica. Estadística. Medicina. 30(4), 377–399 (2011).

Artículo MathSciNet Google Scholar

Dong, Y. y Peng, CY. J. Métodos de principios de datos faltantes para investigadores. Springer Plus 2 (2013).

Shoda, ME, Murphy, JC, Falcone, JA y Duris, JW Datos de múltiples fuentes sobre la calidad del agua superficial y coincidencia de caudalímetros del Servicio Geológico de EE. UU. para la cuenca del río Delaware. Catálogo de datos científicos https://doi.org/10.5066/P9PX8LZO (2019).

Caffrey, J. y col. Requisitos de nutrientes para la Red Nacional de Monitoreo de la Calidad del Agua para las aguas costeras de EE. UU. y sus afluentes. https://acwi.gov/monitoring/network/nutrients.pdf (Comité Asesor sobre Información sobre el Agua, 2007).

Krasovich, E. y col. Conjunto de datos estandarizados de nitrógeno y fósforo (SNAPD). HydroShare https://doi.org/10.4211/hs.9547035cf37940eb9b500b7994a378a1 (2022).

Schwartz, M. Cuenca del río Mississippi. ScienceBase https://www.sciencebase.gov/catalog/item/55de04d5e4b0518e354dfcf8 (2015).

Oficina del Censo de EE.UU. 2017 TIGER/Linea Shapefiles. http://www2.census.gov/geo/tiger/TIGER2017/STATE/tl_2017_us_state.zip (2017).

Descargar referencias

Agradecemos a Daniel Allen por sus comentarios y su tiempo para realizar nuestra auditoría de código, a Sandy Sum por sus comentarios y a Alan Southworth por sus sugerencias sobre los nombres de los conjuntos de datos. Financiamiento: EK, JL, JT y PL recibieron el apoyo de una donación de Tuaropaki Trust. KB fue parcialmente apoyado por la beca posdoctoral Te Apārangi Rutherford de la Royal Society. Las opiniones, hallazgos, conclusiones, puntos de vista o recomendaciones expresados ​​en este documento son los de los autores y no reflejan los puntos de vista o políticas de la Agencia de Protección Ambiental de EE. UU. ni de ninguna otra organización de apoyo.

Laboratorio de Política Global, Escuela Goldman de Políticas Públicas, UC Berkeley, Berkeley, CA, EE. UU.

Emma Krasovich, Jeanette Tseng, Kendon Bell y Solomon Hsiang

Centro Nacional de Economía Ambiental, Agencia de Protección Ambiental de EE. UU., Washington, DC, EE. UU.

Peiley Lau

Grupo de Energía y Recursos, UC Berkeley, Berkeley, CA, EE. UU.

Julia Longmate

Scarlatti, Auckland, Nueva Zelanda

campana canta

Landcare Research, Auckland, Nueva Zelanda

campana canta

Oficina Nacional de Investigaciones Económicas, Cambridge, MA, EE. UU.

Salomón Hsiang

Centro de Investigación de Política Económica, Londres, Reino Unido

Salomón Hsiang

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

EK y SH concibieron la idea. EK dirigió la recopilación de datos y la revisión de la literatura, desarrolló el método de armonización y redactó el manuscrito en estrecha colaboración con PLPL y EK desarrolló el enfoque de aproximación del límite de detección y perfeccionó el método de imputación sin detección. JL dirigió los esfuerzos iniciales de creación de secuencias de comandos para recuperar los datos de WQP. Todos los coautores (KB, SH, EK, PL, JL y JT) revisaron y refinaron el manuscrito, los conjuntos de datos y las figuras.

Correspondencia a Emma Krasovich.

Los autores declaran no tener conflictos de intereses.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Krasovich, E., Lau, P., Tseng, J. et al. Concentraciones armonizadas de nitrógeno y fósforo en la cuenca del río Mississippi/Atchafalaya de 1980 a 2018. Sci Data 9, 524 (2022). https://doi.org/10.1038/s41597-022-01650-6

Descargar cita

Recibido: 19 de enero de 2022

Aceptado: 11 de agosto de 2022

Publicado: 27 de agosto de 2022

DOI: https://doi.org/10.1038/s41597-022-01650-6

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt