Servicios Personalizados
Revista
Articulo
Indicadores
- Citado por SciELO
- Accesos
Links relacionados
- Similares en SciELO
Compartir
Ingeniería, investigación y tecnología
versión On-line ISSN 2594-0732versión impresa ISSN 1405-7743
Ing. invest. y tecnol. vol.13 no.2 Ciudad de México abr./jun. 2012
Reproducibilidad en representación sísmica
Reproducibility in Seismic Imaging
GonzálezVerdejo O.1 y ChávezPérez S.2
1 Dirección de Exploración y Producción, Instituto Mexicano del Petróleo. Correo: oziel.gonzalezv@gmail.com
2 Dirección de Exploración y Producción, Instituto Mexicano del Petróleo. Correo: sergio.chavezp@gmail.com
Información del artículo: recibido: marzo de 2010.
Aceptado: mayo de 2011.
Resumen
En el campo de la sismología de exploración, actividad fundamental en la industria petrolera, existe interés en el ámbito nacional por incorporar la reproducibilidad computacional en la aplicación, investigación y docencia del procesamiento y representación de datos sísmicos (modelado, migración, tomografía e inversión). Esta reproducibilidad computacional implica la estructuración y descripción de los elementos de un experimento numérico o secuencia de procesamiento. Así, de manera independiente, un profesional de la práctica, investigador, instructor o estudiante puede estudiarlo, verificarlo, reproducirlo y modificarlo. En este trabajo documentamos y adaptamos la reproducibilidad en representación sísmica para contribuir a generar conciencia académica y profesional acerca de sus beneficios, así como para favorecer la asimilación de los programas de código abierto en esta área. Presentamos ejemplos de enfatización de imágenes sísmicas, de interés académico e industrial usando datos sísmicos mexicanos. Comprobamos que es posible asimilar, adaptar y transferir tecnología de interés en la industria petrolera a bajo costo, empleando programas de código abierto y siguiendo un esquema de cómputo reproducible.
Descriptores: reproducibilidad, sismología de exploración, representación sísmica, representación enfatizada, código abierto.
Abstract
Within the field of exploration seismology, there is interest at national level of integrating reproducibility in applied, educational and research activities related to seismic processing and imaging. This reproducibility implies the description and organization of the elements involved in numerical experiments. Thus, a researcher, teacher or student can study, verify, repeat, and modify them independently. In this work, we document and adapt reproducibility in seismic processing and imaging to spread this concept and its benefits, and to encourage the use of open source software in this area within our academic and professional environment. We present an enhanced seismic imaging example, of interest in both academic and professional environments, using Mexican seismic data. As a result of this research, we prove that it is possible to assimilate, adapt and transfer technology at low cost, using open source software and following a reproducible research scheme.
Keywords: reproducibility, exploration seismology, seismic imaging, enhanced imaging, open source.
Introducción
La reproducibilidad es un principio del proceso de investigación científica e implica la descripción detallada de los experimentos para que, de manera independiente, un investigador, profesional, instructor o estudiante pueda repetirlos y comprobarlos.
En años recientes, los experimentos numéricos han alcanzado tal grado de complejidad que las descripciones escritas no bastan para que sean plenamente reproducibles. Por ello, autores como Fomel y Claerbout (2009), Donoho et al. (2009), LeVeque (2009) y Stodden (2008, 2009) coinciden en que la transferencia efectiva del conocimiento en las áreas que involucran cómputo se logra al hacer disponible el programa de cómputo o paquetería en conjunto con las instrucciones y datos necesarias para obtener los resultados. Por lo tanto, para garantizar la reproducibilidad computacional es recomendable proporcionar y documentar los siguientes elementos:
a) El artículo o informe técnico,
b) El programa de cómputo o paquetería de trabajo,
c) El experimento numérico o flujo de trabajo, incluyendo los códigos y la secuencia de instrucciones para generar los resultados,
d) Los datos empleados y
e) Los resultados del experimento, como figuras y datos.
De ese modo, el usuario de una paquetería de cómputo reproducible puede realizar tres actividades importantes: estudiar y verificar los programas, reproducir los resultados y modificar los programas y/o parámetros originales.
La reproducibilidad representa beneficios académicos, técnicos y económicos porque:
1. Disminuye la dependencia de licencias de programas comerciales para llevar a cabo investigación.
2. Posibilita la adaptación, el desarrollo y transferencia de tecnología y
3. Auxilia la administración y transmisión eficiente del conocimiento.
Acceso abierto a la información
Los recientes avances en las tecnologías de información y comunicación como Internet, han dado lugar al surgimiento de políticas de acceso abierto a la información, encaminadas a la difusión adecuada y actualizada de publicaciones científicas. Al tener acceso abierto a las publicaciones, el lector puede usarlas, distribuirlas y mostrarlas de manera libre, bajo la condición de citarlas adecuadamente. Algunos proyectos que atienden la necesidad de difusión de la información son: Public knowledge project (disponible en: http://pkp.sfu.ca/), en Iberoamérica Latindex (disponible en: http://www.latindex.unam.mx) y Scientific electronic libray online (disponible en: http://www.scielo.org).
En el contexto del acceso abierto a la información, la reproducibilidad tiene un papel importante. Su práctica comienza a volverse común, al grado de convertirse en un estándar para las publicaciones en universidades en el extranjero como la Universidad de Stanford (California, EUA), la Escuela de Minas de Colorado (Colorado, EUA) o la Universidad de Texas en Austin (Texas, EUA), por mencionar algunas, e incluso en publicaciones científicas como la revista Geophysics, una de las publicaciones más importantes en geofísica aplicada. Sin embargo, en nuestro país la reproducibilidad en sismología de exploración, a nivel académico e industrial, no ha sido suficientemente explorada.
A continuación, veremos que está a nuestro alcance gracias a la disponibilidad de programas de código abierto, especialmente diseñados para la investigación reproducible.
Importancia del código abierto en representación sísmica
Un esquema propicio para la reproducibilidad es el código abierto (open source en inglés). Este término se aplica a aquellos programas a cuyo código fuente se tiene acceso, gracias a su distribución de carácter libre, permitiéndole al usuario trabajar con los programas y modificarlos a su gusto, siempre y cuando se apegue a condiciones tales como: no revenderlos directamente o intentar impedir el acceso a los mismos.
La existencia de programas de código abierto representa un gran apoyo en investigación y docencia. Al investigador le permiten llevar a cabo su trabajo sin la necesidad de comprar licencias de paquetes comerciales de altos precios. Asimismo, el beneficio se extiende a profesores y estudiantes, quienes así pueden contar con la posibilidad de trabajar con herramientas a las que no podrían tener acceso de otra manera.
En sismología de exploración, el procesamiento de datos experimenta innovaciones constantes a nivel académico e industrial e implican un alto grado de complejidad computacional. A escala industrial, dichas innovaciones suelen desarrollarse con miras a crear programas comerciales o mejorar los sistemas internos de las mismas compañías petroleras y de servicios; por razones de confidencialidad no se tiene acceso a sus códigos. Por lo tanto, una estrategia económica para evitar el rezago tecnológico y la dependencia de programas comerciales en materia de educación, investigación, transferencia tecnológica e innovación, es aprovechar el potencial de las herramientas de código abierto y de tipo académico.
El panorama de los programas de código abierto en representación sísmica resulta prometedor en cuanto a su uso y con ello también el de la reproducibilidad. El esfuerzo realizado por parte de investigadores en universidades extranjeras y empresas se manifiesta hoy en día como un conjunto de paqueterías de cómputo reproducible, disponibles de manera gratuita para la comunidad. Lo anterior ha dado lugar a la realización continua de foros para la difusión y discusión del tema, por ejemplo: el taller "Open Source Exploration and Production Software", en el marco de la 68a Reunión de la Sociedad Europea de Geocientíficos e Ingenieros, realizada en 2006 (disponible en: http://www.eage.org/files/viennaworkshop2.pdf) o la publicación de artículos de difusión sobre la importancia del código abierto en Ciencias de la Tierra (Hall, 2010) y tesis académicas (e.g., González, 2010).
Un número importante de dichas paqueterías se distribuyen con licencias que permiten su uso gratuito para fines académicos y comerciales, y se pueden ejecutar en una computadora personal convencional con el sistema operativo adecuado (generalmente Unix o Linux). En el apéndice 1 se presenta en una tabla resumen, algunas paqueterías que cumplen con dicha característica y que satisfacen la mayoría de las necesidades de investigación en el procesamiento y representación de datos sísmicos. Estos programas de código abierto, a diferencia de sus equivalentes comerciales, aún tienen limitaciones, por ejemplo, el manejo espacial de los datos sísmicos (coordenadas geográficas de los datos) o la falta de interfaces gráficas que faciliten su uso. No obstante, las comunidades que los desarrollan trabajan actualmente en esas tareas y tienen como meta alcanzar la funcionalidad de los programas comerciales.
La gratuidad de las paqueterías del apéndice 1 resulta muy importante, en términos económicos para las instituciones nacionales de educación superior e investigación, como el Instituto Mexicano del Petróleo (IMP), puesto que las licencias de los programas de procesamiento y representación sísmica están cotizadas hasta en decenas de miles de dólares y suelen estar limitadas a un número reducido de equipos de cómputo.
Documentos reproducibles en representación sísmica
Paqueterías como SEPlib y Madagascar (descrito más adelante) están encaminadas a la publicación de documentos reproducibles. Este tipo de documentos, disponibles en su mayoría en formato electrónico a través de Internet, tienen la característica de integrar los resultados vinculados a las secuencias de instrucciones (script) con las que se generaron. Además, las secuencias de instrucciones cuentan con vínculos a los códigos fuente de los programas empleados. Por lo tanto, el uso de este tipo de documentos permite una mejor comprensión y asimilación del cómputo requerido para generar los resultados.
En el apéndice 2 presentamos bibliografía fundamental de procesamiento y representación de datos sísmicos con la particularidad de ser reproducible. Esta bibliografía es de gran utilidad para quien desea incursionar de manera teórica y práctica en esta materia y los estudiantes de geociencias lo encontrarán particularmente valioso.
En el apéndice 3 presentamos una selección de documentos reproducibles como informes de consorcios académicos, tesis, artículos de investigación y datos públicos. Estos materiales incluyen algunos de los avances más relevantes en materia de procesamiento y representación de datos sísmicos y su disponibilidad permite acortar la brecha entre la teoría y la práctica. Para familiarizarse con el concepto de reproducibilidad le sugerimos al lector consultar la sección en línea de documentos reproducibles de la paquetería Madagascar [http://www.reproducibility.org/wiki/Reproducible_Documents].
Desarrollo
En la práctica petrolera mexicana resulta de gran importancia el postprocesamiento de datos sísmicos, particularmente la enfatización de imágenes sísmicas para mejorar su interpretación. Los datos sísmicos convencionales tienen resolución vertical limitada a decenas de metros (el criterio convencional de límite de resolución vertical es un cuarto de la longitud de onda sísmica) por lo que la identificación de rasgos geológicos de espesores menores al límite de resolución vertical es difícil.
Actualmente existe interés en incrementar la resolución sísmica vertical para mejorar la definición de las características geométricas de los yacimientos de hidrocarburos. La resolución sísmica depende del ancho de banda de la señal sísmica, por lo que un incremento de frecuencia, consistente con la geología, puede resultar en un incremento de resolución útil. Si el incremento de frecuencia no es consistente con la geología es posible que aparezcan artefactos numéricos.
Mostraremos el uso de la paquetería de código abierto Madagascar para probar dos operadores matemáticos de incremento de frecuencia de la señal sísmica y analizar los resultados.
El primer operador es el negativo de la segunda derivada de los datos; el segundo es un multiplicador de fase instantánea.
Nuestro equipo de trabajo fue una computadora personal, convencional, con sistema operativo Linux. El volumen de datos sísmicos que empleamos en nuestros ejemplos fueron proporcionados por PEMEX (Agua FríaCoapechacaTajín, en Chicontepec) y tiene formato SEGY, el estándar de la industria sísmica.
Madagascar
Madagascar es una paquetería que integra elementos de sus precursores SEPlib y Seismic Unix (apéndice 1) empleando esquemas de cómputo moderno. La paquetería consta de tres niveles:
1) Programas de procesamiento. Más de 750 programas desarrollados principalmente en lenguaje C (también en C++, Fortran, Python, etc.) que actúan como filtros sobre los datos y pueden encadenarse mediante "pipes" de Unix. La lista de programas según el tipo de tareas de procesamiento y representación sísmica (modelado, migración, tomografía e inversión) se encuentra en: [http://www.reproducibility.org/wiki/Seismic_taskcentric_program_list]. La clasificación de los programas de acuerdo al tipo de tareas está en: [http://www.reproducibility.org/wiki/Taskcentric_program_list]. La documentación y los códigos fuente están en: [http://www.reproducibility.org/RSF/]
2) Flujos de procesamiento SConstruct o scripts. Escritos en lenguaje de programación Python y ejecutados mediante el programa SCons. Pueden ser verificados, intercambiados y modificadas por los usuarios. Los códigos SConstruct están compuestos con las instrucciones
Flow Flujo de procesamiento. Estructura: Flow ('Archivo de salida', 'Archivo de entrada', 'Programas y parámetros de procesamiento').
Plot Gráficas intermedias. Estructura: Plot('Gráfica de salida', 'Archivo de entrada', 'Programas y parámetros de graficación').
Result Gráficas finales, compuestas de gráficas intermedias. Estructura: Result ('Graficafinal', 'Gráficas de entrada', 'Parámetros de graficación').
3) Documentos reproducibles. Conjunto de libros y artículos técnicos. La lista está en: [http://www.reproducibility.org/wiki/Reproducible_Documents].
El formato interno de datos sísmicos de Madagascar se denomina RSF (regularmente muestreado, por sus siglas en inglés) y es compatible con el formato SEGY. La lectura del volumen de datos sísmicos y cambio de formato SEGY a formato RSF se hace con la instrucción Flow de la línea 12 y 13 del flujo SConstruct que presentamos en el apéndice 4. La manipulación del volumen del datos, así como la selección de una sección vertical del volumen está indicada en las líneas 15 a 19 del flujo SConstruct.
Negativo de la segunda derivada
Calcular el negativo de la segunda derivada de los datos sísmicos incrementa la frecuencia y en ciertos casos mejora la continuidad y definición de los reflectores sísmicos. El fundamento es que el operador de derivada en el dominio de la frecuencia implica la multiplicación de la Transformada de Fourier por el producto del número imaginario i y la frecuencia (iω). Por lo tanto, la segunda derivada es igual a multiplicar por (iω)2 = ω2; como la polaridad se invierte, se debe multiplicar por 1 para obtener la polaridad original. El resultado de esta operación en datos sísmicos, en el dominio de las frecuencias, es un corrimiento del espectro hacia las altas frecuencias. De modo similar, el operador de cuarta derivada (que implica la multiplicación de la Transformada de Fourier por (iω)4 = ω4, permite obtener un mayor corrimiento hacia altas frecuencias. En ambos casos hay un incremento en el ruido, sin embargo, el resultado final es interpretable.
El operador del negativo de la segunda derivada está incluido en paquetes comerciales de procesamiento de datos sísmicos. Implementamos el flujo de procesamiento en Madagascar para obtener resultados equivalentes. La figura 1 presenta el resultado de aplicar los operadores de negativo de la segunda y cuarta derivadas, seguidos por un control automático de ganancia para una línea longitudinal del volumen de datos sísmicos.
El resultado de la segunda derivada es satisfactorio si se compara la continuidad y definición de los reflectores sísmicos con los datos originales, como se aprecia en los reflectores de la zona de 1.5 s; el resultado de la cuarta derivada también presenta mejor continuidad y definición, pero presenta un incremento de ruido más notorio. El código para obtener los resultados lo presentamos en el apéndice 4, en las líneas 21 a 33.
La figura 2 muestra la comparación de los espectros de amplitudes, normalizados, de las secciones antes y después de obtener el negativo de la segunda derivada y la cuarta derivada. Como resultado de la aplicación de los operadores hay un corrimiento del espectro hacia las altas frecuencias. Este corrimiento es un producto matemático y aunque los resultados pueden ser interpretables, la consistencia con la geología resulta cuestionable. Presentamos el código para la obtención de los espectros de amplitud en el apéndice 4, en las líneas 35 a 43.
Multiplicador de fase instantánea N
Recientemente, Stark (2009) propuso un algoritmo para incrementar el número de cimas y valles en una traza sísmica. Los resultados son interpretables y pueden enfatizar información geológica, como fallas y pliegues. El algoritmo consiste en incorporar un multiplicador N, o acelerador de la fase instantánea en la ecuación que convierte la amplitud y fase instantánea en una traza sísmica (ec. 1), y se expresa como en la ec. (2):
donde:
xN(t) es la traza sísmica modificada,
A(t) es la amplitud instantánea,
θ(t) es la fase instantánea y
N es el multiplicador o factor de aceleración del giro de la fase instantánea.
Si N=1, entonces la traza generada corresponde a la traza original, i.e., x(t) = xN(t). Si N=2, la frecuencia se duplica y el número de crestas y valles se incrementa el doble; si N=3 se incrementa en tres, y así sucesivamente.
La figura 3 presenta los resultados para N=2 y N=3 en la sección vertical del volumen sísmico que utilizamos anteriormente. Los resultados para N=2 son aparentemente satisfactorios en términos de definición y de continuidad de eventos. No obstante, hay aparición de reflectores sísmicos espurios que no corresponden necesariamente a la geología del subsuelo. Estructuras como pliegues y discontinuidades pueden hacerse más notorios con este operador. El caso N=3 introduce más reflectores espurios y degrada la imagen. El código para obtener los resultados lo presentamos en el apéndice 4, en las líneas 45 a 76.
La figura 4 muestra espectros de amplitudes, normalizados, correspondientes a las secciones de la figura 3 después de aplicar los operadores. Hay un corrimiento del espectro hacia las altas frecuencias, pero dicho incremento no se apega al sentido físico de los datos sísmicos. Presentamos el código correspondiente en el apéndice 4, en las líneas 79 a 84.
Discusión
Los resultados presentados ejemplifican la posibilidad de asimilar y adaptar tecnología de interés en la industria petrolera, en un contexto académico o industrial, a bajo costo, empleando paqueterías de cómputo reproducible instaladas en una computadora personal convencional con un sistema operativo tipo Linux.
Adaptamos una propuesta para enfatizar la imagen sísmica basada en el incremento de frecuencia de la señal sísmica, obteniendo el negativo de la segunda derivada de los datos sísmicos. Los resultados son satisfactorios en términos de definición y continuidad de los reflectores sísmicos. Debido a la naturaleza matemática del operador los resultados son limitados y no son necesariamente consistentes con la geología.
Adaptamos una propuesta reciente para el incremento de resolución vertical basado en un multiplicador N de fase instantánea. Los resultados para incrementos únicos (e.g., N=2) mejoran la continuidad de los eventos y destacan rasgos geológicos como fallas y pliegues; debe tomarse en cuenta que este método genera artefactos numéricos. Los resultados para N=3 introducen muchos reflectores sísmicos espurios. Una explicación es que el incremento en la frecuencia provoca submuestreo de las señales con frecuencia mayor a la frecuencia de Nyquist dividida entre el valor N. Con este ejemplo mostramos que aunque es sencillo obtener un incremento de frecuencia, se debe tener cautela con los operadores utilizados para ello, pues no se apegan necesariamente al sentido físico de los datos.
Los flujos de trabajo o secuencias de instrucciones con formato reproducible (e.g., el apéndice 4) pueden adaptarse, con relativa sencillez, a datos nuevos.
Dichos flujos facilitan la detección de errores durante las implementaciones con nuevos datos. Además, por su estructura facilitan la comprensión de la relación entre los programas a ejecutar y los archivos de entrada y salida.
Conclusiones
1. La reproducibilidad es de gran utilidad en la docencia, investigación, capacitación de profesionales e incluso en la práctica profesional. Representa beneficios académicos, técnicos y económicos como:
a) disminuir la dependencia de licencias de programas comerciales para llevar a cabo in vestigación,
b) posibilitar la adaptación, el desarrollo y transferencia de tecnología y
c) auxiliar la administración y transmisión eficiente del conocimiento.
2. Puede advertirse que la publicación con formato reproducible cobrará mayor importancia en el futuro. Por ese motivo, consideramos que la investigación en representación sísmica, en el ámbito nacional, debe atender dicha tendencia para hacer eficiente la administración y divulgación del conocimiento.
3. La existencia de programas de código abierto representa un gran apoyo, tanto en la investigación como en la docencia. Al investigador le permiten llevar a cabo su trabajo sin la necesidad de comprar licencias de paquetes comerciales. A los profesores y estudiantes, les permite trabajar con herramientas a las que no podrían tener acceso de otra manera. Dada la diversidad de programas de código abierto, consideramos que existen herramientas que ayudan a resolver algunos de los problemas básicos de representación sísmica y de interés actual.
4. Como prueba de lo anterior, efectuamos actividades realizadas en la industria de la exploración sísmica en una computadora personal convencional a la que le instalamos una paquetería de código abierto de procesamiento de datos sísmicos y desarrollamos flujos de trabajo para enfatizar imágenes sísmicas.
5. Los documentos reproducibles fueron un apoyo fundamental para la aplicación de las herramientas que empleamos y nos permitieron desarrollar las actividades que presentamos.
6. Comprobamos que es posible asimilar, adaptar, desarrollar y transferir tecnología de interés en la industria petrolera a bajo costo, empleando paqueterías de código abierto y siguiendo un esquema de cómputo reproducible.
Agradecimientos
A Marco Vázquez García, Gerente de Estudios Geofísicos de PEMEX Exploración y Producción, por proporcionar financiamiento, datos sísmicos y permiso para publicarlos. A Liliana Vargas Meleza, del Instituto Mexicano del Petróleo, cuyas observaciones y revisión fueron un gran apoyo y a Cinna Lomnite, del Instituto de Geofísica de la UNAM, por sus comentarios en torno al acceso abierto a la información.
Referencias
Donoho D.L., Maleki A., Morteza S., UrRahman I., Stodden V. Reproducible Research in Computational Harmonic Analysis. Computing in Science & Engineering, 11(1):818, enerofebrero 2009. [ Links ]
Fomel S. y Claerbout J. Reproducible Research. Computing in Science & Engineering, 11(1):57, enerofebrero 2009. [ Links ]
GonzálezVerdejo O. Reproducibilidad en representación sísmica. Tesis (licenciatura en ingeniería geofísica), México DF, Universidad Nacional Autónoma de México, Facultad de Ingeniería, Febrero de 2010, 71p. [ Links ]
Hall M., The Future is Open for Business: Open Source Tools for the Geoscientist. First Break, 28(6):119123, junio de 2010. [ Links ]
LeVeque R.J. Python Tools for Reproducible Research on Hyperbolic Problems. Computing in Science and Engineering, 11(1):1927, enerofebrero 2009. [ Links ]
Stark T.J. Frequency Enhancement Via an Integer Multiplier or Just Another GeoWizardry Attribute?, en: Reunión anual de la Sociedad de Geofísicos de Exploración, (79ª, 2009, Houston, EEUU). Resumen disponible a través de la SEG en: http://www.seg.org [ Links ]
Stodden V. The Legal Framework for Reproducible Scientific Research. Computing in Science & Engineering, 11(1):3540, enerofebrero 2009. [ Links ]
Stodden V. Enabling Reproducible Research: Open Licensing for Scientific Innovation [en línea]. Universidad de Stanford, California, EUA, 2008. [fecha de consulta marzo de 2010]. Disponible en: http://www.stanford.edu/~vcs/papers/Licensing08292008.pdf [ Links ]
Semblanza de los autores
Oziel GonzálezVerdejo. Obtuvo el título de ingeniero geofísico en la Facultad de Ingeniería de la UNAM en 2010. Actualmente trabaja en la empresa de servicio EMGS. Su área de interés profesional es la sismología de exploración.
Sergio ChávezPérez. Obtuvo los títulos de ingeniero geofísico en 1984 por la Facultad de Ingeniería de la UNAM, el de maestro en ciencias (geofísica) en 1987 por la Universidad de Carolina del Sur, EUA y el de doctor en filosofía (geofísica) en 1997 por la Universidad de Nevada, Reno, EUA. Actualmente es investigador en el Instituto Mexicano del Petróleo y profesor de asignatura de la Facultad de Ingeniería de la UNAM. Sus áreas de interés profesional son: representación sísmica (migración, modelado, tomografía e inversión), procesamiento de datos sísmicos y transformación de campos de ondas, interpretación de datos sísmicos y propagación de ondas sísmicas.