Recibido: 20/08/2024
Aceptado: 15/03/2025
Disponible en línea: 19/05/2025
Publicado: 31/07/2025

REVISTA DE TELEDETECCIÓN
Asociación Española de Teledetección
(2025) 66, 22291
ISSN 1133-0953
EISSN 1988-8740
https://doi.org/10.4995/raet.2025.22291
Mery L. Picco*, Marcelo S. Ruiz, Juliana R. Maldonado
Departamento de Matemáticas, Universidad Nacional de Río Cuarto, Río Cuarto, Argentina.
Resumen: En el procesamiento de imágenes hiperespectrales de teledetección la selección de bandas es una tarea imprescindible para muchas aplicaciones específicas, entre ellas la clasificación supervisada. El objetivo de este trabajo es comparar el desempeño de la estrategia clásica, que consiste en realizar selección de variables como paso previo a la clasificación, con nuevas propuestas de algoritmos penalizados que realizan clasificación y selección de variables simultáneamente. Para la comparación se utilizó un extracto de una imagen hiperespectral EO-1 Hyperion, la cual abarca una zona de la provincia de Córdoba, Argentina. Adicionalmente se llevó a cabo un estudio de simulación. Los resultados obtenidos muestran que los algoritmos penalizados son más efectivos para seleccionar bandas relevantes a la vez que presentan buenas propiedades predictivas, principalmente en el contexto de alta dimensionalidad, esto es cuando el tamaño de la muestra de entrenamiento es pequeño con relación al número de variables.
Palabras clave: imágenes hiperespectrales, selección de bandas, clasificación, métodos de regularización.
Band selection for hyperspectral image visualization and classification
Abstract: In the hyperspectral remote sensing images processing, band selection is an essential task for many specific applications, including supervised classification. The objective of this work is to compare the performance of the classical strategy, which involves variable selection as a preliminary step to classification, with new proposals of penalized algorithms that perform classification and variable selection simultaneously. For the comparison, an extract of a hyperspectral image EO-1 Hyperion, covering an area in the province of Córdoba, Argentina, was used. Additionally, a simulation study was conducted. The obtained results show that penalized algorithms are more effective in selecting relevant bands while providing good predictive properties, mainly in the context of high dimensionality, that is, when the size of the training sample is small relative to the number of variables.
Key words: hyperspectral images, band selection, classification, regularization methods.
Las imágenes hiperespectrales de teledetección recopilan información de la cobertura terrestre en cientos de bandas del espectro electromagnético por lo cual resultan de gran utilidad en muchos campos, tales como la agricultura (Marshall y Thenkabail, 2015), el monitoreo del efecto del cambio climático (Dmitriev et al., 2022), el reconocimiento de objetos (Lone y Pais, 2022), etc. Un primer desafío que se presenta en el procesamiento de estas imágenes es la visualización en un monitor, ya que requiere seleccionar tres bandas de todas las disponibles a fin de obtener una composición color RGB (del inglés Red, Green, Blue). Dependiendo de las bandas seleccionadas y del orden de asignación a los tres colores se obtendrá una visualización diferente y será posible resaltar algún tipo de cobertura de interés. Otro desafío es la construcción de un mapa temático, es decir una imagen en la que cada píxel contiene una etiqueta que representa el tipo de cobertura u objeto presente en la escena o porción de tierra. Para este propósito, se utilizan métodos de clasificación, y entre ellos, los supervisados son los más eficientes (Chang et al., 2020; Nijhawan et al., 2017). Formalmente hablando, en el problema de clasificación se tiene una variable respuesta cualitativa Y, un vector de p variables predictoras y se asume que existe una relación funcional entre ellas, donde denota el error. Existen muchos algoritmos que permiten estimar el modelo a partir de un conjunto de datos observados, y dos razones principales para hacerlo: inferencia y predicción (James et al., 2021). Si el objetivo es sólo predecir la variable respuesta para una nueva observación, en general no se está interesado en conocer la forma de sino en la precisión de la predicción. No obstante, en muchas situaciones el objetivo incluye determinar qué variables predictoras son relevantes para la clasificación, en lugar de sólo construir un modelo predictivo de “caja negra”. En tal caso será preferible un algoritmo que simultáneamente alcance alta precisión para predecir y que también realice selección de variables. Por otro lado, cuando el número de variables predictoras es grande suele ocurrir que algunas o muchas de ellas no están asociadas con la variable respuesta, e incluir tales variables irrelevantes no solo lleva a un modelo complejo y difícil de interpretar, sino que también puede empeorar la precisión de la predicción (Kursa y Rudincki, 2010). Otro problema que se puede presentar es el de alta dimensionalidad, esto es cuando el tamaño de la muestra de entrenamiento es similar o menor a la cantidad de variables predictoras, lo cual lleva a que los algoritmos clásicos de clasificación, tales como regresión logística (RL) y análisis discriminante lineal (ADL), se vuelvan inestables o directamente inaplicables (Zou, 2019; Witten y Tibshirani, 2011). En el caso de las imágenes de teledetección hiperespectrales, la variable respuesta observada en un píxel es el tipo de cobertura o la clase a la que pertenece el mismo y las bandas, que van desde el ultravioleta al infrarrojo, asumen el papel de las variables predictoras. En este contexto, es de gran importancia tanto la selección de bandas relevantes (bandas activas) capaces de distinguir distintos tipos de cobertura, así como también la eliminación de información espectral redundante producida por la alta correlación entre bandas, lo que generalmente empeora la calidad de la clasificación (Esmaeili et al., 2023). Una estrategia para eliminar variables irrelevantes podría consistir en aplicar algún método de selección de variables y luego realizar la clasificación (Huang et al., 2023; Zhang et al., 2023; Sun y Du, 2019). En el contexto de regresión lineal, los algoritmos de selección de variables más usados son aquellos que eligen el mejor modelo en forma secuencial, tales como forward (selección hacia adelante), backward (eliminación hacia atrás) y stepwise que es una combinación de los dos anteriores. Kursa y Rudincki (2010) proponen el algoritmo Boruta que se basa en el clasificador random forest (RF) (Breiman, 2001), el cual consiste en una colección de árboles de clasificación (o regresión) creados usando bagging o boostrap y provee además una descripción de la contribución de cada variable en la forma de “importancia de la variable”. Este algoritmo es más rápido que los métodos de selección progresiva, no se ve afectado por la relación entre la cantidad de variables predictoras y el tamaño de la muestra, y la mayor ventaja es que brinda una estimación numérica de la importancia de cada variable predictora. Tampoco requiere la estimación de parámetros.
En las últimas décadas han ganado popularidad los métodos de regularización que permiten realizar selección de variables y clasificación simultáneamente. Entre ellos, el más ampliamente utilizado es lasso (del inglés least absolute shrinkage and selection operator) (Tibshirani, 1996; Yuan y Lin, 2006; Zhang, 2010). Una modificación a lasso fue propuesta en Zou y Hastie (2005), llamada elastic net, la cual logra una mejor selección cuando existen grupos de variables predictoras correlacionadas. Friedman et al., (2010) introducen un algoritmo computacionalmente eficiente para la estimación de modelos de regresión logística multinomial regularizados. Por otro lado, en Witten y Tibshirani (2011) se propone una versión penalizada del análisis discriminante lineal (ADL_pen), la cual produce vectores discriminantes ralos, es decir con algunos coeficientes estimados iguales a cero, de modo que la clasificación y la selección de características se realizan simultáneamente. En Adenan et al. (2022) y Herawati et al. (2024) se compara el desempeño de regresión logística con penalización lasso (RLL) y con penalización elastic net (EN) en un conjunto de datos reales, mientras que en Lu y Petkova (2014) se incluyen además RL y RF. En este último trabajo se realiza también un estudio de simulación con distintos escenarios de correlación, inspirados en datos reales provenientes del campo de la psicología. En Picco y Ruiz (2022) se compara RF y ADL_pen a partir de una imagen hiperespectral de teledetección y de un estudio de simulación, pero no se evalúan los algoritmos con respecto a su capacidad para seleccionar bandas. El objetivo de este trabajo es comparar el desempeño de los clasificadores lineales regularizados RLL, EN y ADL_pen, con sus versiones sin penalizar (ADL y RL) utilizando todas las variables y también sólo aquellas seleccionadas por stepwise (RL_S) y Boruta (RL_B). La comparación se realiza tanto desde la perspectiva de la precisión de la predicción como de la capacidad para seleccionar variables relevantes. En el estudio se incluyó también RF por ser un clasificador no lineal que ha demostrado un buen desempeño en la clasificación de imágenes hiperespectrales, y aunque no produce un modelo interpretable, otorga una medida de importancia de las variables predictoras (Zhang et al., 2019; Xia et al., 2016). La comparación se realiza a través de una imagen hiperespectral de teledetección y de un estudio de simulación con diferentes escenarios a fin de evaluar la estabilidad de los métodos. Para la implementación se utilizó el software R (R Core Team, 2020).
Se utilizó un extracto de 209 filas y 167 columnas de una imagen satelital hiperespectral obtenida por la cámara EO-1 Hyperion a bordo del satélite Earth Observing-1 (EO-1), abarcando el Valle de Calamuchita, Córdoba, Argentina (área de estudio EO1H2290822012007110P11T). Dicha imagen, adquirida con fecha 07/2012, consta de 220 bandas todas ellas con una resolución espacial de 30 metros. Los datos son valores de radiancia y están corregidos radiométricamente y ortorrectificados. En la Figura 1 se presenta una composición RGB de la imagen y en la Figura 2 su contextualización geográfica. Se eliminaron 44 bandas no informativas (con valores de radiancia cero), así como las bandas de absorción de agua 120-132, 165-182, 185-187, 221-224, quedando 160 bandas que serían útiles para análisis posteriores. Para la clasificación, se consideraron seis clases: agua, edificaciones urbanas, tres zonas con distinto índice de vegetación y suelo desnudo.

Figura 1. Composición RGB (31;128;40).

Figura 2. Contextualización geográfica de la imagen. Fuente del mapa base: https://www.idecor.gob.ar/
Sea el vector de p variables predictoras e la variable respuesta, donde K representa el número de clases en que se divide el espacio de variables predictoras. El modelo de regresión logística se puede expresar como:
O equivalentemente
Los parámetros estimados, y se pueden obtener a partir de n observaciones (muestra de entrenamiento), maximizando el logaritmo de la función de verosimilitud:
donde, para cada i, representa una medición de las variables predictoras e yi es la correspondiente observación de la variable respuesta. Una nueva observación x* será asignada a la clase k que maximice .
En este trabajo se aplicó regresión logística utilizando todas las variables predictoras, así como también utilizando las variables seleccionadas por los algoritmos stepwise y Boruta. Boruta consiste en agregar al conjunto de datos las llamadas “variables sombra” que son permutaciones de las variables originales, y tras obtener la medida de importancia (decrecimiento del índice de Gini) de todas las variables (las originales y las permutadas) se registra para cada variable original si tiene una importancia que supera al mayor valor de importancia de las variables sombra. En caso afirmativo la variable se etiqueta como éxito. El proceso se repite m veces y se define NXi como el número de éxitos para Xi, 1 ≤ i ≤ p, resultando HXi ~ Bi (m,π). Finalmente se realiza un test de hipótesis para cada variable predictora con hipótesis H0: π ≤ 0,5 (la variable no es relevante en el modelo) y H1: π > 0,5 (la variable es relevante). Por lo general m es grande y se utiliza la aproximación normal a la binomial, calculando un puntaje Z para cada variable y comparándolo con el valor crítico del 5% de la distribución Gaussiana.
Para la implementación en R se usaron las siguientes funciones: stepAIC del paquete MASS, Boruta del paquete homónimo y multinom del paquete nnet.
La regularización lasso de la regresión logística consiste en agregar a la función de log-verosimilitud un término de penalización de manera que los estimadores lasso, y , son los argumentos que maximizan
donde λ ≥ 0 es el parámetro de penalización o regularización y es la norma de β. La norma utilizada en el término de penalización ocasiona que muchos coeficientes estimados sean iguales a cero cuando el parámetro λ es suficientemente grande, por lo cual lasso produce modelos ralos, es decir modelos que involucran sólo un subconjunto de variables (para más detalles ver Hastie et al., 2009). Si bien lasso ha demostrado un buen desempeño en muchas situaciones, presenta limitaciones cuando hay alta correlación entre las variables predictoras, por ejemplo, si hay grupos de variables entre las cuales la correlación de a pares es alta, lasso tiende a seleccionar solamente una del grupo y no es cuidadoso sobre cuál de ellas selecciona (Wang et al., 2019). En Zou y Hastie (2005) se propone la penalización EN, la cual también permite realizar selección automática de variables a la vez que puede seleccionar grupos de variables correlacionadas. La técnica consiste en agregar dos términos de penalización, de manera que los coeficientes estimados se obtienen maximizando la función
donde ; son los parámetros de penalización y es la norma de . RLL y EN son particularmente útiles cuando el número de variables predictoras es mucho mayor que el número de observaciones. Ambos algoritmos se pueden aplicar en R usando el paquete glmnet.
Se asume que el vector de variables predictoras verifica con , donde K representa la cantidad de clases, el vector de medias de la clase k y la matriz de covarianza común a todas las clases. El estimador de máxima verosimilitud de es:
donde contiene los índices de las observaciones de la clase k. Por otro lado, el estimador estándar de la matriz de covarianza entre clases es:
Uno de los enfoques del cual se deriva la regla de clasificación ADL es el llamado problema discriminante de Fischer, el cual consiste en encontrar vectores tales que secuencialmente resuelvan
sujeto a y , .
Es decir, lo que se busca es una proyección en un espacio de menor dimensión tal que la varianza entre clases sea relativamente grande comparada con la varianza dentro de clases. Por lo general, hay k-1 soluciones no triviales, las cuales reciben el nombre de vectores discriminantes. La regla de clasificación para una nueva observación x* consiste en calcular y asignar la observación a la clase que minimice la distancia al vector de medias en el espacio transformado. ADL se puede realizar en R con la función lda del paquete MASS.
Dado que el cálculo de los vectores discriminantes requiere que la matriz de covarianza estimada sea no singular, ADL no es aplicable cuando el número de variables predictoras es mayor que el número de observaciones (alta dimensionalidad). Aún en el caso n > p, si p es grande aumenta el error de estimación debido a la gran cantidad de parámetros en ∑w, lo cual resulta en que su inversa sea un estimador sesgado de . Para solucionar estos problemas y a la vez producir un clasificador interpretable que no incluya información redundante, Witten y Tibshirani (2011) proponen una regularización de ADL por medio de agregar una penalización de tipo sobre el tamaño de los vectores discriminantes. El k-ésimo vector discriminante penalizado se define como la solución a
sujeto a donde es un estimador de rango completo de ∑w tal como
Cuando el parámetro de penalización λ es grande varios coeficientes serán exactamente cero (vectores discriminantes estimados ralos) con lo que sólo algunas de las p variables serán utilizadas en la regla de clasificación. La función penalizedLDA del paquete homónimo de R permite realizar este análisis. El valor óptimo de los parámetros de penalización, tanto en RLL como en ADL_pen, se encuentra mediante validación cruzada, lo cual consiste en dividir aleatoriamente el conjunto disponible de observaciones en dos partes, un conjunto de entrenamiento y un conjunto de validación. El modelo se ajusta usando los datos de entrenamiento y se utiliza para predecir las respuestas de las observaciones en el conjunto de validación. Para cada valor del parámetro seleccionado de una grilla de valores, se repite r veces el procedimiento y la tasa de error promedio proporciona una estimación de la tasa de error asociada al parámetro.
Con el objetivo de estudiar la estabilidad de los métodos se llevó a cabo un estudio de simulación, en el cual se asume que la variable respuesta es binaria (dos clases) y el vector de variables predictoras tiene distribución normal multivariada: . La variable respuesta fue generada a partir de una distribución Bernoulli de parámetro dado por la Ecuación (1), con coeficiente
lo cual indica que sólo d variables predictoras están relacionadas con la variable respuesta (variables activas) mientras que las p – d restantes resultan variables inactivas.
Se consideraron tres situaciones de correlación entre las variables predictoras:
Situación 1: la matriz de covarianza fue definida por bloques:
donde ∑AA es la matriz de correlación entre las variables activas, ∑II entre las variables inactivas y ∑AI entre activas e inactivas. Se consideró ∑AA=∑II, con entradas fuera de la diagonal igual a 0,7, y ∑AI con entradas fuera de la diagonal igual a 0,3. La situación 2 es idéntica a la situación 1 con valores de correlación permutados, es decir ∑AA=∑II con entradas fuera de la diagonal igual a 0,3, y ∑AI con entradas fuera de la diagonal igual a 0,7. Por último, para la situación 3 se generó la matriz de covarianza a partir de un modelo autoregresivo AR(1), con entradas fuera de la diagonal . Este modelo implica que la correlación entre bandas decrece a medida que aumenta la distancia entre ellas en el espectro electromagnético. Cada situación fue replicada bajo dos escenarios de relación entre cantidad de variables predictoras y tamaño de muestra. Escenario 1: p =14, n = 100 (caso clásico donde n > p) y escenario 2: p =200, n = 100 (alta dimensionalidad donde n < p). La elección de los valores de p se inspiró en el número de bandas de las imágenes de teledetección mutiespectrales e hiperespectrales respectivamente. Además, para cada escenario se consideraron dos cantidades de variables activas: d = 5 y d = 10 para el 1, d = 10 y d = 35 para el 2. Para cada combinación situación-escenario se realizaron 100 repeticiones y la tasa de mal clasificados se calculó a partir de un conjunto de 1000 puntos test (m = 1000).
Las medidas utilizadas para evaluar el desempeño de los algoritmos fueron las siguientes: tasa de mal clasificados (calculada a partir de un conjunto de datos test), tasa de verdaderas variables activas (TVA) y de falsas variables activas (TFA) calculadas como
Donde si y y en caso contrario.
Para la imagen hiperespectral se dispuso de una muestra de 80 píxeles de cada clase (480 en total). La tasa de mal clasificados de cada algoritmo se estimó mediante validación cruzada con cuatro particiones, cada una de las cuales consistió de 120 píxeles elegidos al azar para entrenamiento y 360 píxeles test. Para la construcción del mapa temático se trabajó con una muestra de entrenamiento de 240 píxeles (40 para cada clase) a fin de ponernos en un contexto de alta dimensionalidad en donde n es cercano a p.
En todos los casos se obtuvieron resultados muy similares al variar el parámetro d, por lo que se presentan y discuten los correspondientes a d = 5 para el escenario 1, y d = 10 para el escenario 2. En los diagramas de cajas presentados en la Figura 3 se observa que, en general, los clasificadores regularizados (RLL, EN y ADL_pen) tienen un mejor desempeño que sus versiones sin penalizar (ADL y RL) y también con respecto a la estrategia clásica de realizar selección de variables como paso previo a la clasificación (RL_S y RL_B), superando incluso a RF, el cual es un algoritmo muy popular. De los tres métodos con regularización, ADL_pen y EN presentan la menor tasa de mal clasificados, siendo muy similares entre ellos. En cuanto a la identificación de variables predictoras relevantes, comparando los resultados obtenidos de las medidas TVA y TFA (ver Tabla 1), los algoritmos Boruta y ADL_pen resultaron los más eficientes, salvo en la situación 2 donde todos fallaron.

Figura 3. Tasa de observaciones mal clasificados de todos los algoritmos en cada situación y escenario de simulación (promedio de 100 repeticiones). (a) situación 1-escenario 1. (b) situación 1-escenario 2. (c) situación 2-escenario 1. (d) situación 2-escenario 2. (e) situación 3-escenario 1. (f) situación 3-escenario 2.
Tabla 1. Tasas de verdaderas activas y falsas activas (promedio sobre 100 repeticiones) para los diferentes algoritmos en distintas situaciones-escenarios.
Situación 1 |
Situación 2 |
Situación 3 |
||||||||||
Escenario 1 |
Escenario 2 |
Escenario 1 |
Escenario 2 |
Escenario 1 |
Escenario 2 |
|||||||
TVA |
TFA |
TVA |
TFA |
TVA |
TFA |
TVA |
TFA |
TVA |
TFA |
TVA |
TFA |
|
Stepwise |
0.80 |
0.37 |
1.00 |
0.99 |
0.83 |
0.70 |
0.98 |
0.90 |
0.60 |
0.38 |
1.00 |
0.99 |
Boruta |
1.00 |
0.33 |
1.00 |
0.06 |
1.00 |
0.98 |
0.58 |
0.86 |
1.00 |
0.67 |
1.00 |
0.04 |
RLL |
0.78 |
0.40 |
0.72 |
0.05 |
0.63 |
0.80 |
0.16 |
0.25 |
0.69 |
0.34 |
0.64 |
0.06 |
EN |
0.80 |
0.37 |
0.83 |
0.05 |
0.78 |
0.95 |
0.53 |
0.72 |
0.78 |
0.51 |
0.86 |
0.05 |
ADL_pen |
1.00 |
0.02 |
0.97 |
0.01 |
1.00 |
0.97 |
0.96 |
0.91 |
0.99 |
0.30 |
1.00 |
0.03 |
Para la composición RGB presentada en la Figura 1 se utilizaron tres bandas seleccionadas por EN para la clase de alto índice de vegetación, mientras que la Figura 4 se generó con tres bandas elegidas al azar. Se puede observar que la selección de bandas de EN permite identificar más clases (colores), logrando una mejor visualización. Stepwise seleccionó tres bandas (15, 74 y 134), mientras que Boruta no hizo selección, lo cual quizás pueda deberse a la alta correlación entre ellas (Rotari y Kulachi, 2023). Las tasas de mal clasificados (promedios de las 4 particiones) fueron: 0,15, 0,14, 0,08, 0,03, 0,015, 0,014 y 0,013 para ADL, RL, RL_S; RLL, EN, ADL_pen y RF respectivamente. Estos datos muestran que, si bien se logra una mejora usando las bandas seleccionadas por stepwise, los métodos regularizados alcanzan mayor precisión en la clasificación, siendo EN y ADL_pen los que arrojan valores menores, muy similares a RF.

Figura 4. Composición RGB (10;40;100) con bandas seleccionadas al azar.
Las imágenes de clases obtenidas con RL y ADL tienen mucho ruido y se ven artefactos (ver Figura 5 (a) y 5 (e)). Esto se debe al problema de alta dimensionalidad, donde los datos son insuficientes para estimar la gran cantidad de parámetros de los métodos, tornándolos inestables e imprecisos. Los mapas temáticos obtenidos con los algoritmos penalizadas (Figura 5 (c), 5 (d) y 5 (f)) son significativamente superiores a los producidos por sus versiones sin penalizar. Aunque las tasas de mal clasificados de RLL, EN, ADL_pen y RF son muy similares, las imágenes de clases resultantes son diferentes, sobre todo en la clase edificaciones urbanas. ADL_pen parece ser el clasificador que mejor describe la verdad del terreno, seguido por RF que también tuvo un buen desempeño (Figura 5 (g)).

Figura 5. Mapas temáticos obtenidos con cada uno de los algoritmos comparados. (a) RL; (b) RL_S; (c) RLL; (d) EN; (e) ADL; (f) ADL_pen; (g) RF.
A partir del estudio de simulación, se puede concluir que la cantidad de variables activas y la relación número de variables predictoras-tamaño de muestra (escenarios) no afectan a los resultados, pero sí lo hace la estructura de la matriz de covarianza (situaciones). En particular, cuando la correlación entre variables activas e inactivas es mayor que las demás (situación 2) todos los algoritmos fallaron en identificar variables activas. Recientemente se han desarrollado algoritmos de selección y clasificación simultánea que parecen funcionar mejor en este caso, pero los mismos sólo están disponibles para ser aplicados con variable respuesta binaria (Zhu et al., 2023). En todos los casos considerados, los métodos de clasificación regularizados tienen ventajas con respecto a la estrategia clásica de realizar selección de variables como paso previo a la clasificación, tanto desde el punto de vista de la precisión de la clasificación (tasa de mal clasificados) como de la capacidad para identificar variables activas. En particular stepwise, que es el método más conocido para selección de variables en modelos de regresión, tuvo un mal desempeño, siendo además un procedimiento sumamente lento. Los resultados coinciden con algunos hallados en estudios similares, por ejemplo, Herawati et al. (2024) concluyen que en presencia de multicolinealidad, la penalización EN presenta un error cuadrático medio menor que la penalización lasso y la regresión lineal sin penalizar, basados en un experimento de simulación y en un conjunto de datos reales, ambos con variable respuesta cuantitativa. Greenwood et al. (2020) muestran también la superioridad de los algoritmos regularizados RLL y EN con respecto al método de selección forward sobre un conjunto de datos reales, utilizando como medida de evaluación el área debajo de la curva ROC.
Es interesante notar que, salvo en la situación 2, EN alcanza altas tasas de verdaderas activas y bajas de falsas activas (especialmente en el escenario 2), y si bien no es el mejor, tiene la ventaja de seleccionar distintas variables predictoras para cada una de las categorías de la variable respuesta (clases), a diferencia de ADL_pen, donde sólo es posible rescatar los coeficientes distintos de cero en cada uno de los vectores discriminantes, los cuales no necesariamente están asociados con una clase en particular. Esto es especialmente útil para la visualización de imágenes hiperespectrales, donde hay cientos de bandas disponibles, pues permite identificar aquellas más convenientes dependiendo de la clase que se quiera resaltar. Teniendo en cuenta las tres medidas utilizadas para evaluar el desempeño de los métodos, se puede ver que, en general, ADL_pen tuvo el mejor desempeño. RF tuvo un buen comportamiento en la clasificación de la imagen real, no obstante, aunque otorga una medida de importancia de las variables predictoras, no es un método que realice selección de variables. Si bien los clasificadores no lineales pueden lograr mayor precisión en la predicción de la variable respuesta para nuevas observaciones, tienen la desventaja de no producir modelos interpretables que permitan identificar variables predictoras relevantes (James et al., 2021). El alcance de estas conclusiones podría ampliarse mediante un estudio de simulación con variable repuesta no binaria, así como también mediante el uso de una mayor cantidad de imágenes hiperespectrales de teledetección.
En este trabajo se mostró la importancia de la selección de variables predictoras relevantes mediante un estudio de simulación con varias situaciones de variables activas, relación entre tamaño de muestra y cantidad de variables predictoras, y estructuras de correlación. También se utilizó una imagen real de teledetección hiperespectral. Los resultados nos llevan a concluir que los algoritmos lineales regularizados tienen ventajas con respecto a la estrategia clásica de realizar selección de variables como paso previo a la clasificación. Si bien estos métodos fueron diseñados para contextos de alta dimensionalidad, el estudio realizado demuestra que pueden aplicarse exitosamente aun cuando el tamaño de la muestra es bastante mayor que el número de variables predictoras.
Adenan, N. I., Mohamad, M., Rambli, A. (2022). The Performance of Ridge Regression, LASSO and Elastic Net in Modeling Market Value Data*. International Journal of Academic and Applied Research (IJAAR), 6(9), 131-134.
Breiman, L. (2001). Random Forests. Machine Learning, 45, 5-32. https://doi.org/10.1023/A:1010933404324
Chang, Z., Du, Z., Zhang, F., Huang, F., Chen, J., Li, W., Guo, Z. (2020). Landslide Susceptibility Prediction Based on Remote Sensing Images and GIS: Comparisons of Supervised and Unsupervised Machine Learning Models. Remote Sensing, 12(3), 502. https://doi.org/10.3390/rs12030502
Dmitriev, P. A., Kozlovsky, B. L., Dmitrieva, A. A., Rajput, V. D., Minkina, T. M., Varduni, T. V. (2022). Identification of species of the genus Populus L. based on the data of hyperspectral crown survey for climate change monitoring. Environmental Challenges, 9(100619). https://doi.org/10.1016/j.envc.2022.100619
Esmaeili, M., Abbasi-Moghadam, D., Sharif, A., Tariq, A. (2023). Hyperspectral Image Band Selection Based on CNN Embedded GA (CNNeGA). IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 16, 1927-1950. https://doi.org/10.1109/JSTARS.2023.3242310
Friedman, J., Hastie, T., Tibshirani, R. (2010). Regularization paths for generalized linear models via coordinate descent. Journal of statistical software, 33(1). https://doi.org/10.1163/ej.9789004178922.i-328.7
Greenwood, C. J., Youssef, G. J., Letcher, P., Macdonald, J. A., Hagg, L. J., Sanson, A., . . . Olsson, C. A. (2020). A comparison of penalised regression methods for informing the selection of predictive markers. PloS one, 15(11), e0242730. https://doi.org/10.1371/journal.pone.0242730
Hastie, T., Tibshirani, R., Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer Series in Statistics. https://doi.org/10.1007/978-0-387-84858-7
Herawati, N., Wijayanti, A., Sutrisno, A., Nusyirwan, Misgiyati. (2024). The Performance of RidgeRegression, LASSO, and Elastic-Net in Controlling Multicollinearity: A Simulation and Application. Journal of Modern Applied Statistical Methods, 23. https://doi.org/10.56801/Jmasm.V23.i2.4
Huang, T., Ou, G., Wu, Y., Zhang, X., Liu, Z., Xu, H., … Xu, C. (2023). Estimating the Aboveground Biomass of Various Forest Types with High Heterogeneity at the Provincial Scale Based on Multi-Source Data. Remote Sensing, 15(14), 3550. https://doi.org/10.3390/rs15143550
James, G., Witten, D., Hastie, T., Tibshirani, R. (2021). An Introduction to statistical Learning with applications in R. Springer. https://doi.org/10.1007/978-1-0716-1418-1
Kursa, M.B., Rudnicki, W.R. (2010). Feature Selection with the Boruta Package. Journal of Statistical Software, 1-13. https://doi.org/10.18637/jss.v036.i11
Lone, Z.A., Pais, A.R. (2022). Object detection in hyperspectral images. Digital Signal Processing, 131(103752). https://doi.org/10.1016/j.dsp.2022.103752
Lu, F., Petkova, E. (2014). A comparative study of variable selection methods in the context of developing psychiatric screening instruments. Statistics in medicine, 33(3), 401-421. https://doi.org/10.1002/sim.5937
Marshall, M., Thenkabail, P. (2015). Advantage of hyperspectral EO-1 Hyperion over multispectral IKONOS, GeoEye-1, WorldView-2, Landsat ETM+, and MODIS vegetation indices in crop biomass estimation. ISPRS journal of photogrammetry and remote sensing, 108, 205-218. https://doi.org/10.1016/j.isprsjprs.2015.08.001
Nijhawan, R., Srivastava, I., Shukla, P. (2017). Land cover classification using super-vised and unsupervised learning techniques. 2017 International Conference on Computational Intelligence in Data Science (ICCIDS), 1-6. https://doi.org/10.1109/ICCIDS.2017.8272630
Picco, M., Ruiz, M. (2022). Sparse Estimation of the Precision Matrix and Plug-In Principle in Linear Discriminant Analysis for Hyperspectral Image Classification. Trends in Computational and Applied Mathematics, 23, 595-605. https://doi.org/10.5540/tcam.2022.023.03.00595
R Core Team. (2020). R: A Language and Environment for Statistical Computing. (R. F. Computing, Productor) Obtenido de https://www.R-project.org/
Rotari, M., Kulachi, M. (2023). Variable selection wrapper in presence of correlated input variables for random forest models. Quality and Reliability Engineering International, 40. https://doi.org/10.1002/qre.3398
Sun, W., Du, Q. (2019). Hyperspectral band selection: A review. IEEE Geoscience and Remote Sensing Magazine, 7(2), 118-139. https://doi.org/10.1109/MGRS.2019.2911100
Tibshirani, R. (1996). Regression shrinkage and selection via the Lasso. Journal of the Royal Statistical Society. Series B (Methodological), 58(1), 267-288. https://doi.org/10.1111/j.2517-6161.1996.tb02080.x
Wang, H., Lengerich, B., Aragam, B., Xing, E. (2019). Precision Lasso: accounting for correlations and linear dependencies in high-dimensional genomic data. Bioinformatics, 35(7), 1181-1187. https://doi.org/10.1093/bioinformatics/bty750
Witten, D., Tibshirani, R. (2011). Penalized classification using Fisher’s linear discriminant. Journal of the Royal Statistical Society Series B: Statistical Methodology, 73(5), 753-772. https://doi.org/10.1111/j.1467-9868.2011.00783.x
Xia, J., Falco, N., Benediktsson, J., Du, P., Chanussot, J. (2016). Hyperspectral Image Classification with Rotation Random Forest Via KPCA. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, PP. https://doi.org/10.1109/JSTARS.2016.2636877
Yuan, M., Lin, Y. (2006). Model selection and estimation in regression with grouped variables. Journal of the Royal Statistical Society Series B, 68, 49-67. https://doi.org/10.1111/j.1467-9868.2005.00532.x.
Zhang, C. (2010). Nearly unbiased variable selection under minimax concave penalty. The Annals of Statistics, 38(2), 894-942. https://doi.org/10.1214/09-AOS729
Zhang, Y., Cao, G., Li, X., Wang, B., Fu, P. (2019). Active Semi-Supervised Random Forest for Hyperspectral Image Classification. Remote Sensing, 11(24), 2974. https://doi.org/10.3390/rs11242974
Zhang, Y., Liu, J., Li, W., Liang, S. (2023). A Proposed Ensemble Feature Selection Method for Estimating Forest Aboveground Biomass from Multiple Satellite Data. Remote Sensing, 15(4), 1096. https://doi.org/10.3390/rs15041096
Zhu, W., Lévy, C., Ternès, N. (2023). Variable selection in high-dimensional logistic regression. hal-04152936. Obtenido de https://agroparistech.hal.science/hal-04152936
Zou, H. (2019). Classification with high dimensional features. WIREs computational Statistics, 11(1). https://doi.org/10.1002/wics.1453.
Zou, H., Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society Series B: Statistical Methodology, 67(2), 301-320. https://doi.org/10.1111/j.1467-9868.2005.00503.x
To cite this article: Picco, M.L., Ruiz, M.S, Maldonado, J.R. 2025. Band selection for hyperspectral image visualization and classification. Revista de Teledetección, 66, e22291. https://doi.org/10.4995/raet.2025.22291
* Corresponding author: mpicco@exa.unrc.edu.ar