Optimización Bayesiana no miope POMDP para procesos con restricciones de operación y presupuesto finito

José Luis Pitarch

https://orcid.org/0000-0001-5356-6321

Spain

Universitat Politècnica de València image/svg+xml

Instituto de Automática e Informática Industrial (ai2)

Leopoldo Armesto

https://orcid.org/0000-0003-0979-4428

Spain

Universitat Politècnica de València image/svg+xml

Instituto de Diseño y Fabricación (IDF)

Antonio Sala

https://orcid.org/0000-0002-5691-8772

Spain

Universitat Politècnica de València image/svg+xml

Instituto de Automática e Informática Industrial (ai2)

|

Aceptado: 07-07-2024

|

Publicado: 09-07-2024

DOI: https://doi.org/10.4995/riai.2024.21142
Datos de financiación

Descargas

Palabras clave:

Programación dinámica, Optimización de procesos, Procesos Gaussianos, Optimización bajo incertidumbre

Agencias de apoyo:

MCIN

AEI

Resumen:

Mejorar la toma de decisiones a partir de los resultados observados tras la experimentación es una tarea habitual en muchas aplicaciones, tanto a nivel de investigación en laboratorio como en procesos de producción industriales. Sin embargo, realizar experimentos suele acarrear un coste no despreciable, por lo que una excesiva exploración es perjudicial. La optimización bayesiana es una técnica muy utilizada en este contexto, decidiendo la siguiente experimentación en base a un modelo estadístico.
No obstante, está técnica no tiene en cuenta explícitamente el coste real de realizar un experimento, ni si existe un presupuesto (o número de experimentos, tiempo, etc.) máximo. El problema de toma de decisiones bajo  incertidumbre y presupuesto finito puede plantear como un Proceso de Decisión de Márkov Parcialmente  observable (POMDP, por sus siglas en inglés). Este trabajo aborda el problema de optimización experimental sujeta a restricciones de operación con un enfoque POMDP, donde las posibles decisiones vienen proporcionadas por heurísticas de la optimización bayesiana, o de otra índole definida por el usuario. La estrategia consiste en construir un árbol de posibles escenarios partir del conocimiento (incierto) acerca del proceso/sistema aprendido a partir de experimentos previos. Dicho conocimiento se modela mediante procesos Gaussianos, que se actualizan con cada nueva observación. La evaluación sobre la mejor decisión a tomar se realiza mediante programación dinámica. El algoritmo desarrollado ha sido evaluado mediante comparación con otras opciones de la literatura en un banco de pruebas sintético, y para optimizar un proceso químico de producción por lotes.

Ver más Ver menos

Citas:

Abramowitz, M., Stegun, I.A., 1972. Handbook of mathematical functions, 10th printing with corrections, Dover Publications, ISBN: 978-0-486- 61272-0. [Ecuación 25.4.46]

Armesto, L., Pitarch, J.L., Sala, A., 2023. Acquisition function choice in Bayesian optimization via partially observable Markov decision process. IFAC-PapersOnLine, 56(2), 1572-1577. https://doi.org/10.1016/j.ifacol.2023.10.1856

Armesto, L., Sala, A., 2022. Volume-weighted Bellman error method for adaptive meshing in approximate dynamic programming. Revista Iberoamericana de Automática e Informática industrial, 19(1), 37-47. https://doi.org/10.4995/riai.2021.15698

Astudillo, R., Jiang, D., Balandat, M., Bakshy, E., Frazier, P., 2021. Multi-step budgeted Bayesian optimization with unknown evaluation costs. Advances in Neural Information Processing Systems, 34, 20197-20209.

Busoniu, L., Babuska, R., De Schutter, B., Ernst, D., 2017. Reinforcement learning and dynamic programming using function approximators. CRC press. https://doi.org/10.1201/9781439821091

Calandra, R., Seyfarth, A., Peters, J., Deisenroth, M.P., 2016. Bayesian optimization for learning gaits under uncertainty. Annals of Mathematics and Artificial Intelligence 76, 5-23. https://doi.org/10.1007/s10472-015-9463-9

Cressie, N., 1990. The origins of kriging. Mathematical Geolology 22, 239-252. https://doi.org/10.1007/BF00889887

Deisenroth, M.P., Neumann, G., Peters, J., 2013. A survey on policy search for robotics. Foundations and Trends® in Robotics 2, 1-142. https://doi.org/10.1561/2300000021

del Rio Chanona, E.A., Petsagkourakis, P., Bradford, E., Graciano, J.E.A., Chachuat, B., 2021. Real-time optimization meets Bayesian optimization and derivative-free optimization: A tale of modifier adaptation. Computers & Chemical Engineering 147, 107249. https://doi.org/10.1016/j.compchemeng.2021.107249

Duvigneau, R., Chandrashekar, P., 2012. Kriging‐based optimization applied to flow control. International Journal for Numerical Methods in Fluids, 69(11), 1701-1714. https://doi.org/10.1002/fld.2657

Frazier, P.I., 2018. Bayesian optimization, in: Recent advances in optimization and modeling of contemporary problems. Informs, 255-278. https://doi.org/10.1287/educ.2018.0188

Gardner, J.R., Kusner, M.J., Xu, Z., Weinberger, K.Q., Cunningham, J.P., 2014. Bayesian optimization with inequality constraints. Proceedings of the 31st Inter. Conf. on Machine Learning, ICML, 937-945.

Gelbart, M.A., Snoek, J., Adams, R.P., 2014. Bayesian optimization with unknown Constraints. Proceedings of the 30th Conf. on Uncertainty in Artificial Intelligence, UAI, 250-259.

Girbés-Juan, V., Moll, J., Sala, A., Armesto, L., 2023. Cautious Bayesian optimization: A line tracker case study. Sensors 23(16), 7266. https://doi.org/10.3390/s23167266

Hoffman, M., Brochu, E., De Freitas, N., 2011. Portfolio allocation for Bayesian optimization. UAI, pp. 327-336.

Lam, R., Willcox, K., Wolpert, D.H., 2016. Bayesian optimization with a finite budget: An approximate dynamic programming approach. Advances in Neural Information Processing Systems 29, 883-891.

Lam, R., Willcox, K., 2017. Lookahead Bayesian optimization with inequality constraints. Advances in neural information processing systems 30.

Letham, B., Karrer, B., Ottoni, G., Bakshy, E., 2019. Constrained Bayesian optimization with noisy experiments. Bayesian Analysis 14(2), 495-519. https://doi.org/10.1214/18-BA1110

Mora, J.P., Samper, J., Carlos F., 2023. Estudio de la optimización Bayesiana para reducir el consumo energético de un robot paralelo durante tareas pick and place. Revista Iberoamericana de Automática e Informática industrial, 20(1), pp. 1-12. DOI: 10.4995/riai.2022.16724

https://doi.org/10.4995/riai.2022.16724

Paulson, J.A., Sorouifar, F., Chakrabarty, A., 2022. Efficient multi-step lookahead Bayesian optimization with local search constraints. IEEE 61st Conference on Decision and Control (CDC), 123-129. https://doi.org/10.1109/CDC51059.2022.9992943

Jaiswal, P., Honnappa, H., Rao, V.A., 2023. Bayesian joint chance constrained optimization: Approximations and statistical consistency. SIAM Journal on Optimization, 33(3), 1968-1995. https://doi.org/10.1137/21M1430005

Pitarch, J.L., Armesto, L., Sala, A., Montes, D., 2023. Optimización experimental con presupuesto finito combinando heurísticas Bayesianas en un POMDP. XLIV Jornadas de Automática, 447-452. https://doi.org/10.17979/spudc.9788497498609.447

Rasmussen, C. E., Williams, C. K., 2006. Gaussian processes for machine learning. Cambridge, MA: MIT press. https://doi.org/10.7551/mitpress/3206.001.0001

Rodríguez-Blanco, T., Sarabia, D., Pitarch, J.L., de Prada, C., 2017. Modifier adaptation methodology based on transient and static measurements for RTO to cope with structural uncertainty. Computers & Chemical Engineering 106, 480-500. https://doi.org/10.1016/j.compchemeng.2017.07.001

Spaan, M.T.J., 2012. Partially observable Markov decision processes. (eds. Wiering, M., van Otterlo, M.) Reinforcement Learning. Springer, 387-414. https://doi.org/10.1007/978-3-642-27645-3_12

Wan, E.A., van der Merwe, R., 2001. The unscented Kalman filter. Kalman Filtering and Neural Networks (ed. Haykin S.), 221-280. https://doi.org/10.1002/0471221546.ch7

Wu, J., Frazier, P., 2019. Practical two-step lookahead Bayesian optimization. Advances in neural information processing systems, 32.

Wu, T., Movellan, J., 2012. Semi-parametric Gaussian process for robot system identification. IEEE/RSJ Inter. Conf. on Intelligent Robots and Systems, Vilamoura-Algarve, Portugal, 725-731. https://doi.org/10.1109/IROS.2012.6385977

Yip, W.S., Marlin, T.E., 2003. Designing plant experiments for real time optimization systems. Control Engineering Practice 11, 837-845. Process Dynamics and Control. https://doi.org/10.1016/S0967-0661(02)00213-7

Zhang, Y., Forbes, J.F., 2000. Extended design cost: A performance criterion for real-time optimization systems. Computers & Chemical Engineering 24(8), 1829-1841. https://doi.org/10.1016/S0098-1354(00)00561-5

Ver más Ver menos