Ítem


Avenços en els fonaments matemàtics de l’anàlisi composicional de dades: convexitat i normes Lp. Aplicació a la regressió lineal LASSO amb covariable composicional

ENG- Compositional data are a special type of multivariate data where the variables represent parts of a whole. These data are commonly encountered in fields such as geology, biology, economics, and chemistry, where the proportions between components are more informative than the absolute values. A classic example is the chemical composition of a rock, where the percentages of each element sum to 100%. Another example is the composition of a diet, where the proportions of different nutrients (proteins, carbohydrates, fats, etc.) add up to 100%. A key aspect of compositional data is that the valuable information lies not in the absolute values of the parts, but in the relative relationships between them. For instance, the relative proportion of one element compared to another may be more significant than their individual values. This relative nature means that traditional statistical methods, if applied directly to compositional data, can lead to misleading or inconsistent conclusions. A common issue is the identification of spurious correlations, which arise from the constant sum constraint inherent in compositional data, rather than reflecting any true relationship between the variables. To address these challenges, Aitchison geometry is used— a mathematical framework specifically designed for analyzing compositional data. This geometry introduces techniques such as the log-ratio transformation, which maps compositional data into a Euclidean space where conventional statistical methods can be applied in a coherent way. This ensures proper handling of the relative information in the data, preserving its consistency and preventing misinterpretation. In this thesis, a coherent framework for convex optimization within Aitchison geometry is established by adapting the definitions of convexity and Lp norms to maintain the compositional structure of the data. The methodological section includes a detailed comparison of LASSO regression models with different penalty norms, analyzing how the regularization process affects the subcompositional structure of the linear model. In summary, this thesis advances the methodological tools available for analyzing compositional data, enhancing their applicability across a range of scientific disciplines, including geology, molecular biology, economics, and chemistry

CAT- Les dades composicionals són un tipus especial de dades multivariants en què les variables representen parts d’un tot. Aquestes dades són habituals en disciplines com la geologia, la biologia, l’economia i la química, on les proporcions entre components són més rellevants que els valors absoluts. Un exemple comú és la composició química d’una roca, on els percentatges de cada element químic sumen el 100%. Un altre exemple és la composició d’una dieta, on les proporcions dels diferents nutrients (proteïnes, carbohidrats, greixos, etc.) sumen el 100%. Un aspecte fonamental de les dades composicionals és que la informació important no resideix en els valors absoluts de les parts, sinó en les relacions relatives entre elles. Per exemple, el valor relatiu del contingut d’un element respecte a un altre pot ser més informatiu que el seu valor individual. Aquesta naturalesa relativa implica que els mètodes estadístics tradicionals poden conduir a conclusions errònies o incoherents si s’apliquen directament a dades composicionals. Un error típic és identificar correlacions espúries que resulten de la suma constant inherent a les dades, i no de cap relació real entre les variables. Per evitar aquests problemes, s’utilitza la geometria d’Aitchison, un marc matemàtic específicament dissenyat per analitzar dades composicionals. Aquesta geometria introdueix eines com la transformació logquocient, que converteix les dades composicionals en un espai euclidià on es poden aplicar tècniques estadístiques tradicionals de manera coherent. Això permet tractar correctament la informació relativa de les dades, preservant-ne la consistència i evitant errors d’interpretació. En aquesta tesi s’ha establert un marc coherent per a l’optimització convexa dins de la geometria d’Aitchison, adaptant les definicions de convexitat i de normes Lp per garantir que les tècniques estadístiques respectin l’estructura composicional de les dades. En l’apartat metodològic s’ha realitzat una comparació detallada entre models de regressió LASSO amb diferents normes en el terme de penalització, examinant com el procés de regularització afecta l’estructura subcomposicional del model lineal. En resum, aquesta tesi contribueix a l’ampliació del conjunt d’eines metodològiques per a l’anàlisi de dades composicionals, millorant la seva aplicabilitat en disciplines científiques diverses com la geologia, biologia molecular, economia i química

Programa de Doctorat en Tecnologia

Universitat de Girona

Director: Mateu i Figueras, Glòria
Martín Fernández, Josep Antoni
Altres contribucions: Universitat de Girona. Departament d’Informàtica, Matemàtica Aplicada i Estadística (2013-)
Autor: Saperas Riera, Jordi
Data: 9 gener 2025
Resum: ENG- Compositional data are a special type of multivariate data where the variables represent parts of a whole. These data are commonly encountered in fields such as geology, biology, economics, and chemistry, where the proportions between components are more informative than the absolute values. A classic example is the chemical composition of a rock, where the percentages of each element sum to 100%. Another example is the composition of a diet, where the proportions of different nutrients (proteins, carbohydrates, fats, etc.) add up to 100%. A key aspect of compositional data is that the valuable information lies not in the absolute values of the parts, but in the relative relationships between them. For instance, the relative proportion of one element compared to another may be more significant than their individual values. This relative nature means that traditional statistical methods, if applied directly to compositional data, can lead to misleading or inconsistent conclusions. A common issue is the identification of spurious correlations, which arise from the constant sum constraint inherent in compositional data, rather than reflecting any true relationship between the variables. To address these challenges, Aitchison geometry is used— a mathematical framework specifically designed for analyzing compositional data. This geometry introduces techniques such as the log-ratio transformation, which maps compositional data into a Euclidean space where conventional statistical methods can be applied in a coherent way. This ensures proper handling of the relative information in the data, preserving its consistency and preventing misinterpretation. In this thesis, a coherent framework for convex optimization within Aitchison geometry is established by adapting the definitions of convexity and Lp norms to maintain the compositional structure of the data. The methodological section includes a detailed comparison of LASSO regression models with different penalty norms, analyzing how the regularization process affects the subcompositional structure of the linear model. In summary, this thesis advances the methodological tools available for analyzing compositional data, enhancing their applicability across a range of scientific disciplines, including geology, molecular biology, economics, and chemistry
CAT- Les dades composicionals són un tipus especial de dades multivariants en què les variables representen parts d’un tot. Aquestes dades són habituals en disciplines com la geologia, la biologia, l’economia i la química, on les proporcions entre components són més rellevants que els valors absoluts. Un exemple comú és la composició química d’una roca, on els percentatges de cada element químic sumen el 100%. Un altre exemple és la composició d’una dieta, on les proporcions dels diferents nutrients (proteïnes, carbohidrats, greixos, etc.) sumen el 100%. Un aspecte fonamental de les dades composicionals és que la informació important no resideix en els valors absoluts de les parts, sinó en les relacions relatives entre elles. Per exemple, el valor relatiu del contingut d’un element respecte a un altre pot ser més informatiu que el seu valor individual. Aquesta naturalesa relativa implica que els mètodes estadístics tradicionals poden conduir a conclusions errònies o incoherents si s’apliquen directament a dades composicionals. Un error típic és identificar correlacions espúries que resulten de la suma constant inherent a les dades, i no de cap relació real entre les variables. Per evitar aquests problemes, s’utilitza la geometria d’Aitchison, un marc matemàtic específicament dissenyat per analitzar dades composicionals. Aquesta geometria introdueix eines com la transformació logquocient, que converteix les dades composicionals en un espai euclidià on es poden aplicar tècniques estadístiques tradicionals de manera coherent. Això permet tractar correctament la informació relativa de les dades, preservant-ne la consistència i evitant errors d’interpretació. En aquesta tesi s’ha establert un marc coherent per a l’optimització convexa dins de la geometria d’Aitchison, adaptant les definicions de convexitat i de normes Lp per garantir que les tècniques estadístiques respectin l’estructura composicional de les dades. En l’apartat metodològic s’ha realitzat una comparació detallada entre models de regressió LASSO amb diferents normes en el terme de penalització, examinant com el procés de regularització afecta l’estructura subcomposicional del model lineal. En resum, aquesta tesi contribueix a l’ampliació del conjunt d’eines metodològiques per a l’anàlisi de dades composicionals, millorant la seva aplicabilitat en disciplines científiques diverses com la geologia, biologia molecular, economia i química
Programa de Doctorat en Tecnologia
Altres identificadors: http://hdl.handle.net/10803/693962
Accés al document: http://hdl.handle.net/10256/26570
Llenguatge: eng
cat
Editor: Universitat de Girona
Drets: L’accés als continguts d’aquesta tesi queda condicionat a l’acceptació de les condicions d’ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/
Matèria: Anàlisi de dades composicionals
Análisis de datos composicionales
Compositional data analysis
Geometria d’Aitchison
Geometría de Aitchison
Aitchison geometry
Símplex
Simplex
Norma Lp
Lp norm
Optimització convexa
Optimización convexa
Convex optimisation
004
311
51
Títol: Avenços en els fonaments matemàtics de l’anàlisi composicional de dades: convexitat i normes Lp. Aplicació a la regressió lineal LASSO amb covariable composicional
Tipus: info:eu-repo/semantics/doctoralThesis
Repositori: DUGiDocs

Matèries

Autors