DUGi: Ítem | DUGiDocs - Classificació de pàgines web mitjançant anàlisi contextual

Ítem

Classificació de pàgines web mitjançant anàlisi contextual

http://dugi.udg.edu/item/http:@@@@hdl.handle.net@@10256@@27687

La categorització de documents consisteix a, donat el seu contingut, determinar-ne la classificació. Aquesta tasca es pot fer de diferents maneres, però en l’àmbit d’aquest projecte es diferencia entre dues metodologies d’intel·ligència artificial diferents; l’anàlisi contextual i l’anàlisi no contextual. S’entén com a “context d’una paraula” el text que envolta una paraula, és a dir, tota la resta del contingut del document. Les tècniques no contextuals són les estratègies tradicionals en què, mitjançant un bag-of-words, és a dir, tractant el text sense tenir en compte la gramàtica ni l’ordre de les paraules, intenten determinar el tipus del document. Moltes d’aquestes tècniques es basen en factors estadístics com la freqüència absoluta d’aparició de cada paraula en els diferents texts. Les tècniques de Term Frequency (TF) o Term Frequency-Inverse Document Frequency (TF-IDF) en serien exemples. També hi ha altres tècniques com GloVe o Word2Vec que utilitzen enfocaments més refinats, arribant a crear models capaços d’extreure certes relacions semàntiques entre els diferents mots, però d’una manera molt generalitzada. En tot cas, si bé aquestes tècniques poden ser útils per diverses tasques, són incapaces d’entendre el significat real de les paraules. Això fa que tinguin problemes quan hi ha paraules polisèmiques que volen dir coses diferents depenent del context en què apareixen. En canvi, les tècniques contextuals, com podrien ser ELMo, GPT o BERT, intenten superar els reptes que genera la complexitat i riquesa del llenguatge natural, com per exemple la polisèmia, l’ambigüitat o els dobles sentits. Encara que cada tècnica té les seves particularitats, la idea general és que els models contextuals aprenguin a generar representacions numèriques vectorials, anomenades incrustacions o embeddings, per cada paraula. Aquestes incrustacions contindran valors diferents depenent del context en què aparegui cada mot, fent que dues paraules iguals puguin tenir representacions completament diferents. En principi, això hauria de permetre al model d’intel·ligència artificial tractar texts més complexos i generar prediccions més precises. L’objectiu principal d’aquest projecte és generar un model d’intel·ligència artificial capaç de classificar pàgines web de manera contextual. L’eina que es vol crear ha de ser capaç de, donat un enllaç vàlid, navegar-hi, obtenir-ne el text i, mitjançat el model generat, determinar la categorització de la plana web. És clar, la generació d’aquesta eina i l’aplicació de tècniques contextuals implica haver de generar un dataset adient per poder entrenar el model. A banda d’això, uns altres objectius importants són que el model pugui tractar una gran varietat de categories diferents i, a més, en idiomes diferents, concretament en català, castellà i anglès. També es vol que les prediccions del model siguin multicategoria, essent possible determinar dues categories per una pàgina web. Una fita que es vol assolir és que el model arribi a cert grau de fiabilitat, de manera que s’ha proposat arribar a un mínim d’un 90% d’encerts en l’entrenament del model.

Molero Grau, AniolMolero Grau, Aniol

Director:	Calle Ortega, Eusebi Martínez Álvarez, David
Altres contribucions:	Universitat de Girona. Escola Politècnica Superior
Autor:	Molero Grau, Aniol
Data:	juny 2024
Resum:	La categorització de documents consisteix a, donat el seu contingut, determinar-ne la classificació. Aquesta tasca es pot fer de diferents maneres, però en l’àmbit d’aquest projecte es diferencia entre dues metodologies d’intel·ligència artificial diferents; l’anàlisi contextual i l’anàlisi no contextual. S’entén com a “context d’una paraula” el text que envolta una paraula, és a dir, tota la resta del contingut del document. Les tècniques no contextuals són les estratègies tradicionals en què, mitjançant un bag-of-words, és a dir, tractant el text sense tenir en compte la gramàtica ni l’ordre de les paraules, intenten determinar el tipus del document. Moltes d’aquestes tècniques es basen en factors estadístics com la freqüència absoluta d’aparició de cada paraula en els diferents texts. Les tècniques de Term Frequency (TF) o Term Frequency-Inverse Document Frequency (TF-IDF) en serien exemples. També hi ha altres tècniques com GloVe o Word2Vec que utilitzen enfocaments més refinats, arribant a crear models capaços d’extreure certes relacions semàntiques entre els diferents mots, però d’una manera molt generalitzada. En tot cas, si bé aquestes tècniques poden ser útils per diverses tasques, són incapaces d’entendre el significat real de les paraules. Això fa que tinguin problemes quan hi ha paraules polisèmiques que volen dir coses diferents depenent del context en què apareixen. En canvi, les tècniques contextuals, com podrien ser ELMo, GPT o BERT, intenten superar els reptes que genera la complexitat i riquesa del llenguatge natural, com per exemple la polisèmia, l’ambigüitat o els dobles sentits. Encara que cada tècnica té les seves particularitats, la idea general és que els models contextuals aprenguin a generar representacions numèriques vectorials, anomenades incrustacions o embeddings, per cada paraula. Aquestes incrustacions contindran valors diferents depenent del context en què aparegui cada mot, fent que dues paraules iguals puguin tenir representacions completament diferents. En principi, això hauria de permetre al model d’intel·ligència artificial tractar texts més complexos i generar prediccions més precises. L’objectiu principal d’aquest projecte és generar un model d’intel·ligència artificial capaç de classificar pàgines web de manera contextual. L’eina que es vol crear ha de ser capaç de, donat un enllaç vàlid, navegar-hi, obtenir-ne el text i, mitjançat el model generat, determinar la categorització de la plana web. És clar, la generació d’aquesta eina i l’aplicació de tècniques contextuals implica haver de generar un dataset adient per poder entrenar el model. A banda d’això, uns altres objectius importants són que el model pugui tractar una gran varietat de categories diferents i, a més, en idiomes diferents, concretament en català, castellà i anglès. També es vol que les prediccions del model siguin multicategoria, essent possible determinar dues categories per una pàgina web. Una fita que es vol assolir és que el model arribi a cert grau de fiabilitat, de manera que s’ha proposat arribar a un mínim d’un 90% d’encerts en l’entrenament del model. 9
Format:	application/pdf
Cita:	26666
Accés al document:	http://hdl.handle.net/10256/27687
Llenguatge:	cat
Drets:	Attribution-NonCommercial-NoDerivatives 4.0 International
URI Drets:	http://creativecommons.org/licenses/by-nc-nd/4.0/
Matèria:	Intel·ligència artificial Artificial intelligence Machine learning Aprenentatge automàtic Natural language processing (Computer science) Natural language processing (Computer science) Word embeddings (Computer science) Incrustacions de paraules (informàtica) Web sites Pàgines web
Títol:	Classificació de pàgines web mitjançant anàlisi contextual
Tipus:	info:eu-repo/semantics/bachelorThesis
Repositori:	DUGiDocs

DUGi

Portal de cerca conjunta als documents digitals de la UdG

Ítem

Matèries

Autors