Ítem
|
Calle Ortega, Eusebio
Martínez Álvarez, David |
|
| Universitat de Girona. Escola Politècnica Superior | |
| Molero Grau, Aniol | |
| juny 2024 | |
|
La categorització de documents consisteix a, donat el seu contingut, determinar-ne la classificació. Aquesta tasca es pot fer de diferents maneres, però en l’àmbit d’aquest projecte es diferencia entre dues metodologies d’intel·ligència artificial diferents; l’anàlisi contextual i l’anàlisi no contextual. S’entén com a “context d’una paraula” el text que envolta una paraula, és a dir, tota la resta del contingut del document. Les tècniques no contextuals són les estratègies tradicionals en què, mitjançant un bag-of-words, és a dir, tractant el text sense tenir en compte la gramàtica ni l’ordre de les paraules, intenten determinar el tipus del document. Moltes d’aquestes tècniques es basen en factors estadístics com la freqüència absoluta d’aparició de cada paraula en els diferents texts. Les tècniques de Term Frequency (TF) o Term Frequency-Inverse Document Frequency (TF-IDF) en serien exemples. També hi ha altres tècniques com GloVe o Word2Vec que utilitzen enfocaments més refinats, arribant a crear models capaços d’extreure certes relacions semàntiques entre els diferents mots, però d’una manera molt generalitzada. En tot cas, si bé aquestes tècniques poden ser útils per diverses tasques, són incapaces d’entendre el significat real de les paraules. Això fa que tinguin problemes quan hi ha paraules polisèmiques que volen dir coses diferents depenent del context en què apareixen. En canvi, les tècniques contextuals, com podrien ser ELMo, GPT o BERT, intenten superar els reptes que genera la complexitat i riquesa del llenguatge natural, com per exemple la polisèmia, l’ambigüitat o els dobles sentits. Encara que cada tècnica té les seves particularitats, la idea general és que els models contextuals aprenguin a generar representacions numèriques vectorials, anomenades incrustacions o embeddings, per cada paraula. Aquestes incrustacions contindran valors diferents depenent del context en què aparegui cada mot, fent que dues paraules iguals puguin tenir representacions completament diferents. En principi, això hauria de permetre al model d’intel·ligència artificial tractar texts més complexos i generar prediccions més precises.
L’objectiu principal d’aquest projecte és generar un model d’intel·ligència artificial
capaç de classificar pàgines web de manera contextual. L’eina que es vol crear ha
de ser capaç de, donat un enllaç vàlid, navegar-hi, obtenir-ne el text i, mitjançat el
model generat, determinar la categorització de la plana web.
És clar, la generació d’aquesta eina i l’aplicació de tècniques contextuals implica haver
de generar un dataset adient per poder entrenar el model. A banda d’això, uns
altres objectius importants són que el model pugui tractar una gran varietat de categories
diferents i, a més, en idiomes diferents, concretament en català, castellà i
anglès. També es vol que les prediccions del model siguin multicategoria, essent
possible determinar dues categories per una pàgina web. Una fita que es vol assolir
és que el model arribi a cert grau de fiabilitat, de manera que s’ha proposat arribar a
un mínim d’un 90% d’encerts en l’entrenament del model. 9 |
|
| application/pdf | |
| 26666 | |
| http://hdl.handle.net/10256/27687 | |
| cat | |
| Attribution-NonCommercial-NoDerivatives 4.0 International | |
| http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
|
Intel·ligència artificial
Artificial intelligence Machine learning Aprenentatge automàtic Natural language processing (Computer science) Natural language processing (Computer science) Word embeddings (Computer science) Incrustacions de paraules (informàtica) Web sites Pàgines web |
|
| Classificació de pàgines web mitjançant anàlisi contextual | |
| info:eu-repo/semantics/bachelorThesis | |
| DUGiDocs |
