Inicié y terminé con la parte que considero más difícil del proyecto el análisis de los archivos y para ello tuve que investigar sobre la lectura y escritura de archivos .json, estos tipos de archivo funcionan bastante bien para lectura y escritura de diccionarios, implementé en el software el algoritmo para limpiar los textos, eliminando palabras que no funcionen para el objetivo de este proyecto como preposiciones, artículos, preposiciones, conjunciones y pronombres, además implementé las funciones para el cálculo del tf-idf, también descubrí una forma de ordenar diccionarios, esto con el fin de tomar las top 10 palabras de cada documento.
No hay comentarios.:
Publicar un comentario