Servicios Personalizados
Revista
Articulo
Indicadores
- Citado por SciELO
- Accesos
Links relacionados
- Similares en SciELO
Compartir
Computación y Sistemas
versión On-line ISSN 2007-9737versión impresa ISSN 1405-5546
Comp. y Sist. vol.15 no.1 Ciudad de México jul./sep. 2011
Artículos
Clasificación kNN de documentos usando GPU
Document kNN Clasification using GPU
Rubén Bresler Camps1 y Reynaldo Gil García2
1 Empresa de Desarrollo de Aplicaciones, Tecnologías y Sistemas, Santiago de Cuba, Cuba. Email: ruben.bressler@cerpamid.co.cu
2 Centro de Reconocimiento de Patrones y Minería de Datos, Santiago de Cuba, Cuba. Email: gil@cerpamid.o.cu
Artículo recibido el 12 de febrero de 2011.
Aceptado el 30 junio de 2011.
Resumen
La búsqueda de los k vecinos más cercanos, ha sido aplicada a una amplia variedad de aplicaciones en el campo de la Minería de Textos y la Recuperación de Información por su simplicidad y precisión. Sin embargo, estas áreas del conocimiento en general manipulan objetos con altas dimensiones de rasgos que hacen que el proceso de encontrar los k objetos más similares a uno dado tenga una intensidad computacional elevada, debido a la gran cantidad de operaciones que se realizan para calcular la semejanza entre todos los objetos implicados. En este trabajo se proponen dos métodos de multiplicación paralela de matrices dispersas usando una GPU, que minimizan el tiempo empleado en el cálculo de semejanzas entre objetos del algoritmo kNN para clasificar documentos.
Palabras clave: GPGPU, clasificación de documentos y multiplicación de matrices dispersas.
Abstract
The search for the k nearest neighbors, has been applied to a wide variety of applications in the field of Text Mining and Information Retrieval for its simplicity and accuracy. However, these general areas of knowledge in handling highdimensional objects with features that make the process of finding the k most similar objects to a given computer has a high intensity, due to the large number of operations performed to calculate the similarity between all the objects involved. In this paper we propose two methods for parallel sparse matrix multiplication using a GPU, which minimize the time spent in the calculation of similarities between objects in the kNN algorithm to classify documents.
Keywords: GPGPU, document classification and sparse matrix multiplication.
DESCARGAR ARTÍCULO EN FORMATO PDF
Referencias
1. Barrientos, R. J., Gómez, J. I., Tenllado, C. & Prieto M. (2010). Heap Based kNearest Neighbor Search on GPUs. XXI Jornadas de Paralelismo, Valencia, España, 559566. [ Links ]
2. Baskaran, M.M. & Bordawekar, R. (2009). Optimizing Sparse MatrixVector Multiplication on GPUs (IBM Technical Report RC24704). USA: IBM Research Division. [ Links ]
3. Bell, N. & Garland, M. (2008). Efficient Sparse MatrixVector Multiplication on CUDA (NVIDIA Technical ReportNVR2008004). USA: NVIDIA Corporation. [ Links ]
4. Feldman, R. & Sanger, J. (2006). The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge; New York: Cambridge University Press. [ Links ]
5. Frakes, W. B. & BaezaYates, R. (1992). Information Retrieval, Data Structure and Algorithms. Englewood Cliffs, N.J.: Prentice Hall. [ Links ]
6. Garcia, V., Debreuve, E., Nielsen, F. & Barlaud, M. (2010). Knearest neighbor search: Fast GPUbased implementations and application to highdimensional feature matching. 17th IEEE International Conference on Image Processing. Hong Kong, China, 37573760. [ Links ]
7. Kuang, Q. & Zhao, L. (2009). A Practical GPU Based KNN Algorithm. Second Symposium International Computer Science and Computational Technology, Huangshan, China, 151155. [ Links ]
8. Lewis, D. D., Yang, Y., Rose, T. G. & Li, F. (2004). RCV1: A New Benchmark Collection for Text Categorization Research. Journal of Machine Learning Research, 5(2004), 361397. [ Links ]
9. MorenoSeco, F., Micó, L. & Oncina, J. (2003). Approximate Nearest Neighbour Search with the Fukunaga and Narendra Algorithm and Its Application to Chromosome Classification. Progress in Pattern Recognition, Speech and Image Analysis. Lecture Notes in Computer Science, 2905, 322328. [ Links ]
10. NVIDIA CUDATM 2.3 Programming Guide, Version 2.3.1, 2009 [ Links ]
11. HernándezRodríguez, S., CarrascoOchoa, J. A & MartínezTrinidad, J. F. (2007). Fast k Most Similar Neighbor Classifier for Mixed Data Based on a Tree Structure and ApproximatingEliminating. Progress in Pattern Recognition, Image Analysis and Applications. Lecture Notes in Computer Science, 5197, 364371. [ Links ]
12. Wang, Z., Xu, X., Zhao, W., Zhang, Y. & He, S. (2010). Optimizing sparse matrixvector multiplication on CUDA. 2ndInternational Conference on Education Technology and Computer (ICETC), 109113. [ Links ]