Ir al contenido principal

Algoritmo Boyer, Moore, Horspool, Raita vrs java.lang.String.contains

En mi paso por la Universidad, entre los cursos de Licenciatura tuve la suerte de llevar el curso de Recuperación de Información (RI), con el prof. Edgar Casasola.

A continuación un extracto del correo, que recientemente le escribí comentandole una cuestión acerca de la comparación de los algoritmos Boyer, Moore, Horspool, Raita vrs java.lang.String.contains; los resultado a la luz de mi pequeño estudio, arrojaron que el "perfomance" para buscar al menos una ocurrencia de texto dentro de otro, del objeto de Java resulta mas eficiente que las técnicas RI, mas elaboradas.

---------------*-----------------------------*--------------------------
.....

Para comentarle el contexto; Actualmente trabajo para la compañía avVenta en Costa Rica y como parte de un proyecto para uno de sus clientes, existía una implementación que toma un archivo con palabras vulgares o obscenas y realiza una búsqueda a fuerza bruta (O(n)), recorriendo todas las palabras hasta encontrar la ocurrencia de una de las palabras en el texto, el pseudo-stremmer que tiene este algoritmo, consiste en agregar palabras sobre el corpus de las obscenidades, pero cambiando por ejemplo las “o” por un “0” (cero), o la “a” por un (4), etc.

 

Me pregunte que desempeño tendría esta implementación contra la búsqueda vectorial y contra algoritmos de búsqueda de texto dentro de texto.

 

Además de un algoritmo “custom” que el cliente me facilito (valga decir que es el mas deficiente a nivel de resultados, sin embargo vale resaltar, el mismo tiene “stremmers” para diferentes lenguajes y soporte para búsqueda i18n), también hice una prueba con Apache Lucene (la implementación de un buscador vectorial Open de Apache, http://lucene.apache.org/java/docs/index.html), utilizando un Índice invertido en memoria, además utilice el algoritmo, que según leí es mas rápido de esta biblioteca (http://johannburkard.de/software/stringsearch/), el cual se basa en un hibrido de Boyer, Moore, Horspool, Raita, los resultados en milisegundos y orden descendiente los comparto a continuación.

 

{203=implementación basada en java.lang.String.contains (indexOf > -1)

 2266=implementación basada en Apache Lucene

 2312=implementacion basada en el stringsearch (http://johannburkard.de/software/stringsearch/),

 11406=obscenityProfanityFilter, este fue un algoritmo propietario que me pasaron, el mismo que tiene los stremmer.

}

 

Valga decir que hice otros “Junit” (pruebillas de unidad) para determinar que la funcionalidad de los algoritmos fuera idéntica y en efecto, todos funcionan de la manera esperada.

 

Dudoso con los resultados, fui curioso e implemente el siguiente código:

 

String text = "Hello folkes jiji opa oop upa lupa as and tropes and listes and shomis and tepos";

              String wordToSearch = "shomis";

              int loop = 2000;

              long millins = 0;

              long totalElapse = 0;

              int hit = 0;

              StringSearch so = new BoyerMooreHorspoolRaita();

 

              millins = System.currentTimeMillis();

              for (int i = 0; i <>

 

                     if (text.contains(wordToSearch)) {

 

                           hit += 1;

                     }

              }

 

              wordToSearch = "upalupa";

 

              for (int i = 0; i <>

 

                     if (text.contains(wordToSearch)) {

 

                           hit += 1;

                     }

              }

 

              totalElapse = System.currentTimeMillis() - millins;

 

              System.out.println("Contains algo: " + totalElapse);

              System.out.println(hit + " = " + loop);

 

              // **********************

              // **********************

              // **********************        

 

              hit = 0;

              wordToSearch = "shomis";

             

              millins = System.currentTimeMillis();          

              for (int i = 0; i <>

 

                     if (so.searchString(text, wordToSearch)!= -1) {

 

                           hit += 1;

                     }

              }

             

              wordToSearch = "upalupa";

 

              for (int i = 0; i <>

 

                     if (so.searchString(text, wordToSearch)!= -1) {

 

                           hit += 1;

                     }

              }

              totalElapse = System.currentTimeMillis() - millins;

 

              System.out.println("StringSearch algo: " + totalElapse);

              System.out.println(hit + " = " + loop);

 

El resultado:

 

Contains algo: 0

2000 = 2000

StringSearch algo: 15

2000 = 2000

 

Dejando de lado que la implementación de StringSearch permite utilizar “wildcard” y que quizá funcione mejor en colecciones grandes (esto es un supuesto), me pareció interesante compartir estos resultados con alguien que esta mas comprometido con el tema, como comprenderá el mercado nacional, nos proporciona poco espacio para jugar con este tipo de cosas muy interesantes y el conocimiento que no se refresca tienen a marchitarse un poco (lo cual es una pena).

......

Comentarios

Entradas más populares de este blog

Impensando acerca de las referencias en Java

Fue hace ya algún tiempo que pase un rato discutiendo con algunos compañeros acerca de si existe o no el paso por referencia; el discurso fue mucho hacia que en Java el comportamiento, en el supuestamente pasamos por referencia un objeto y por valor los objetos primitivos creo mucha polémica. Para ubicarnos en contexto veamos el siguiente ejemplo. public static void main(String[] args) { int value = 10; changeValue(value); System.out.println("value = " + value); User user = new User(); Name name = new Name(); user.setName(name); name.setName("jsanca"); name.setLastName("XXX"); user.setPassword("123queso"); System.out.println("user: " + user.getName().getName() + ", " + user.getName().getLastName() + ", " + user.getPassword()); changeValue1(user); System.out.println("user: " + user.getName().getName() + ", " + user.getName().getLastName() + ", " + user.ge...

Analizador de expresiones algebraicas recursivo decendente

Como les mencione en un post previo, estoy leyendo el libro el arte de programar en Java, el primer ejercicio consiste en un analizador de expresiones algebraicas recursivo descendente, el mismo consiste en la posibilidad de tomar una cadena que contenga una expresión matemática, la misma puede contener valores en punto flotante, sumar, restar, dividir, multiplicar, sacar exponente (potencia), uso de paréntesis para priorizar una operación, etc. A continuación clase a clase, con una pequeña explicación Lo primero que definiremos es una suite de excepciones para reportar errores, no tiene mucha ciencia, hay una para la division entre cero, cuando no existe una expresión valida, error de sintaxis o cuando los paréntesis no se encuentran balanceados, veamos package cap2; /** * Exception para reportar que hay al intentar dividir entre cero * * User: jsanca * Date: 4/16/13 * Time: 1:30 AM * @author jsanca */ public class DividedByZeroException extends RuntimeException { ...

Links acerca de usabilidad

Bueno esta haciendo un research acerca de usabilidad y decidi compartir algunos de los links mas interesantes: Este esta muy cool y dice por que son buenos, gmail #1: http://www.1stwebdesigner.com/design/well-designed-usable-sites/ Los mejores menus: http://www.kronikmedia.co.uk/blog/website-navigation-menu-design/3580/ Otro top ten: http://www.topsite.com/best/usability los CMS con mas usabilidad http://net.tutsplus.com/articles/web-roundups/top-10-most-usable-content-management-systems/ Las grandes companias que incorporan usabilidad en sus sistemas: http://www.siteiq.net/7806/the-2013-usability-top-10-ibm-leads-sap-soars-and-apple-screws-up-the-rankings-2 + Algo interesante: top ten de sitios de Universidades http://blog.thebrickfactory.com/2010/03/top-11-best-designed-university-websites/ Y estos son 10 videitos acerca de usabilidad: http://www.usefulusability.com/10-must-see-usability-videos/ Enjoy!