Dropbox mejora su «machine learning» para buscar contenido en textos de PDFs e imágenes

Las nubes de almacenamiento cumplen a la perfección su cometido. Sin embargo, la disputa por quién ofrece un mejor servicio se está subiendo cada vez más de nivel. El objetivo de estas empresas es desmarcarse tecnológicamente del resto para ofrecer herramientas que otras plataformas no ofrezcan.

Es el caso de Dropbox. El mes pasado introdujo el «machine learning» en toda su plataforma. De esta forma podemos buscar texto en PDFs o imágenes mediante una tecnología que logra indexar gran parte del contenido subido a la nube. Hoy mismo acaban de anunciar medidas que mejoran esta tecnología, y se espera que funcione mejor que nunca.

Funciones premium como «machine learning» para usuarios premium

El objetivo del aprendizaje automático es lograr que la propia inteligencia artificial sea capaz de realizar funciones que mejoren la productividad de los usaurios. En el caso de Dropbox, este «machine learning» permite a los usuarios buscar entre documentos en los que no se podría porque no son indexables como tal, como pueden ser imágenes. Esta tecnología está basada en el aprendizaje automático y, por supuesto, del reconocimiento óptico de caracteres (OCR).

El OCR es un proceso dirigido a la digitalización de textos, los cuales identifican automáticamente a partir de una imagen símbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos.

Los usuarios con las suscripciones a los planes más «premium» de Dropbox ya pueden utilizar esta herramienta. La mecánica es sencilla: tecleas algo en el buscador de la nube y te encuentra casi cualquier documento que coincida con el término buscado. El problema de todo esto subyacía en que los formatos de imagen no son indexables porque no tienen contenido de texto como tal. En cambio, archivos con extensiones TXT, HTML o DOCX son más fáciles de reconocer porque en sí son textos.

El beneficio potencial de reconocer automáticamente el texto en las imágenes (incluidos los archivos PDF que contienen imágenes) es tremendo. Las personas han almacenado más de 20 mil millones de imágenes y archivos PDF en Dropbox. De esos archivos, 10-20% son fotos de documentos, como recibos e imágenes de pizarra, en lugar de los documentos en sí. Estos son ahora candidatos para el reconocimiento automático de texto de imagen. Del mismo modo, el 25% de estos PDF son escaneados de documentos que también son candidatos para el reconocimiento automático de texto.

La usabilidad de esta herramienta es infinita. Imaginaos que hacemos una foto del recibo de luz del mes de agosto. Si no encontramos, por algún casual, ese recibo y sabemos con certeza de que lo hemos almacenado en Dropbox; sabemos con certeza que el «machine learning» de Dropbox habrá indexado el contenido de esa fotografía y se nos mostrará la información en tan sólo unos segundos.


Síguenos en Google News

Sé el primero en comentar

Deja tu comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*

*

  1. Responsable de los datos: AB Internet Networks 2008 SL
  2. Finalidad de los datos: Controlar el SPAM, gestión de comentarios.
  3. Legitimación: Tu consentimiento
  4. Comunicación de los datos: No se comunicarán los datos a terceros salvo por obligación legal.
  5. Almacenamiento de los datos: Base de datos alojada en Occentus Networks (UE)
  6. Derechos: En cualquier momento puedes limitar, recuperar y borrar tu información.