Dropbox cải thiện «học máy» để tìm nội dung trong văn bản và hình ảnh PDF

các đám mây lưu trữ họ hoàn thành sứ mệnh của mình để hoàn thiện. Tuy nhiên, tranh chấp ai là người cung cấp dịch vụ tốt hơn ngày càng cao hơn. Mục tiêu của các công ty này là nổi bật về mặt công nghệ so với phần còn lại để cung cấp các công cụ mà các nền tảng khác không cung cấp.

Đây là trường hợp của Dropbox. Tháng trước, nó đã giới thiệu học máy trên toàn bộ nền tảng của mình. Như vậy chúng ta có thể tìm kiếm văn bản dưới dạng PDF hoặc hình ảnh thông qua một công nghệ quản lý để lập chỉ mục một phần lớn nội dung được tải lên đám mây. Hôm nay họ vừa mới công bố các biện pháp cải thiện công nghệ này, và nó được mong đợi sẽ hoạt động tốt hơn bao giờ hết.

Các tính năng cao cấp như máy học cho người dùng cao cấp

Mục tiêu của học máy là làm cho bản thân trí tuệ nhân tạo có khả năng thực hiện các chức năng giúp cải thiện năng suất của người dùng. Trong trường hợp của Dropbox, "máy học" này cho phép người dùng tìm kiếm qua các tài liệu không thể bởi vì chúng không thể lập chỉ mục như vậy, cũng như có thể là hình ảnh. Công nghệ này dựa trên máy học và tất nhiên là Nhận dạng ký tự quang học (OCR).

OCR là một quá trình nhằm số hóa văn bản, tự động xác định các ký hiệu hoặc ký tự thuộc một bảng chữ cái nhất định từ một hình ảnh, sau đó lưu trữ chúng dưới dạng dữ liệu.

Người dùng với Đăng ký các gói "cao cấp" hơn của Dropbox hiện có thể sử dụng công cụ này. Cơ chế rất đơn giản: bạn nhập nội dung nào đó vào công cụ tìm kiếm đám mây và nó sẽ tìm thấy hầu hết mọi tài liệu phù hợp với cụm từ tìm kiếm. Vấn đề với tất cả những điều này là các định dạng hình ảnh không thể lập chỉ mục vì chúng không có nội dung văn bản như vậy. Ngược lại, các tệp có phần mở rộng TXT, HTML hoặc DOCX dễ nhận ra hơn vì bản thân chúng là văn bản.

El beneficio potencial de reconocer automáticamente el texto en las imágenes (incluidos los archivos PDF que contienen imágenes) es tremendo. Las personas han almacenado más de 20 mil millones de imágenes y archivos PDF en Dropbox. De esos archivos, 10-20% son fotos de documentos, como recibos e imágenes de pizarra, en lugar de los documentos en sí. Estos son ahora candidatos para el reconocimiento automático de texto de imagen. Del mismo modo, el 25% de estos PDF son escaneados de documentos que también son candidatos para el reconocimiento automático de texto.

Khả năng sử dụng của công cụ này là vô hạn. Hãy tưởng tượng rằng chúng ta chụp ảnh hóa đơn tiền điện của tháng XNUMX. Nếu tình cờ chúng tôi không tìm thấy biên lai đó và chúng tôi biết chắc chắn rằng chúng tôi đã lưu trữ nó trong Dropbox; Chúng tôi biết chắc rằng máy học của Dropbox sẽ lập chỉ mục nội dung của bức ảnh đó và thông tin sẽ được hiển thị cho chúng tôi chỉ sau vài giây.


Theo dõi chúng tôi trên Google Tin tức

Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: AB Internet Networks 2008 SL
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.