Dropbox 改進了“機器學習”以搜索 PDF 文本和圖像中的內容

儲存雲 他們完美地完成了自己的工作。 然而,關於誰提供更好服務的爭論卻越來越激烈。 這些公司的目標是 在技​​術上脫穎而出 提供其他平台不提供的工具。

Dropbox 就是這種情況。 上個月,它在整個平台上引入了機器學習。 因此 我們可以搜索文本 使用一種技術對 PDF 或圖像進行索引,該技術能夠對上傳到雲端的大部分內容進行索引。 他們今天剛剛宣布 改進這項技術的措施, 預計它的效果會比以往更好。

為高級用戶提供機器學習等高級功能

機器學習的目標是使人工智能本身能夠執行提高用戶生產力的功能。 就 Dropbox 而言,這種“機器學習”允許用戶 搜索無法找到的文檔 因為它們本身不能像圖像一樣可索引。 該技術基於機器學習,當然還有光學字符識別 (OCR)。

OCR 是一種旨在數字化文本的過程,它自動從圖像中識別屬於特定字母表的符號或字符,然後將其存儲為數據。

用戶具有 訂閱 Dropbox 最“高級”計劃的用戶已經可以使用此工具。 機制很簡單:您在雲搜索引擎中輸入一些內容,它會找到幾乎所有與搜索詞匹配的文檔。 所有這一切的問題是圖像格式不可索引,因為它們本身沒有文本內容。 另一方面,帶有 TXT、HTML 或 DOCX 擴展名的文件更容易識別,因為它們本身就是文本。

El beneficio potencial de reconocer automáticamente el texto en las imágenes (incluidos los archivos PDF que contienen imágenes) es tremendo. Las personas han almacenado más de 20 mil millones de imágenes y archivos PDF en Dropbox. De esos archivos, 10-20% son fotos de documentos, como recibos e imágenes de pizarra, en lugar de los documentos en sí. Estos son ahora candidatos para el reconocimiento automático de texto de imagen. Del mismo modo, el 25% de estos PDF son escaneados de documentos que también son candidatos para el reconocimiento automático de texto.

這個工具的可用性是無窮無盡的。 想像一下,我們拍了一張八月份的電費單照片。 如果我們偶然沒有找到該收據,但我們確信我們已將其存儲在 Dropbox 中; 我們確信 Dropbox 的“機器學習”將會索引該照片的內容,並且我們將在短短幾秒鐘內看到該信息。


在 Google 新聞上關注我們

發表您的評論

您的電子郵件地址將不會被發表。 必填字段標有 *

*

*

  1. 負責資料:AB Internet Networks 2008 SL
  2. 數據用途:控制垃圾郵件,註釋管理。
  3. 合法性:您的同意
  4. 數據通訊:除非有法律義務,否則不會將數據傳達給第三方。
  5. 數據存儲:Occentus Networks(EU)託管的數據庫
  6. 權利:您可以隨時限制,恢復和刪除您的信息。