
近期,openai 發佈了一款名為「privacy filter」的新模型,旨在協助開發者有效去除文本中的個人識別資訊。該模型擁有 1.5 億個參數,並採用專家混合架構,已在 hugging face 與 github 上以 apache 2.0 授權條款開放原始碼,讓開發者可自由下載、自訂,並用於商業用途。
privacy filter 的核心優勢在於其深厚的語言理解能力,能夠根據上下文準確識別非結構化文本中的敏感資訊。與傳統基於規則的隱私過濾工具不同,此模型能精確保留公開資訊,僅對與特定個人相關的敏感資料進行掩蔽或去識別處理,從而協助開發者在訓練流程、索引程序、日誌記錄及稽核工作流中建構更強大的隱私保護機制。該模型支援高達 128,000 個詞元的上下文窗口,並採用受限的 viterbi 算法來解碼連貫片段。在 pii-masking-300k 基準測試中,privacy filter 取得了 96% 的 f1 分數;在修正標註問題後,這一數值進一步提升至 97.43%,充分展現了其在識別個人敏感資訊方面的高效性。
然而,openai 明確指出,privacy filter 並非匿名化工具,亦無法取代合規認證。在法律、醫療、金融等高度敏感領域,仍需依賴人工審核,並進行針對特定領域的評估與微調。此外,該模型專為本地裝置運行而設計,因此使用者在使用 ai 工具時無需擔心個人資訊外洩。