如何當稱職的支語警察?

簡介

PTT 上常有支語警察

也常發現 google 翻譯的中文常常會翻譯成中國慣用語

所以就寫了一個支語警察的網站:支語警察

流程

  1. 文章分詞
  2. 標出非台灣習慣用語
  3. 從資料庫尋找對應的用語
  4. 若無對應用語則尋找其解釋

資料庫

萌典

從萌典的兩岸字典獲取用語中台灣和中國的意思不同者

開放中文轉換 OpenCC

支持詞彙級別的轉換、異體字轉換和地區習慣用詞轉換(中國大陸、臺灣、香港、日本新字體)。

OpenCC 就是支語警察,支語警察就是 OpenCC

實作

  • 支援單字或文章檢測
  • Google Trends
    • 使用台灣的搜尋趨勢比較原本用語及對應的中國用語

困難

  1. 資料庫通常沒有收錄網路流行語
  2. 同詞異義
    1. 質量:中國常用於表示「品質」,但兩岸都有「重量」的意思 範例
    2. 土豆:中國為「馬鈴薯」,台灣為「花生」

參考資料

  • 萌典
  • OpenCC
  • [閒聊] 支語警察是誰畫的?

歡迎關注我的其它發布渠道