簡介
PTT 上常有支語警察
也常發現 google 翻譯的中文常常會翻譯成中國慣用語
所以就寫了一個支語警察的網站:支語警察
流程
- 文章分詞
- 標出非台灣習慣用語
- 從資料庫尋找對應的用語
- 若無對應用語則尋找其解釋
資料庫
萌典
從萌典的兩岸字典獲取用語中台灣和中國的意思不同者
開放中文轉換 OpenCC
支持詞彙級別的轉換、異體字轉換和地區習慣用詞轉換(中國大陸、臺灣、香港、日本新字體)。
OpenCC 就是支語警察,支語警察就是 OpenCC
實作
- 支援單字或文章檢測
- Google Trends
- 使用台灣的搜尋趨勢比較原本用語及對應的中國用語
困難
- 資料庫通常沒有收錄網路流行語
- 同詞異義
- 質量:中國常用於表示「品質」,但兩岸都有「重量」的意思 範例
- 土豆:中國為「馬鈴薯」,台灣為「花生」
參考資料
- 萌典
- OpenCC
- [閒聊] 支語警察是誰畫的?