早上發了「從中時電子報(中國時報)刪除站內「六四」歷史新聞,反思新聞自由」以後,看其他人分享提到,他們在中國時報站內搜尋「劉曉波」也搜不到東西。我測試了一下確實搜不到,但用一樣方式在google輸入
劉曉波 site:https://www.chinatimes.com
找到的文章都是可以正常連過去的。這個例子正好可以拿來說明「站內搜尋搜不到不一定等於資料被刪除(或下架)」
google 有收錄,且文章連的過去,代表文章狀態是「上架」(我習慣用商品上下架來形容,有的人可能比較喜歡「公開」「私人」,簡單來說文章狀態就是一個文章要不要正式發表的開關),但站內搜尋搜不到,這代表文章存在,只是不讓你在站內用關鍵字找到。
這種「資料在但不讓你找」的狀況,在程式設計上有幾種可能的做法:
- 每篇文章都有一個「搜尋狀態」,分為「可搜尋」及「不可搜尋」,只要設定為「不可搜尋」,即使文章是上架狀態,也無法使用站內搜尋搜到該文章。
- 另外設計「黑名單」,只要被列入黑名單的「關鍵字」,一律不顯示搜尋結果。
- 限制可搜尋的資料日期範圍,例如最多可搜尋最近6個月,或是最多可搜尋2017年ˇ以後的文章。
第一個做法的好處是可以人工審核哪些一定不能搜到,哪些可以放掉。第二個做法是對於想要排除字詞來說,設定上比較快速。第三種做法常見於網路銀行搜尋個人帳目資料、以及網路購物網站搜尋個人訂單,主要用來限制 end user 最多只能找什麼時間範圍內的資料,在資料量破表大的網站中,這種做法可以透過縮小資料庫的可搜範圍,降低資料庫的負荷,但資料本身都是還在不會被刪除。一般新聞網站如果使用三的方法,大抵是因為他們把更舊的新聞資料拿來賣,必須要付費才能查詢。例如 udn 新聞就是。
我不知道中時電子報用哪一種做法,不過如果是特定關鍵字全部資料都找不到的狀況下,大多會使用「黑名單」的方式來做。而不管用一、或是用二,基本上就是針對搜尋結果作過濾屏蔽,但不等於原始資料被刪除或下架。所以在中時電子報網站上,「劉曉波」搜不到東西,跟「六四」搜不到東西,對使用者來說結果一樣,但是在資料是否存在上是不同的兩件事。
你可能會說,幹嘛設計那麼複雜,要上架的內容為什麼不給人搜呢?除了前面提到「把更舊的新聞資料拿來賣,必須要付費才能查詢。」,我用相簿服務作為例子,有的平台有提供相簿服務,也提供站內相簿搜尋。只要這種可以上傳圖片的平台,就會有人上傳色情圖片。色情圖片理論上平台可能會被要求掃蕩,但色情圖片往往又是大宗流量來源,那怎麼辦呢?資料留著,但是特定關鍵字不給搜,兩全其美。資料可不可站內搜尋說穿了就是反應平台商業經營的各種考量而已,跟資料是否要公開是分開思考的。
而我比較疑惑的是我不太懂為什麼中時電子報要把「劉曉波」的站內搜尋結果屏蔽掉,但這很顯然有特別人指示,才會做這件事情吧。那為什麼那麼巧搜不到的都跟中共敏感詞彙有關呢?
我已經不知道能用什麼形容中時電子報的這種自我墮落了,一個在台灣的媒體,這樣自我閹割新聞自由、自我言論審查,真的很悲哀。