從「劉曉波」看中時電子報站內搜尋禁止字

早上發了「從中時電子報(中國時報)刪除站內「六四」歷史新聞,反思新聞自由」以後,看其他人分享提到,他們在中國時報站內搜尋「劉曉波」也搜不到東西。我測試了一下確實搜不到,但用一樣方式在google輸入
劉曉波 site:https://www.chinatimes.com

找到的文章都是可以正常連過去的。這個例子正好可以拿來說明「站內搜尋搜不到不一定等於資料被刪除(或下架)」

google 有收錄,且文章連的過去,代表文章狀態是「上架」(我習慣用商品上下架來形容,有的人可能比較喜歡「公開」「私人」,簡單來說文章狀態就是一個文章要不要正式發表的開關),但站內搜尋搜不到,這代表文章存在,只是不讓你在站內用關鍵字找到。

這種「資料在但不讓你找」的狀況,在程式設計上有幾種可能的做法:

  1. 每篇文章都有一個「搜尋狀態」,分為「可搜尋」及「不可搜尋」,只要設定為「不可搜尋」,即使文章是上架狀態,也無法使用站內搜尋搜到該文章。
  2. 另外設計「黑名單」,只要被列入黑名單的「關鍵字」,一律不顯示搜尋結果。
  3. 限制可搜尋的資料日期範圍,例如最多可搜尋最近6個月,或是最多可搜尋2017年ˇ以後的文章。

第一個做法的好處是可以人工審核哪些一定不能搜到,哪些可以放掉。第二個做法是對於想要排除字詞來說,設定上比較快速。第三種做法常見於網路銀行搜尋個人帳目資料、以及網路購物網站搜尋個人訂單,主要用來限制 end user 最多只能找什麼時間範圍內的資料,在資料量破表大的網站中,這種做法可以透過縮小資料庫的可搜範圍,降低資料庫的負荷,但資料本身都是還在不會被刪除。一般新聞網站如果使用三的方法,大抵是因為他們把更舊的新聞資料拿來賣,必須要付費才能查詢。例如 udn 新聞就是。

我不知道中時電子報用哪一種做法,不過如果是特定關鍵字全部資料都找不到的狀況下,大多會使用「黑名單」的方式來做。而不管用一、或是用二,基本上就是針對搜尋結果作過濾屏蔽,但不等於原始資料被刪除或下架。所以在中時電子報網站上,「劉曉波」搜不到東西,跟「六四」搜不到東西,對使用者來說結果一樣,但是在資料是否存在上是不同的兩件事。

你可能會說,幹嘛設計那麼複雜,要上架的內容為什麼不給人搜呢?除了前面提到「把更舊的新聞資料拿來賣,必須要付費才能查詢。」,我用相簿服務作為例子,有的平台有提供相簿服務,也提供站內相簿搜尋。只要這種可以上傳圖片的平台,就會有人上傳色情圖片。色情圖片理論上平台可能會被要求掃蕩,但色情圖片往往又是大宗流量來源,那怎麼辦呢?資料留著,但是特定關鍵字不給搜,兩全其美。資料可不可站內搜尋說穿了就是反應平台商業經營的各種考量而已,跟資料是否要公開是分開思考的。

而我比較疑惑的是我不太懂為什麼中時電子報要把「劉曉波」的站內搜尋結果屏蔽掉,但這很顯然有特別人指示,才會做這件事情吧。那為什麼那麼巧搜不到的都跟中共敏感詞彙有關呢?

我已經不知道能用什麼形容中時電子報的這種自我墮落了,一個在台灣的媒體,這樣自我閹割新聞自由、自我言論審查,真的很悲哀。

從中時電子報(中國時報)刪除站內「六四」歷史新聞,反思新聞自由

我先是在臉書上看到這個消息,想說查證一下,結果發現真的是刪掉了。這件事我覺得是台灣這個有民主法治的社會中,一件很諷刺、很悲哀、但也應該被記錄的事情。所以寫了這篇文。

事情的開始是這樣,我看朋友分享了這個臉書粉專貼文,原文在這:https://www.facebook.com/312238709415165/photos/a.312248932747476/369642953674740/?type=3&theater

01-中時電子報刪除站內「六四」歷史新聞

台灣媒體中時電子報自行刪除六四文章,可能嗎?

但是因為他是使用「站內搜尋」。我們在做網站的時候,站內搜尋其實是可以做到針對特定條件作屏蔽,例如針對特定字詞,或是針對日期,讓你不能搜到某些字詞的內容,或是只能搜到某個日期之後的文章。這在站內搜尋技術上都是做得到的。(對設計原理有興趣的可以看這篇「從「劉曉波」看中時電子報站內搜尋禁止字」)

也就是說資料搜不到也許不見得被刪掉了,但是你用站內搜尋找不到。雖然我不喜歡中國時報,但以我一開始並不想那麼鐵口直斷說他們真的把資料刪光了。

那要怎麼確認他們真的把資料刪掉了呢?還好,因為中時電子報是一個新聞網站,每天會產出大量的內容, google 對這類網站的內容收錄是非常友好的,針對新聞類型的網站 google bot 每天都會很勤勞的去爬他們他們的網站內容,看有什麼新的內容產出,並且很快地收錄到 google 索引內,並正式放到 google 搜尋結果資料庫內,所以一般人可以很快的可以透過 google 搜尋到這些資料。

google 也有提供「在google  已經納入索引的資料中,只針對某一個特定網站,搜尋這個網站內有某個關鍵字的網頁」的搜尋語法,所以我先打了這個
天安門 site:https://www.chinatimes.com/
搜尋結果如下

02-中時電子報刪除站內「六四」歷史新聞

點了第一筆:「六四天安門事件」他肉身擋坦克!27年後如今
網站顯示404錯誤畫面

03-中時電子報刪除站內「六四」歷史新聞

點了第二筆:天安門城樓拉皮迎陸建國70年
網站顯示正常

然後我再往下滑,點了:現場側寫-天安門升旗、六四天安門事件大事紀
網站顯示404錯誤畫面

我選了第二頁,點了:北京天安門城樓15日起修繕關閉至明年4月
網站顯示正常

所以顯然如果只是搜「天安門」,有的新聞被刪除了,有的還在。所以應該不是針對「天安門」這個字詞作過濾。

那如果改搜六四呢?
六四 site:https://www.chinatimes.com/

04-中時電子報刪除站內「六四」歷史新聞

在第一頁搜尋結果中,除了「六四新聞- 中時電子報- Chinatimes.com」可以點選外,其他結果都是404錯誤畫面。

但是「六四新聞- 中時電子報- Chinatimes.com」點進去看到的結果,會發現裡面完全沒有我們要找的那個「六四天安門」事件的新聞。

05-中時電子報刪除站內「六四」歷史新聞

在第二、三頁搜尋結果中,所有單篇連結點過去都是404
而「六四天安門事件的懶人包@ 不可不讀- 中時電子報」點進去看的結果空空如也

06-中時電子報刪除站內「六四」歷史新聞

檢查到這裡差不多可以確定,中時電子報確實把自己網站上,標題跟內文有「六四」的文章都刪掉了(或是換個說法,至少是被下架掉)。

針對上述404的內容,我趁google還有庫存頁面的狀況下,先把搜尋結果,與已經404的庫存頁面畫面擷取下來放雲端(見:中時電子報搜尋結果與庫存頁面截圖)。因為現在不截圖,過一陣子google 就會因為這些頁面已經變成 404 ,進一步將這些資料從 google 的搜尋資料庫清除了(有興趣的人,可以繼續看搜尋結果五、六以及更之後的,會發現有的文章只剩下「索引結果」,但是「庫存頁面」已經沒了,這就是 google 正在陸續整理中時電子報的 404 頁面)。然後這件事就不會再有人知道曾經發生過。

搜尋結果的部分,除了「全部」,「圖片」「新聞」「影片」也有同樣的狀況。google收錄的暫存檔還存在,但是點過去會發現都404了。

然後針對「新聞」的部分,會發現幾個現象

從上述觀察可以歸納幾個

  • 刪除「六四」文章不是純粹用資料庫搜「六四」就全部刪掉,因為這樣可能很多財經文章提到這個數字都會一起死
  • 刪除「六四」的文章,內容必然經過一定程度的人工審核。不然無法解釋同樣標題都沒有「六四」,但內文有提到「六四」,有的內容是政治人物說話,其中一段在說六四,卻沒有刪掉。而有的只是略為提及他在六四裡面的角色,根本沒有對六四著墨太多,卻被刪了。

中時電子報何時刪除站內「六四」文章?

接下來我想知道的是:「中國時報是什麼時候刪除這些資料的?」,雖然沒有辦法找到明確的時間,但可以從 google 有庫存頁面的網頁,以及我當初看到發現這個狀況的粉專貼文做推敲。

寫「搜尋六四」找不到相關事件的貼文,該文章發表時間是 6/11 下午6:56 ,所以顯然中國時報是在這時間前就把資料都刪掉了。

07-中時電子報刪除站內「六四」歷史新聞

然後針對在 google 的搜尋結果,最新收錄中時電子報網站中,跟「六四」有關的一則,是兩天前的「星期評論薛中鼎》三十年後看六四」(截圖看這

08-中時電子報刪除站內「六四」歷史新聞

google 快照時間是 2019年6月9日 20:13:43 GMT 。而網頁上顯示的發文時間是「01:16 2019/06/10」,代表該網頁至少在 2019/06/10 凌晨 01:16 有重新修改發布。所以可以推測中時電子報「動刀」的時間是落在 2019/06/10 凌晨 01:16 到 6/11 下午6:56 間。

這兩天發生什麼事,讓中時要把六四的文章刪掉?我不知道,我初步只想到前幾天看到 ptt 這篇爆卦「 [爆卦] 中國網路城牆封鎖新增台媒:中國時報 」,兩者之間是否有什麼因果關係?不得而知。但在這篇文章中提到有篇標題為「要求撤回修法港辦反送中大遊行」的新聞被刪除了,我 google 了一下,確實點過去 404。但這篇文章本身沒有「六四」,根據 google 庫存頁面,該文章發表時間是 04:10 2019/06/10,這篇新聞也有轉貼去 yahoo 新聞,那裡的po文時間是 2019年6月10日 上午5:50

但這件事也讓我想到更早的時候看到的這則消息「【百度貼吧衰亡史】百度貼吧清空2017年以前內容,中國網民15年的歷史一夜消失

中國的網站把過去的資料刪掉,我相信其中應該有中共政府人治做言論管制的痕跡,數位資產就這樣消失,雖然覺得遺憾,但並不意外。而台灣雖然邁向民主法治,公民運動蓬勃發展。但顯然台灣有些媒體並不珍惜在這個民主法治社會下,才能擁有的新聞自由與言論自由。所以媒體可以自我閹割,中時電子報願意自己把自己網站上關於「六四」的所有新聞、輿論、評論文章甚是書評全部刪光光。

擁有新聞自由、言論自由,不等於懂得珍惜這些自由

如果以為有新聞自由、言論自由,就代表擁有「資訊自由」,擁有「知的權利」,看看中時電子報所做的。我們以為我們有資訊自由,但其實並沒有。因為實際上是媒體想給你什麼,你才看得到什麼。問問我們自己,台灣的媒體,報導的國際新聞多嗎?報導的國際新聞我們又看了多少呢?會不會,我們只是表面上擁有新聞自由言論自由,但我們從來沒有去正視與珍惜過?而台灣的自由,真的能夠讓我們繼續這樣揮霍下去嗎?

對照香港現在正在發生的反送中遊行,看看台灣媒體是怎麼報導這些內容的,台灣人想要怎樣的未來?這個問題,真的需要我們一起好好的思考。