選舉觀察part3:從「蜂蜜檸檬」看「韓國瑜」搜尋熱度異常,真韓粉其實在美國?!

這幾天我一直在想一個問題:一個台灣的熱門政治人物,搜尋熱度的上限要到多少才能說得上「沒有異常」?結果這幾天就出現「蜂蜜檸檬」,不但引起大家購買蜂蜜檸檬的風潮,還出現一大堆音樂kuso二創大爆發。放上我覺得最好聽的和弦版本。

所以短期內「蜂蜜檸檬」會大熱搜應該是可預期的。那實際狀況是多熱呢?
這是90天的韓國瑜 / 柯文哲 / 蜂蜜檸檬的搜尋趨勢

  1. 蜂蜜檸檬最後這周狠狠地超越了柯文哲,最高點高出柯文哲2倍。
  2. 但在韓國瑜面前還是輸了
  3. 從9月29日開始,韓國瑜的搜尋熱度上升曲線非常明顯。

來看看過去7天的韓國瑜 / 柯文哲 / 蜂蜜檸檬

  1. 台北市市長辯論會的日期是11/10,在那之前蜂蜜檸檬乏人聞問,突然大家都「搜起來」了
  2. 蜂蜜檸檬這三天的搜尋量都超越柯文哲
  3. 蜂蜜檸檬只有在11/12早上9:00~11/13早上1:00這段時間略為超車韓國瑜。其他時間還是輸給韓國瑜。

不過這些搜尋都是針對台灣,如果依照我之前推論韓國瑜的搜尋有更大的外力介入,是不是在全球搜尋能看出些什麼呢?結果發現一個很有趣的現象…

那個莫名的律動是怎麼回事??

如果比對上一張圖,蜂蜜檸檬超越韓國瑜的時間,跟這張是一致是沒錯。但為什麼這張會有那麼明顯的搜尋量循環?而且這個循環不是只出現在韓國瑜,是所有的字都有這個現象。為什麼?

看看搜尋低點的時間,都落在每天凌晨4點。那個時間大家都在幹嘛?

 

睡覺。

所以這個搜尋量循環反應的,是一天的作息時間囉?這個假設對嗎?我決定先拋開政治人物,拋開蜂蜜檸檬,我們一樣來搜尋減肥。
台灣7日搜尋趨勢

全球7日搜尋趨勢

所以台灣跟全球都有一樣的律動。那…不同時區的作息時間,是否會出現偏移?,來增加搜尋日文的「体重」,跟英文的「lose weight」

可以看出來時區差異越大,低點會偏移,但整體依照時間造成點搜尋熱度潮起潮落模式是相同的。

那為什麼只看台灣的搜尋量的時候,看不太出來這樣的趨勢?

上面兩張圖放一起比,可以發現如果台灣只搜減肥,高低起落其實是很明顯的。只是當減肥跟柯文哲 / 韓國瑜 一起比較的時候,那個依照一日作息高低起落的相對性,比起韓國瑜的搜尋量變化,太微小不足道了,以至於被壓扁了。

可是當搜尋熱度拉到全球的時候,這時候如果有外力介入搜尋,且搜尋量很大,且大的很規律的時候。那巨大的一日作息的高低起落搜尋量總數,就又把韓國瑜在台灣的搜尋量的高低起伏給沖淡。

這個現象我想到的假設有兩種:

  1. 外力介入者的搜尋行為跟我們很近,推測他們的作息時間跟台灣的差異不大。
  2. 外力介入者因為主要要介入台灣的選舉,所以他們操作的方式也必須因此符合台灣的作息時間,才能有最大的影響力。

不管是1還是2還是混合,至少都可以看得出外力介入的搜尋量一定是很大,才會導致一樣的時間區間,台灣跟全球的搜尋熱度曲線有如此巨大的差異。

那外力介入的巨量搜尋量,若以ip位置來看會來自於哪裡呢?如果上述1的假設正確,那我猜巨量搜尋量應該來自於中國?這次我把簡體的韓國瑜也加進來搜搜看。

很意外的,不是。中國的搜尋量規律性沒那麼強。韓國瑜的搜尋量有除了台灣中國,也分佈在美國跟澳洲。那試試看美國?

中了。巨量「繁體韓國瑜」搜尋來自美國,且熱度分佈符合台灣的一日作息。那來自美國的搜尋量,分佈在美國哪裡呢?

最多的搜尋量來自加州,加州跟台灣的時差是16小時。台灣凌晨4:00的時間,加州時間應該是,中午12:00。所以理論上加州的正常一日搜尋熱度分佈,應該會跟台灣的錯開。但顯然在這幾個關鍵字上來自美國的流量並沒有錯開。從這裡可以推出我的1的假設是錯的。2的假設可能性比較高,而且大量外力介入的搜尋量來自美國的ip。那至於這是「真美國人」幹的?還是「有人用vpn跳轉ip」做的?還是有人直接設點在美國操作?這些可能性都是有的,我就不下定論了。

不過大概可以得到一個結論,就是真韓粉其實在美國(?

台灣政治人物搜尋熱度的上限在哪?

不管前面的異常流量來源要怎樣解釋,但這些證據都只是繼續應證「韓國瑜」搜尋熱度有很大的異常。有大量人為操作應該是很確定的了。那到底台灣政治人物搜尋熱度的上限又在哪呢?

因為正好台灣這幾年出了幾個應該大家都會覺得算有名的政治人物,例如柯文哲,撇開柯文哲上一屆以黑馬之姿拿下台北市市長寶座。我相信以總統等級來說,馬英九 / 蔡英文 在搜尋熱度上應該也不會太差。連勝文雖然輸了,但當年「希望的種子」網路也很多人kuso二創,可以猜想他的網路搜尋量應該也不會太差。又正好這五年除了有台北市長選舉,也歷經總統選舉,那何不一起來做比較試試?

近5年熱門候選人的搜尋趨勢圖

滑鼠移到點上可以看到搜尋熱度的相對比較數字,從5年的圖表可以看出幾件事:

  1. 五個人的相對搜尋熱度高點:
    韓國瑜100,蔡英文(2016年) 54,馬英九(2012年) 30,柯文哲(2014年) 65 ,連勝文(2014年) 37
  2. 「韓國瑜」搜尋熱度是「蔡英文」最高點的近2倍。是「馬英九」最高點近3倍
  3. 一樣是中國國民黨的候選人,本身也是財力資源雄厚的「連勝文」,搜尋熱度最高的時候比馬英九略高。但也只有到「韓國瑜」的3.5成。
  4. 「柯文哲」在上屆選舉最高熱度只到「韓國瑜」的6.5成。

那如果從google趨勢 2004 年開始有紀錄起,先踢掉連勝文,把陳水扁選總統的紀錄也列入的話呢?

  1. 五個人的相對搜尋熱度高點:
    韓國瑜100,蔡英文(2016年) 32,馬英九(2008年) 41,柯文哲(2014年) 42 ,陳水扁(2004年) 23
  2. 馬英九在2008年的網路聲勢與2014年的柯文哲相當

綜合上述兩張圖。以台灣要靠近選舉大家才會對政治人物有高度搜尋興趣的這個特點來說,並把所有熱門人物並列,我大概可以下幾個簡單的結論:

  1. 柯文哲在 2014 年選舉的最高熱搜點,大概就是一個「直轄市」候選人在台灣同時狹電視+網路推波助瀾的熱度極限。
  2. 總統級的選舉,除非未來出了更厲害的明日之星,不然短期內,極限應該也差不多是柯文哲 2014年熱搜高點。
  3. 不管是哪個候選人,熱搜的最高點都出現在「當選那天」「當選那周」。只有韓國瑜的熱搜高點「還沒到選前就連續近兩個月不斷的自我突破」

選舉觀察part2:看「韓國瑜」網路資訊風向的被操弄

再寫這篇,算是回應朋友在我臉書的留言的某些疑問,跟一些網路留言。我先把他們的疑問大概條列整理。問題大概可以歸類到這幾個,這些問題我依照我預備回答的順序整理如下。

  1. 韓國瑜在這個時間點搜尋量大得多不是很正常的事情嗎?
  2. 拿韓國瑜跟跟韓劇、林志玲這種常用詞彙比較適當嗎?
  3. 是搜「韓國」的人的搜尋熱度跟「韓國瑜」的混在一起了吧?
  4. google Trends 的計量正確可以信任嗎?有相關機制來確保他們的計量不失真嗎?
  5. 搜尋結果數量的大爆發應該是中時系統大量新聞發新聞的結果吧?
  6. 網軍主戰場在臉書的留言、按讚、分享,還有八卦版,操作google關鍵字搜尋量有什麼意義?

1.韓國瑜在這個時間點搜尋量大得多不是很正常的事情嗎?

這是根基於「韓引起比較多的興趣(正面反面都是)很正常,搜尋量當然大的多。」所推導的結果。所以要進一步問的是「搜尋量大到多少算正常?大到多少算不正常?我憑什麼說韓國瑜的搜尋量大到不正常?」

這個問題,用一張圖就可以回答。一樣是用 google Trends 拉出韓國瑜 / 柯文哲 / 金庸 /韓劇 四個關鍵字搜尋熱度的資料。但是把時間軸拉到5年,也就是柯文哲上次選舉的時間一起納入。

這是全球的搜尋量

這是台灣的搜尋量

以金庸來比較,可以看出台灣跟全球的搜尋量差別很大,代表很多搜尋金庸的人不在台灣,合理推測應該是在中國的比較多。

以全球搜尋量來說,在8月中以前,金庸的搜尋量都高過於韓國瑜。然後韓國瑜在8月中後黃金交叉,9月中後就一飛沖天沒下滑過。直到金庸過世時,瞬間衝高搜尋熱度,搜尋量才又高過於韓國瑜。所以韓國瑜何德何能讓大家從9月中開始「持續都想搜尋」?

另外,以柯文哲上次選舉13個月的搜尋趨勢,跟這次選舉從今天往前推13個月的搜尋趨勢來比較。先只用柯文哲搜。

2013/11~2014/12

2017/10~2018/11

柯文哲在上次選舉的搜尋熱度,前面是經過階段堆疊的,2013年12月~2014年5月一階,5~8月底拉高一階,9~10月再拉高一階,最後11月選舉月才衝上高峰。但即使衝上高峰也不是一口氣就衝上去。從最低拉到最高花了半年時間。

今年因為柯文哲跟上一次比「有名了」,所以原本就有一定的搜尋熱度,但搜尋熱度上升趨勢還不至於衝的很誇張,一樣有順著時間接近選舉,逐漸「堆疊」的狀況。

那一樣的時間長度,把韓國瑜放一起比較的話呢?

所以韓國瑜狠狠打趴柯阿伯啊。再看一次五年的比較

韓國瑜,一個在半年前名不見經傳的人,在都7月以前搜尋熱度都遠低於柯文哲。何德何能可以在一個半月內衝破高峰,比三年前的那個經歷被KMT弄的柯文哲,搞到後來出來選的柯文哲,要來的有更多的搜尋量?

政治人物的名字不是不能有瞬間搜尋量,但重點在於搜尋熱度是否經過正常的堆疊過程。韓國瑜搜尋量的瞬間增加「是否為正常」,各位就自行判斷吧。

2.拿韓國瑜跟跟韓劇、減肥、林志玲這種常用詞彙比較適當嗎?

這是針對上一篇文章,很多人提出的問題。所以要說明一下為什麼我要挑這些詞。我刻意在拿韓劇這個關鍵字來比較,是因為演藝娛樂相關的文字,搜尋量大過於政治人物是很正常的,因為對演藝娛樂有興趣的人一定多過於對政治人物有興趣的人。另外減肥這個詞,所適用的族群(性別,年紀)相對於政治人物也是比較廣的,這兩個字從五年的搜尋量來看,都可以看出他們是長期的熱搜字。我需要的長期且穩定的熱搜字作為一個比較的基準線,這是我挑選這兩個字的原因。至於為什麼是這兩個字,不是其他字,沒別的理由,憑感覺撈,這點我不否認。

但我知道像林志玲這種明星字,他的搜尋曲線一定是不穩定的,所以我只是把的搜尋後的網頁收錄數量拿來做相對比較,就沒有把它丟到 google trend 做趨勢比較。我當時只是推測,理論上韓國瑜的搜尋網頁收錄數量不應該大過於明星,所以挑了一個我覺得應該大家一定都聽過的明星來做比較。不過這裡要強調一件事,網頁收錄數量跟搜尋熱度是兩件事,兩者沒有關聯性。

另外也感謝網友來信的提醒,11/9他來信提到Google 搜尋關鍵字有無雙引號,會影響搜尋的精確度。確實用這樣的方式搜尋,搜尋結果數量比較正常一點。但這裡簡單說明一下為什麼會有差。如果搜「韓國瑜」會把「韓國 瑜」的網頁搜尋結果也算進來。「韓國 瑜」這個詞的搜尋意義比較接近「如果一個網頁內容有韓國,也有瑜,就算進來,但韓國跟瑜這個字不一定完全連在一起」,但如果搜「”韓國瑜”」,意思是「我就是要搜網頁內容精準符合有『韓國瑜』三個字連在一起的才算數」,那自然網頁內容比對上要更精準。以前者來說,隨便舉個例子喔,也就是網頁如果內容寫到「韓國」跟「周子瑜」,這樣的網頁也會被計算進來。

也許有人說,抓到了!所以不精準!我下一個問題會用另外一個關鍵字例子回答這件事。不過這裡我只問一個問題:你覺得就搜尋行為來說,搜尋「韓國 瑜」是要找「韓國瑜」的機會比較大?還是要找「韓國 周子瑜」或其他「韓國 xx瑜」的機會比較大?

3.是搜韓國的人的搜尋熱度跟韓國瑜的混在一起了吧?

這個質疑我覺得是所有質疑中最棒的一個,有沒有這個可能性呢?確實有喔!而這個問題也反映了電腦邏輯判斷誤區跟極限。但這個問題其實也非常容易回答。我們只要把「韓國」跟「韓國瑜」兩個字的搜尋熱度放在一起比較,不就知道了嗎?

來看看這5年「韓國」跟「韓國瑜」的搜尋趨勢

從這張圖可以看到幾個現象:

  1. 「韓國」這個字是一個有穩定搜尋量的字,五年的搜尋量前面看起來都很平穩。而且搜尋量真的很高。
  2. 當「韓國瑜」搜尋量沖天炮的時候,「韓國」的搜尋量一樣被計算到沖天。
  3. 兩者沖天的趨勢與幅度幾乎是一樣的。
  4. 韓國瑜的搜尋熱度最高的時候,可以達到「韓國」五年以來搜尋量的平均水平。
  5. 韓國瑜搜尋熱度的高點,是「韓國」這個詞五年來搜尋量平均水準的2倍多。

所以到底是搜「韓國 瑜」的讓搜「韓國」的字熱度衝高?還是搜「韓國」的讓「韓國瑜」的搜尋熱度衝高?

這個例子很好的關係在於,「韓國」正好就是一個「有穩定搜尋量而且量很大的關鍵字」。難道是台灣從9月開始想去韓國的人變多了?那來同時搜一下日本美國跟歐洲好了?

原來對韓國瑜有興趣的人可以超過對美國有興趣的人呢,真是大開眼界了~其他的不多說,總之感謝「韓國瑜」的名字有「韓國」,讓我們用這個例子來看出電腦判斷的極限。並增加台灣人對韓國的興趣(誤

認真說,如果沒有這次機會把韓國跟韓國瑜比,可能真的有人會誤會想去韓國的人變多了呢。

google Trends 的計量正確可以信任嗎?有相關機制來確保他們的計量不失真嗎?

先講結論,如果google自己出的資料是不可信任 / 失真嚴重,說真的,我也沒其他更可以信任的資料能夠分析了。如果「google的資料不可信任」這個前提你認為成立,那我也直白的說,這兩篇文章都可以不用讀了。

我也承認,我沒有能力去確認「他們是否有相關機制確保資料不失真」。我只能用我過去使用 google adsense 跟 google Analytices 的經驗,判斷他們的數據應該有做過濾確保不失真,也相信他們一定有足夠的技術可以做這件事。

先來看google自己怎麼解釋「搜尋熱度的趨勢變化」。大家可以自己去google trend按「搜尋熱度的趨勢變化」標題旁邊的「?」,我這裡直接貼他寫的文字啦。

「這些數字代表搜尋字詞在特定區域和時間範圍內的熱門程度變化趨勢,以圖表中的最高點做為比較基準。100 分代表該字詞的熱門程度在該時間點達到最高峰。50 分表示該字詞的熱門程度為最高點的一半,0 分則表示該字詞熱門程度的資料不足。」

因為 google Trends 主要是用歷史資料來看哪些字的搜尋熱度變化。所以在我所認識的業界,最常使用 google Trends 的是做 SEO 網路排名跟網路行銷的代理商 / 網路行銷公司。他們看 google Trends 的目的是挑選適合操作的關鍵字。不管是操作網路廣告也好,或是操作網站的網路排名也好,都適用。

也因為這樣,在使用 google Trends 的時候,我們會輸入多組關鍵字。因為我們要知道的是哪些關鍵字比較熱,哪些關鍵字比較冷。這是為什麼我的分析會拿 google Trends 來作為比較的原因。

回到我前面說的,我為什麼可以確信 google 有足夠的技術可以做到「判斷他們的數據應該有做過濾確保不失真」,這要講到十幾年前我做過的一件蠢事。我很早就有部落格,當時用的是sina,然後我有掛 google adsense ,希望可加減賺廣告費。但掛了才發現其實很難賺。有一次我很無聊,用我自己的電腦點了我自己部落格的廣告,過一陣子發現 google adsense 那裡顯示我有廣告收益。於是我動了壞心眼,如果在別的地方有機會用電腦,我就上網搜尋我的部落格,打開後點一下廣告,而且很克制的只點一下。一個月內我大概做這事情不到五次吧,畢竟那時候還沒有手機平板,我也不上網咖,在別的地方用電腦的機會其實也不是那麼多。

然後過了一個月,我的 google adsense 被停權了。

我知道這很蠢,但我是要用這個例子來說,google透過使用者點擊統計,可以判斷這個使用者行為是否屬於「正常」範圍。我當時之所以被停權,是因為我的部落格流量並不大,他們長期統計已經大概知道正常的流量對應廣告點擊率大概的範圍,雖然我點不到五次,但跟我當時網站的流量做比較,那個廣告點擊的頻率大大超出正常範圍,所以他們判定我人為作弊,所以停權。

另外 google Analytices 在統計流量的時候,也早就已經做到不會因為你用同一台電腦一直重整畫面,網站流量就不正常攀升。所以你說 google 有沒有相關機制來確保他們的計量不失真?至少我相信是有。那你要不相信,就不相信吧。

5.搜尋結果網頁的大爆發應該是中時系統大量新聞發新聞的結果吧?

我直接來針對台灣幾個新聞網站搜一下他們在google被收錄的數量來做比較。又因為這問題我其實沒有覺得很重要,所以懶得截圖了,大家有興趣的可以自己花兩天時間搜尋紀錄試試看。以下是我搜尋的紀錄與分析。

11/9 晚上11:00 媒體網站被收錄數量

  • 中國時報 約有 1,220 項結果(搜尋字詞:site:chinatimes.com.tw)
  • 中天新聞 約有 812 項結果(搜尋字詞:site:www.ctitv.com.tw)
  • 風傳媒 約有 324,000 項結果(搜尋字詞:site:www.storm.mg)
  • 天下雜誌 約有 111,000 項結果(搜尋字詞:site:www.cw.com.tw)
  • 蘋果日報(全球) 約有 10,500,000 項結果(搜尋字詞:site:appledaily.com)
  • 蘋果日報(台灣) 約有 4,500,000 項結結果(搜尋字詞:site:tw.appledaily.com)
  • 聯合報 約有 8,210,000 項結果(搜尋字詞:site:udn.com)
  • 自由時報 約有 3,880,000 項結果(搜尋字詞:site:ltn.com.tw)
  • LINE TODAY 約有 2,350,000 項結果(搜尋字詞:site:today.line.me)

名人關鍵字搜尋結果數量(以下搜尋量採用前後加上””的方式搜尋)

  • 柯文哲:約有 14,900,000 項結果
  • 韓國瑜:約有 18,200,000 項結果
  • 林志玲:約有 30,100,000 項結果
  • 蔡英文:約有 35,200,000 項結果

11/10 早上9:00 搜尋媒體網站被收錄數量

因為媒體產出的量級數字跟名人關鍵字搜尋數量的量級差太多了,「小媒體」的我今天就沒搜。只挑聯合報跟蘋果日報(全球)。

  • 聯合報 約有 8,390,000 項結果(搜尋字詞:site:udn.com)
  • 蘋果日報(全球) 約有 10,800,000 項結果(搜尋字詞:site:appledaily.com)

名人關鍵字搜尋結果數量

  • 柯文哲:約有 13,800,000 項結果
  • 韓國瑜:約有 19,300,000 項結果
  • 林志玲:約有 27,700,000 項結果
  • 蔡英文:約有 42,000,000 項結果

網頁收錄量也跟搜尋熱度一樣會有高有低,所以有增加減少的變化很正常,我這裡要看的是增加減少的「量級數」。

網頁收錄數量一次增加減少的量級都是用幾百萬的變化的。台灣媒體網站頁面被收錄最多的網站是聯合報,隔一天增加的網頁數是18萬。即使用蘋果日報(全球)來看,也不過增加30萬。而且這是「全站總網頁被收錄數」,並沒有只針對「韓國瑜」這個字詞作過濾。

也就是單一關鍵字網頁收錄數要做到百萬變化,要有很多網站一起做。但是看看台灣媒體其他網站的整體被搜尋數量,就可以看出這也不是台灣「各大媒體網站狂出新聞稿」就可以操作出來的數字。

再提醒一次,請大家在講「大量」的時候,不要只憑感覺。把數字拿出來。

6.網軍主戰場在臉書的留言、按讚、分享,還有八卦版,操作google關鍵字搜尋量有什麼意義?

我這裡就不解釋搜尋排名操作的理論,簡單回答:你覺得當你搜尋的時候,誰決定哪些文章可以排在前幾頁?

基本上操作關鍵字就是在操作網頁排名,把他希望大家可以優先看到的資訊往前擠。又為什麼韓國瑜大部分的搜尋看起來都在台灣?若要操作排名在中國不能操作嗎?基本上現在google可以根據你的地點做在地搜尋。例如你在台北,跟你在高雄,一樣搜尋「餐廳」,手機的搜尋結果是不同的。桌機也是一樣,像我用電腦搜尋餐廳,他前面先顯示google map的資料,就會顯示我家巷口的熱炒店。

那做在地排名要根據什麼?在地的搜尋熱度跟搜尋後實際看了哪些網頁是其中一項因素。所以如果要操作當台灣人搜尋韓國瑜的時候,哪些資訊排前面,那搭配在地關鍵字搜尋行為就是必要的。另外我上一篇會比較收錄網頁數量,是想驗證他們有沒有在大量產出網頁,做網頁外連,用這個方式推特定網頁的排名。當然,熟知搜尋排名的都知道,要更細緻的操作遠遠不止這些。這裡只是其中一小部分。

但不要誤會,我不是說你現在看到所有韓國瑜的新聞「一定」都是他們操作上去的,因為「新聞」的排名速度更迭本來就變化的很快。且每個人的搜尋結果也會根據個人的搜尋習慣 / 地點 / 設備不同而略有變化。這裡只是要說操作關鍵字搜尋行為,再搭配一些作法,是能夠直接影響什麼網頁排在前面的。

想一個假設性問題:你今天投票意向不是鐵票,藍的綠的都投過,但想知道投誰贏面比較大,你上網打韓國瑜,搜的結果是預測韓國瑜會贏,跟預測韓國瑜會輸,兩者的結果會不會間接影響你的投票意向?

如果你只把網路戰鎖定在社群媒體跟ptt,那真的把網路戰看得太淺了。人家有計劃有組織的網路戰,做的可是全套的。

***************
感恩讚嘆蜂蜜檸檬,於是又有了第三篇….
選舉觀察part3:從「蜂蜜檸檬」看「韓國瑜」搜尋熱度異常,真韓粉其實在美國?!

選舉觀察:台灣新聞自由的被箝制與網路資訊風向的被操弄

之前只是跟朋友聊到韓國瑜的網路資訊有很明顯的操作痕跡,但今天發現一件事讓我覺得毛毛的。覺得一定要趁還有印象的時候記錄下來。

事情是這樣的,前幾天我在滑臉書的時候看到朋友分享了一篇文章,是天下雜誌寫的,標題我印象中有提到愛家公投跟中國因素,當時想說車上不方便看就先轉貼到自己的牆上備份起來。這幾天有時間想說要回頭好好來讀一下的時候,赫然發現該文章不見了!

這很奇怪,這篇文章上架沒幾天,為什麼會突然刪掉呢?一般來說台灣的新聞如果是內容有更動,反正都網頁化了,直接更新內容就好。由於之前已經耳聞過很多因為高層壓力而下架新聞的事件,我覺得這案情實在不單純。但在這之前我應該要先趕快把網路上找得到的資料先備份下來,免得口說無憑。

於是我重新在 google 搜尋「愛家公投 中國 天下」,搜尋結果如下,可以看到文章是三天前收錄到google的。針對像這種新聞大站,google的收錄都是很即時的,所以可以合理推論這篇文章三天前確實存在。但什麼時候被刪除?不確定。

然後我想想看看google有沒有留著暫存頁面。所以點進去頁面庫存檔,發現竟然完全沒有頁面庫存。

這就很詭異了。你可能會說,文章都被刪掉了,沒有頁面庫存有什麼奇怪的嗎?但就我個人的操作經驗來說,依照 google 爬蟲的運作,如果今天不是文章來源網站本身主動要求刪除頁面庫存,google自行刪除已收錄的庫存資料的速度是不會那麼快的。這個很顯然天下應該有使用 google console 去對 google 要求刪除庫存資料,才會那麼快庫存頁面就消失了。

我決定再碰一下運氣,用 wayback machine 網頁時光機找找看有沒有庫存。搜尋結果如下

所以他在11/6的時候確實也有收錄過。點進去看他收錄的版本

「反同婚教會背後有中國因素?學者:中國利用台灣矛盾、借力使力」文章上下架時間軸

所以看得出來 wayback machine 爬到的資料,當時已經改成「付費閱讀」了 可能因為爬天下的網站上限超過,所以顯示成「付費閱讀」以至於沒有爬到完整內容。然後從這裡也可以看到該篇文章的發文日期是2018/11/5。所以可以合理推測這篇文章「反同婚教會背後有中國因素?學者:中國利用台灣矛盾、借力使力」的時間軸如下:

  • 11/5 上稿
  • 11/6 被改成限付費閱讀 wayback machine 爬到的資料
  • 11/7(或更早)文章被刪除了

但幸好我用標題搜尋ptt後發現,ptt那裡已經有人全文轉錄了(備份網址一)(備份網址二)。說真的看了全文內容後,我個人真的覺得這就是一篇專訪,沒什麼大不了的。但為什麼我眼裡沒什麼大不了的文章,竟然會落得下架?

我在想的問題是:是誰要他們下架?反同教會?中國?還是其他?又就算姑且不論背後的勢力為何,但這是否也意味著確實有外部壓力正在影響甚至箝制台灣的新聞自由?

這也讓我想到之前觀察韓國瑜網路訊息的現象,當時我覺得韓國瑜的新聞感覺好像多到一種不太正常的地步。於是用google大神打了幾個關鍵字。我相信在此時刻的台灣,柯文哲的新聞多應該不是什麼很奇怪的事,於是我打了「柯文哲」跟「韓國瑜」比較一下他們的搜尋結果。

這是10/31我傳給朋友看的訊息

  • 韓國瑜:約有 46,900,000 項結果
  • 柯文哲:約有 14,000,000 項結果

避免有人說我在虎爛。截圖證明一下

這是我今天(11/8)為了整理這篇文章再次搜尋的結果

  • 韓國瑜:約有 53,400,000 項結果
  • 柯文哲:約有 14,700,000 項結果

這是今天重新搜尋的截圖

中間經過8天,柯文哲的搜尋結果增加了700,000,平均一天增加87,500。韓國瑜的搜尋結果增加了6,500,000,平均一天增加812,500。韓國瑜一天的新網頁收錄數量是柯文哲的9.28倍。以我以前在操作公司跟追蹤對手網站SEO的經驗判斷,這其實有非常明顯的人為操作。但是會是KMT在操作嗎?我認為他們沒那麼聰明。那會是誰在操作的?

另外如果我做SEO操作,不會只有「大量生產內容」,還要想辦法讓這些內容「排名可以排前面」,那就必須配合大量的關鍵字搜尋跟點擊的行為,那這件事是否同時發生呢?所以我到 google 趨勢去查詢,同時輸入幾個政治人物的名字做比對。

紅線是柯文哲,他長期搜尋熱度高不意外。綠線是黃國昌,前面有一個突起是當時在「罷免黃國昌」的關係。從這個趨勢可以很明顯地看出韓國瑜的搜尋熱度不但很高,而且高的很誇張,並且是從9月中開始上升,9月底開始誇張的沖天。

這是只有在台灣,那如果把搜尋結果改成全球呢?

因為全球包含台灣,所以搜尋結果差不多也很正常。韓國瑜看起來有更多外力支撐他在高點。我好奇全球都是哪些區域在搜尋的。來看一下區域搜尋熱度比較看看。

顯然中國對黃國昌很沒興趣啊。然後我進一步想,那如果我把這一年幾個重大社會議題一起拉進來比較的話呢?

勞基法凸起來的時間點就是一例一休修法的前後。我比較意外的是公投從10月中後跟柯文哲的搜尋趨勢黃金交叉,也呈現沖天炮的趨勢。

不論是勞基法還是罷免,上升到高點回到一般值經歷的時間差不多都在20天內,也就是三個禮拜。但是韓國瑜的搜尋熱度從9月中開始上升以來,到現在都還在高點。這本身就是一個不正常的搜尋趨勢。

韓國瑜比志玲姐姐還紅,關心韓國瑜的人比看韓劇的人多

我突然想到,前陣子金庸過世,當時不管台灣還是中國都有很多人弔念,那當時的搜尋趨勢跟韓國瑜比會是如何呢?

結果金庸的搜尋熱度高點竟然只比韓國瑜多一點點而已,而且很明顯一周內 google 也預測會下跌。那我不禁在想,韓國瑜的網頁收錄數跟金庸,志玲姐姐還有蔡英文總統比,誰多誰少呢?今天(11/8)搜尋結果如下

  • 柯文哲:約有 14,700,000 項結果
  • 韓國瑜:約有 53,400,000 項結果
  • 金    庸:約有 58,700,000 項結果
  • 林志玲:約有 31,800,000 項結果
  • 蔡英文:約有 60,600,000 項結果
11/9 補充資訊:有網友來信提醒,關鍵字搜尋頭尾加上””搜尋的數量比較精準。前面計算因為都是用沒有加””的方式搜尋,數字我就不修正了。但過幾天我會用這個方法重新搜尋,再持續追蹤看看數量變化。11/9重新用這個方式搜尋結果如下。

  • 柯文哲:約有 14,900,000 項結果
  • 韓國瑜:約有 18,200,000 項結果
  • 金    庸:約有 51,600,000 項結果
  • 林志玲:約有 30,100,000 項結果
  • 蔡英文:約有 35,200,000 項結果

原來韓國瑜比志玲姐姐還紅耶,我也是醉惹…..而且我相信以現在這種速度增加,韓國瑜的網頁收錄數量要超越蔡總統不遠惹~不然我來搜一些其他熱門字好惹,例如減肥,韓劇,看看他們的搜尋趨勢跟韓國瑜比又是如何。

原來台灣人對減肥跟韓劇的搜尋熱度還少於韓國瑜。在9月底的時候,大家對韓國瑜的熱度就超越減肥了。到10月中的時候還超越韓劇。果然只有韓國瑜可以超越韓劇(?

從 google 看公投議題被外力操作的痕跡

回到公投,這趨勢我也覺得有點誇張,不只高過柯文哲,而且還是持續上升。在10/14前的上升幅度還算正常範圍,但是10/14後明顯搜尋熱度上升的速度變快。且是持續三週上升,這個模式跟勞基法與罷免是第二週到最高點第三週回到正常水平,明顯是有差異的。

所以來看看有哪些地區對公投跟勞基法有興趣。

顯然中國對台灣公投也是很有興趣的,但是對勞基法就完全沒興趣了。

搜尋趨勢的部分我如果把時間軸拉短,改成90日。比較韓國瑜 / 柯文哲 / 陳其邁 / 公投。加上一個金庸。

可以看到金庸搜尋熱度一周內就回到平常狀態。韓國瑜的搜尋熱度上升的很不正常。公投的搜尋熱度持續維持還高於柯文哲也很詭異。

搜尋時間軸若改成30日。把金庸拿掉,改用減肥來比較。

你相信搜公投的人可以連著兩個禮拜比搜減肥的多嗎?我是不相信啦….

另外,網路搜尋使用者行為如果只看台灣,也不要傻傻的以為那真的都是台灣人自發性的搜尋結果。要記得一件事:中國如果想來台灣設置VPN跳板,是非常簡單的事。在網路上把自己的位置偽裝成台灣,特別是中國有錢有資源,一點都不是什麼很困難的事。我甚至敢大膽的推測,這已經是現在進行式了。

所以上述 google 趨勢,若對照「反同婚教會背後有中國因素?學者:中國利用台灣矛盾、借力使力」的來看,我覺得中國利用台灣矛盾借力使力,是很明顯的。他們其實不在乎什麼挺同反同,但他們在乎的是怎麼利用這些「勢」來影響台灣的政治,影響台灣的媒體,所以你會發現,只要這個「勢」可以影醒台灣政治的,他們就會有興趣,例如公投,例如反同。但如果這個「勢」對他們沒有太大幫助,例如黃國昌,例如勞基法,他們就沒興趣。而這才是我們需要提防的。

****************************

針對以下疑問與質疑

  1. 韓國瑜在這個時間點搜尋量大得多不是很正常的事情嗎?
  2. 拿韓國瑜跟跟韓劇、林志玲這種常用詞彙比較適當嗎?
  3. 是搜「韓國」的人的搜尋熱度跟「韓國瑜」的混在一起了吧?
  4. google Trends 的計量正確可以信任嗎?有相關機制來確保他們的計量不失真嗎?
  5. 搜尋結果數量的大爆發應該是中時系統大量新聞發新聞的結果吧?
  6. 網軍主戰場在臉書的留言、按讚、分享,還有八卦版,操作google關鍵字搜尋量有什麼意義?

請見選舉觀察part2:看「韓國瑜」網路資訊風向的被操弄