Ruby - 爬網頁時遇到的編碼錯亂問題

問題描述編碼問題是寫爬蟲常會遇到的問題。當你沒有處理好編碼問題,爬回來的網頁無法進行字串的切割,也無法使用 nokogiri 抽離需要的部份。 解決方法 找到原始網頁的編碼chartset='big' 把網頁 force_e ...
繼續閱讀

Ruby 爬蟲小技巧 - 處理 Html Entity

這是一個在工作上遇到的小問題。把網頁爬回來的時候有 HTML Entity 的編碼,看起來很不美觀。舉例來說,爬回來的標題如果含有 HTML Entity 會是這個樣子: 1PURUS空氣清淨器(鴻海集團創星出品&# ...
繼續閱讀