Spidr adalah library Ruby web spider yang bersifat serba guna yang didesain agar mudah digunakan dan cepat pada saat pemrosesan. Spidr dapat melakukan spider / crawling pada tag a, iframe, dan frame di sebuah atau banyak domain sekaligus dimana menggunakan Nokogiri untuk melakukan parsing HTML pada halaman web yang dikunjungi.

Fitur Spidr favorit saya adalah untuk cek url-url yang not found atau tidak dapat ditemukan seperti berikut.

url_map = Hash.new { |hash,key| hash[key] = [] }

spider = Spidr.site('http://intranet.com/') do |spider|
  spider.every_link do |origin,dest|
    url_map[dest] << origin
  end
end

spider.failures.each do |url|
  puts "Broken link #{url} found in:"

  url_map[url].each { |page| puts "  #{page}" }
end