Web Spidering Dengan Gem Spidr
• Kunto Aji - Last modified atSpidr adalah library Ruby web spider yang bersifat serba guna yang didesain agar mudah digunakan dan cepat pada saat pemrosesan. Spidr dapat melakukan spider / crawling pada tag a, iframe, dan frame di sebuah atau banyak domain sekaligus dimana menggunakan Nokogiri untuk melakukan parsing HTML pada halaman web yang dikunjungi.
Fitur Spidr favorit saya adalah untuk cek url-url yang not found atau tidak dapat ditemukan seperti berikut.
url_map = Hash.new { |hash,key| hash[key] = [] }
spider = Spidr.site('http://intranet.com/') do |spider|
spider.every_link do |origin,dest|
url_map[dest] << origin
end
end
spider.failures.each do |url|
puts "Broken link #{url} found in:"
url_map[url].each { |page| puts " #{page}" }
end
Recent Posts
C# DbContext ServiceLifeTime
my note about C Sharp ServiceLifeTime
PostgreSQL Index Usage Monitoring
Having too many unused or underused indexes on a table can slow down write and update operations in your PostgreSQL database, making it crucial to regularly identify and manage them for optimal performance.
KAK Labs Newsletter #6 - Staying Safe From Pegasus Spyware
Newsletter #6 - Pegasus, Ruby, PostgreSQL and networkQuality tool
Material Design - Paragraph Spacing
According to Google's Material Design, keep paragraph spacing in the range between .75x and 1.25x of the type size.
Amazon SDK for C# - S3 File Download Methods
Comparison between `TransferUtility.DownloadAsync`, `DownloadSingleFileAsync`, and `GetObjectAsync`.