カメニッキ

カメとインコと釣りの人です

リンクチェッカー Checkbotを使って、サイトのリンク切れをチェックする

checkbot(http://degraaff.org/checkbot/)というツールでWebサイト全体のリンク切れ(404)とかインターナルエラー(500)とかのチェックを一気に書けれます。
おまけにレポートもだしてくれます。すごいです。

http://degraaff.org/checkbot/からダウンロードする
Perlで書かれているらしく、多少前準備がいる

Perl 5
LWP 5.76
HTML::Parser 3.33
URI 1.10
Net::FTP 2.58
Mail::Send 1.03
Time::Duration
MIME-Base64
HTML-Parser
Digest-MD5
Compress-Zlib
Crypt::SSLeay

↑のがいるみたいです。
バージョンは時点での最新のものを。

CPANの環境設定して全部入れていきます。

# perl -MCPAN -e shell
cpan > install ↑のモジュール名を指定する

全部終わったらcheckbotのmakeを

# perl Makefile.PL
# make
# make install

③いよいよ実行

./checkbot --proxy http://xxxx.xxx.xxx --style ./checkbot.css --url http://sample.site/ --verbose --internal-only --ignore "\.js|\.jpg|\.jpeg|\.gif|\.css|\.ico"

オプション説明

■--proxy … プロキシ使っている場合ここで指定 名前解決とかうまくいかないときはIPで
■--style … レポートのCSSかな?デフォルトでくっついているcheckbot.cssを使ってます
■--url … チェックするサイトの一番上のURLを。
■--verbose … 実行中にログ吐くように(無くてもok)
■--internal-only … これを指定すると外部リンクのチェックをしない。外部へのリンクも確認したい場合は外す
■--ignore … ""内で指定したものをチェックしない。↑の例だと画像とかjsとかはチェックしてない

かなりいい加減ですので詳細はマニュアルをー