- ランプの中身(Ruby on Railsのシステム開発)
- ランプの中身(Ruby on Railsのシステム開発)では、株式会社ケイビーエムジェイのRuby on Railsエンジニアが蓄積したノウハウを公開しています。Ruby on Railに関する技術解説や実践的なノウハウなど、開発現場の技術に則したコンテンツを随時追加していきます。 初心者の方でもわかりやすい技術解説を心がけています。リクエスト、ご質問も受け付けいますので、お気軽にコメントを記述して下さい。
< Rubyでどう書く?:RubyでPDF履... | メイン | Rubyでどう書く?:重複したRSSをま... >
-
- 2008.06.03
Rubyでどう書く?:Rubyで特定URLの画像パス一覧を表示する
KBMJがZDnetで連載している記事を紹介します。コメントなどありましたらそちらでお願いします。
Rubyでどう書く?:Rubyで特定URLの画像パス一覧を表示する 牧野裕之(KBMJ)
第3回目のテーマはRubyである特定のURL上にある画像パス一覧を表示する方法について解説したいと思います。
問題
あるWebサイトをブックマークする際に、そのURLで表示されている画像の一覧から1つの画像を選択した上でブックマークしたいという要望を受け取ったとします。
そこで、画像選択用のサムネイル表示のために、URL上に表示されている画像URLの一覧を配列として提供したいのですが、どのようなメソッドで提供すべきでしょうか?
ここでは、ごく簡単ではありますが正規表現を使って画像URL一覧の取得を行ってみます。
仕様
・画像ファイルは「jpg, jpeg, gif, bmp, png」を取得する・URIスキームが「http」の場合のみ画像を取得する
回答例
require 'open-uri'
require 'resolv-replace'
require 'timeout'
class ImageUrl
# 特定のURL上の画像パス一覧を取得する
def self.get_image_urls(url)
begin
timeout(1) {
begin
uri = URI(url)
if uri.scheme == "http" #httpsでは画像を取ってこない。
tmp_images = uri.read.scan(/img.+src=[\"|\']?([\-_\.\!\~\*\'\(\)a-zA-Z0-9\;\/\?\:@&=\$\,\%\#]+\.(jpg|jpeg|png|gif|bmp))/i)
images = []
tmp_images.each { |img| images << URI.join(url, img[0]) }
images.uniq
end
rescue => exception
case exception
when OpenURI::HTTPError # 404エラー
puts "ページが見つかりません。"
when URI::InvalidURIError # 入力エラー
puts "URLが入力されていません。"
# 他にもエラークラス別に処理を加えるなら以下のように追加
# when エラークラス名
# エラー時の処理
else # その他のエラー
puts exception.to_s + "(#{exception.class})"
end
end
}
rescue TimeoutError
# Timeout時の処理
puts "読み込みに時間がかかりすぎたため、処理を終了しました。"
end
end
end
image_urls = ImageUrl.get_image_urls(ARGV[0])
puts image_urls
試しにYahoo!JAPANから画像URL一覧を取得してみましょう。
ruby image_url.rb "http://yahoo.co.jp/"
本記事を執筆時点では、実行結果は以下のようになります。
http://k.yimg.jp/images/clear.gif
http://k.yimg.jp/images/top/sp/cgrade/logo.gif
http://k.yimg.jp/images/top/searchbox/s_p.gif
http://k.yimg.jp/images/new.gif
http://k.yimg.jp/images/top/calender.gif
http://k.yimg.jp/images/top/sp/cgrade/icon_point.gif
http://k.yimg.jp/images/top/sp/cgrade/icon_login.gif
http://k.yimg.jp/images/premium/top2/cam_searchpoint_50x50_01.gif
http://k.yimg.jp/images/top/sp/qr.gif
http://k.yimg.jp/images/top/sp/cgrade/dot.gif
http://k.yimg.jp/images/mlb/y_top/matsuzaka_02.jpg
解説
本サンプルプログラムでは、以下の順序で処理を実行しています。
1.URL読み込み
ruby1.8.2からは、URI.parse("http://...")をURI("http://...")と書けるようになっているため、後者の書き方に合わせました。
2.URIスキーム判定
URIスキームがhttpの場合のみ画像を抽出したいので、判定文を加えました。open-uriはSSLで自己証明証を使用しているURLにはアクセスできないため、残念ながらhttpsは該当URIスキームからは外しました。
3.読み込んだソースから正規表現で画像URI抽出
正規表現により正しい画像URLのみを抽出します。
4.重複削除し、値を返す
URLによっては同じ画像を何度も呼んでいる場合があるので、Array#uniqで画像パスの重複したものを削除した後に、値を返します。
また、本プログラム作成時に以下の二点に気を付けました。
1.正規表現にオプション「i」をつける
読み込むソースによっては、タグ・属性・拡張子が大文字で記述されている可能性があるので、大文字小文字を無視するオプションが必要になります。
2.エラー(URL未入力、404、タイムアウト)への対処
例として、URLの入力が無かった場合、404レスポンスが返ってきた場合、タイムアウトの場合の三通りについて、個別の対応ができるように記述しました。ここでは、TimeoutErrorはStandardErrorのサブクラスではないため、rescueの際にはクラス名を明記しておく必要があることに注意してください。
個人的な感想ですが、以下の点について工夫を加えれば本プログラムが改善できそうだと思いました。
1.画像URL取得に用いる正規表現
よりスマートな正規表現に書き換えれば、理解しやすく変更も加えやすくなると思います(正直なところ、あまりきれいな正規表現では無いと思っています。申し訳ありません)。
2.CSS(スタイルシート)に記述されている画像URLの取得
本サンプルプログラムでは、CSSに記述されている画像URLの取得までは網羅していません。
3.エラー処理
本プログラムではエラーの種類による分岐までに留めていて、実際の処理に関しては記述しませんでした。要件によって、処理を書き加えるとよいでしょう。
4.httpsへの対応
httpsのページであっても画像が取得できるように変えたほうが、本プログラムをより多くのページで利用できるでしょう。net/httpsを用いれば実現可能なようです。
最後に――
簡単な問題・例文ではありましたが、いかがでしたでしょうか。
本記事では、あるWebサイト上で用いられている画像のURL一覧を取得するという題目でご説明させていただきました。拙作ではありますが、少しでも皆さんのRubyへの理解の助けになれば幸いです。
もっと良い書き方・方法があれば、コメントやbuilderブログなどで教えていただきたいと思います。
トラックバック URL
この記事にコメントする
TOPICS
2008/08/14
「ZD Net Builder」の連載記事です。第七回は「Rubyでどう書く?:RubyCocoa+Core Animationでお手軽アニメーション」が掲載されました。
2008/08/06
「ZD Net Builder」の連載記事です。第六回は「Rubyでどう書く?特別編:Matzからのお題」が掲載されました。
2008/07/29
「アットマーク・アイティ」にケータイWebアプリ開発、9つの注意点が掲載されました。
2008/07/11
「ZD Net Builder」の連載記事です。第五回は「Rubyでどう書く?:RubyでWord文書を作成する」が掲載されました。
gotoの最新記事一覧
カテゴリ
全体のRoR最新ブログ一覧
- Rubyの例外処理
- Rubyでどう書く?:RubyCocoa+Core Animationでお手軽アニメーション
- Rubyでどう書く?特別編:Matzからのお題
- ntpをインストールする
- Rak(grepの検索結果を見やすくする方法)
- ruby on railsのActionControllerにモジュールでbefore_filterを実装する方法
- postfixのaliasでメールを転送してみよう。
- カーネルの再構築
- splitで文字列を分割してみよう。
- ウォームスタンバイの復旧手順
- nfkで文字コードを変換してみよう。
- RDBMSでトランザクション処理をしてみよう。
- apacheでhttpsからhttpsへのリダイレクト方法
- SSL更新時のエラー 改行コードの注意点 for mac
- bondingでNICを冗長化しよう。
- Net/HTTPで圧縮ファイルをダウンロードしよう。
- PostgreSQL8.3でウォームスタンバイの設定
- capistranoでmongrel,apache,rsync
- Cybozuのスケジュールをmobileme経由でiPhone 3Gに取り込む
- 今週のRuby on Rails最新情報
- Rubyでどう書く?:RubyでWord文書を作成する
- iPhoneを確保しました
- Edge Railsの最新情報
- Rubyのセキュリティ脆弱性
- mysqlでレコードの中身を一括置換する方法
- 同じappでDBを使い分ける
- Rubyでどう書く?:重複したRSSをまとめる
- TABLEに直接データを入れる便利な方法
- 社内SNSをiPhoneで快適に見るためのCSSを書いてみた
- phpmyadminをセキュアにアクセスする方法
- Rubyプログラムの組み方から、Exeファイルの作成まで
- Ruby、Railsインストール for MacOSX
- will_paginageを使ってみた
- dmgファイルの作り方
- PHP携帯電話の機種情報取得
- Rubyでどう書く?:Rubyで特定URLの画像パス一覧を表示する
- リファラでアクセス制限をしてみた。
- 奇妙な演算子
- RJSを用いて、日付プルダウンメニューを書き換える (2
- railsの実行モードの設定 RAILS_ENV
- postgresでのユーザ権限付与(psql, grant)
- ドロップダウンに簡単にオートコンプリート機能を追加する方法
- Vimの自動補完
- IE6 以前で float に指定した margin が 2 倍になる現象を解消する
- サーバ監視ソフトウェア「ganglia」を使ってみる
- 監視ツールcactiについて
- Rubyでどう書く?:RubyでPDF履歴書を作成する
- グラフを作ってみるか!?
- clearfixでfloat解除
- SELinux無効にしてみる
- Rubyのソースコードから HTML Helpを生成してみよう!
- IEでダイジェスト認証をかけるとエラーになった。
- muninのインストール 〜監視ツールって〜
- Rubyでどう書く?:連続した数列を範囲形式にまとめたい
- RJSを用いて、日付プルダウンメニューを書き換える
- Passenger (mod_rails for apache)での色んな設定値について調べてみた
- docomo の罠
- ローカルで動画変換をする方法
- MacOSにpostgreSQL 8.3をインストール
- Postgres8_3⇔8_1の性能比較してみました
- rake db:migrate すると undefined method `last' for {}:Hash と出る
- ケータイWebサイトに携わっている方へ
- MySQL最大バッファサイズの設定
- railsのand/orを使った機能
- Railsライクなフレームワーク「CakePHP」②
- エラー表示で意図しない改行を解消する−fieldWithErrors、ActionView::Base、field_error_proc
- [mysqlのベンチマーク]MyBenchの設定
- Rubyのコマンドライン引数と環境変数について(初心者向け)
- Rubyを使ってPaSoRi経由でSuicaの乗車履歴を取得し、GoogleMapsやGoogleEarthで表示する
- 簡単&便利 Capistranoのススメ (導入編)
- Rails的コメントアウト
- 使えるvalidate一覧
- せっかくなので、Thin を使って実践
- Xenを用いてCentOS上に仮想CentOSを2つインストールする
- aptanaでrailsをデバッグ実行する
- empty?とblank?の違いって?
- ローカルでコマンドを打つとアスタリスクで囲まれたエラーが出る
- rubyの便利ツールirbをカスタマイズしてみた
- 実行モード "environment"設定の基本
- JRubyを触ってみた
- mongrelとの戦い〜503エラー?mongrelが死んだってことさ…
- sshでrootログインの禁止
- database.ymlの設定方法
- Railsライクなフレームワーク「CakePHP」①
- Rails導入でRuby標準クラスへ追加される関数達(String編)
- Rubyのマニュアルを手軽に参照する方法
- railsで画像などファイルをアップロードする方法
- 遠隔地のチョロQを操縦する方法 with JavaScript, AJAX, Rails, Gainer, Webカメラ, and USTREAM.TV
- Ruby on Railsで作られたradMineのカスタマイズ1 ~インストール編~
- MacBook AirのレビューとLet's noteとの比較
- Rails プラグイン : CSS Graphsの使い方(そしてちょっとだけ改造)
- Railsの開発でscreenを使う理由
- ActiveRecordのconditionsを綺麗に書くTips2つ
- [Rails 2.0]起動時のファイルの読み込みの順番がわかった!
- RailsのActionMailer(Tmail)でドットの連続などのRFC違反している携帯メールアドレスに対応する
- スパムを消して消して、もう消しまくって こうなりました。
- Ruby on Railsでacts_as_paranoidを使い倒す
- fastladderをrailroadで図を作ってみる。
- [書評] 他言語開発経験者でも、初心者でも、本屋で「チラ見」して確認してみよう
- ヘルパーメソッド
- Ruby標準csv遅い
- Linux2.6系の脆弱性でroot権限奪ってみた
- railsで開発したダイエットサイトとそのソースコード
- fastladderを試してみました ~rails2.0~
- HeartBeatの設定
- Railsの手動インストール
- Railsで「Lost connection to MySQL server during query」に遭遇した場合の対策
- RadiantCMSのインストール(2)
- Linuxとかのbashで使えるショートカットキーをまとめた一覧
- 長い文字列をカットして表示するプログラム
- SLこまんどの設定
- Rails プラグイン : Rails Widgets >Tabnavの使い方
- Scaffoldはどこからくるの? 後編
- ローカルメールサーバーでRailsでのメール受信のテストを便利に
- HTMLエスケープ
- aptanaのインストールと使い方について
- railroadを用いたER図作成
- RailsでAmazon APIを利用する
- ちょっとしたスペルミスなどで、時間を無駄にした経験があるなら ( カラー表示で編集しやすく )
- ちょー入門、Webサーバ構築で知ってて損をしない用語(2)
- Ruby on Rails ってなになに?
- 最近!流行りの、「Ruby」 知ってますか?
- RubyGems って単語よく出てきますよね?
- CentOS5とaptanaを使ったWindows開発環境 1
- gemコマンドの紹介
- ちょー入門、Webサーバ構築で知ってて損をしない用語(1)
- RadiantCMSのインストール(1)
- RubyでActiveRecordを使わないでDBに接続する方法
- Railsのキャッシュ機能を用いて動的ページを静的ページにする方法を紹介
- Rails 2.0のセキュリティ面の変更点
- DRBDのインストール
- Rails プラグイン : ColumnCommentsの使い方
- Scaffoldはどこからくるの? 前編
- RMagickの使い方
- Ruby on Rails インストール for Windows
プロフィール
- goto
-
23 歳
- 毎週KBMJでは、"ZDnet"にRubyの記事を連載しています。
ここでは、その記事を紹介します。




