#191 Mechanize

Dec 07, 2009 | 10 minutes | Tools

Mechanize extends the power of Nokogiri allowing you to interact with multiple pages on the site: click links, submit forms, etc.

Click to Play Video ▶

Download:
source codeProject Files in Zip (93.6 KB)
mp4Full Size H.264 Video (19.3 MB)
m4vSmaller H.264 Video (12 MB)
webmFull Size VP8 Video (29.8 MB)
ogvFull Size Theora Video (29.2 MB)

上一集我们使用Nokogiri抓取单个HTML页面的内容. 如果有更复杂的抓取需求，像需要先登陆才能抓取数据的，这种简单的方法就行不通了，所以这次我们使用Mechanize来交互网站，抓取数据.

我们将要使用的网站是Ta-da list. 它是37 Signals的一个to_do list应用. 我们已经注册了一个帐号，并创建了一个清单列表. 如果想再次查看这个列表，就必须先登陆这个站点，然后点击页面上的清单名称.

现在需要将清单内容自动导入到rails应用的商品列表. 因此我们需要交互这个Ta-da List，得到这些商品，然后就可以用上一集写的脚本来来获取每个商品价格.

由于清单页面是私人的，我们不能访问列它的URL. 使用curl 请求页面，会看到下面的内容.

``` terminal $ curl http://asciicasts.tadalist.com/lists/1463636 You are being redirected.

           
  <p>&#x6240;&#x4EE5;&#x6211;&#x4EEC;&#x4E0D;&#x80FD;&#x76F4;&#x63A5;&#x8BBF;&#x95EE;&#x6E05;&#x5355;&#x9875;&#x9762;. &#x8BBF;&#x95EE;&#x524D;&#x5FC5;&#x987B;&#x8981;&#x5148;&#x767B;&#x9646;&#x5E94;&#x7528;. &#x8FD9;&#x65F6;&#x5019;&#x5C31;&#x9700;&#x8981;&#x7528;&#x5230;Mechanize&#x4E86;. Mechanize&#x4F7F;&#x7528;Nokogiri&#xFF0C;&#x5E76;&#x6269;&#x5C55;&#x4E86;&#x4E00;&#x4E9B;&#x5176;&#x4ED6;&#x7684;&#x529F;&#x80FD;&#x6765;&#x4EA4;&#x4E92;&#x7F51;&#x7AD9;&#xFF0C;&#x53EF;&#x4EE5;&#x50CF;&#x70B9;&#x51FB;&#x94FE;&#x63A5;&#xFF0C;&#x63D0;&#x4EA4;&#x8868;&#x5355;&#x4E00;&#x6837;&#x7528;&#x6765;&#x5904;&#x7406;&#x4E00;&#x4E9B;&#x4EFB;&#x52A1;.</p>

  <p>Mechanize&#x8DDF;&#x4E00;&#x822C;&#x7684;gem&#x4E00;&#x6837;&#x5B89;&#x88C5;&#xFF1A;</p>

  ``` terminal
sudo gem install mechanize

安装完成后，可以打开一个Rails console看看它是怎么工作的. 首先，需要引用Mechanize.

``` terminal >> require 'mechanize' => []

           
  <p>&#x63A5;&#x4E0B;&#x6765;&#xFF0C;&#x9700;&#x8981;&#x5B9E;&#x4F8B;&#x5316;&#x4E00;&#x4E2A;Mechanize agent:</p>

  ``` terminal
> agent = WWW::Mechanize.new
  => #<WWW::Mechanize:0x101c74780 @follow_meta_refresh=false, @proxy_addr=nil, @digest=nil, @watch_for_set=nil, @html_parser=Nokogiri::HTML, @pre_connect_hook=#<WWW::Mechanize::Chain::PreConnectHook:0x101c74190 @hooks=[]>, @open_timeout=nil, @log=nil, @keep_alive_time=300, @proxy_pass=nil, @redirect_ok=true, @post_connect_hook=#<WWW::Mechanize::Chain::PostConnectHook:0x101c74168 @hooks=[]>, @conditional_requests=true, @password=nil, @cert=nil, @user_agent="WWW-Mechanize/0.9.3 (http://rubyforge.org/projects/mechanize/)", @pluggable_parser=#<WWW::Mechanize::PluggableParser:0x101c74550 @default=WWW::Mechanize::File, @parsers={"application/xhtml+xml"=>WWW::Mechanize::Page, "text/html"=>WWW::Mechanize::Page, "application/vnd.wap.xhtml+xml"=>WWW::Mechanize::Page}>, @verify_callback=nil, @connection_cache={}, @proxy_user=nil, @pass=nil, @ca_file=nil, @request_headers={}, @user=nil, @cookie_jar=#<WWW::Mechanize::CookieJar:0x101c746b8 @jar={}>, @scheme_handlers={"https"=>#<Proc:0x00000001020c12c0@/Library/Ruby/Gems/1.8/gems/mechanize-0.9.3/lib/www/mechanize.rb:152>, "file"=>#<Proc:0x00000001020c12c0@/Library/Ruby/Gems/1.8/gems/mechanize-0.9.3/lib/www/mechanize.rb:152>, "http"=>#<Proc:0x00000001020c12c0@/Library/Ruby/Gems/1.8/gems/mechanize-0.9.3/lib/www/mechanize.rb:152>, "relative"=>#<Proc:0x00000001020c12c0@/Library/Ruby/Gems/1.8/gems/mechanize-0.9.3/lib/www/mechanize.rb:152>}, @redirection_limit=20, @proxy_port=nil, @history_added=nil, @auth_hash={}, @read_timeout=nil, @keep_alive=true, @history=[], @key=nil>

使用agent我们就可以登陆Ta-da list . 要解决这个，我们需要获取登陆页面，输入密码然后提交表单.

通过调用agent.get，并传入页面的URL, 发送一个GET请求来获取页面内容

``` terminal >> agent.get("http://asciicasts.tadalist.com/session/new") => #} {meta} {title "Ta-da List"} {iframes} {frames} {links #} {forms # #} {radiobuttons} {checkboxes #} {file_uploads} {buttons}>}>

           
        
  <p>&#x8FD9;&#x91CC;&#x8FD4;&#x56DE;&#x7684;&#x662F;&#x4E00;&#x4E2A;<code>Mechanize::Page</code>&#x5BF9;&#x8C61;&#xFF0C;&#x5B83;&#x5305;&#x542B;&#x8FD9;&#x4E2A;&#x9875;&#x9762;&#x91CC;&#x6240;&#x6709;&#x5143;&#x7D20;&#x5185;&#x5BB9;. &#x5BF9;&#x4E8E;&#x6211;&#x4EEC;&#x8FD9;&#x91CC;&#x7684;&#x9875;&#x9762;&#xFF0C;&#x9700;&#x8981;&#x7684;&#x662F;&#x767B;&#x9646;&#x8868;&#x5355;.</p>

  <p>&#x4EFB;&#x4F55;&#x65F6;&#x5019;&#x8C03;&#x7528;<code>agent.page</code>&#x90FD;&#x4F1A;&#x8FD4;&#x56DE;&#x5F53;&#x524D;page&#x5BF9;&#x8C61;&#xFF0C;&#x53EF;&#x4EE5;&#x901A;&#x8FC7;&#x8C03;&#x7528;&#x9875;&#x9762;&#x5C5E;&#x6027;&#x6765;&#x8BBF;&#x95EE;&#x9875;&#x9762;&#x4E0A;&#x7684;&#x4E0D;&#x540C;&#x5143;&#x7D20;. &#x4F8B;&#x5982;&#xFF0C;&#x8981;&#x5F97;&#x5230;&#x9875;&#x9762;&#x4E0A;&#x7684;&#x8868;&#x5355;&#x5143;&#x7D20;&#xFF0C;&#x53EF;&#x4EE5;&#x8C03;&#x7528;<code>agent.page.forms</code>&#xFF0C;&#x5B83;&#x8FD4;&#x56DE;&#x7684;&#x662F;&#x4E00;&#x4E2A;<code>Mechanize::Form</code>&#x5BF9;&#x8C61;&#x6570;&#x7EC4;. &#x7531;&#x4E8E;&#x8FD9;&#x4E2A;&#x9875;&#x9762;&#x53EA;&#x6709;&#x4E00;&#x4E2A;&#x8868;&#x5355;&#xFF0C;&#x6240;&#x4EE5;&#x8C03;&#x7528;<code>agent.page.forms.first</code>&#x5C31;&#x53EF;&#x4EE5;&#x7D22;&#x5F15;&#x5230;&#x6211;&#x4EEC;&#x9700;&#x8981;&#x7684;&#x767B;&#x9646;&#x8868;&#x5355;. &#x540E;&#x9762;&#x8981;&#x7528;&#x5230;&#x8FD9;&#x4E2A;&#x8868;&#x5355;&#xFF0C;&#x6240;&#x4EE5;&#x5148;&#x5C06;&#x8BE5;&#x8868;&#x5355;&#x6807;&#x8BB0;&#x4E3A;&#x4E00;&#x4E2A;&#x53D8;&#x91CF;.</p>

  ``` terminal
>
    > form = agent.page.forms.first
    => #<WWW::Mechanize::Form
     {name nil}
     {method "POST"}
     {action "/session"}
     {fields
      #<WWW::Mechanize::Form::Field:0x1035f1708
       @name="username",
       @value="asciicasts">
      #<WWW::Mechanize::Form::Field:0x1035ef4a8 @name="password", @value="">}
     {radiobuttons}
     {checkboxes
      #<WWW::Mechanize::Form::CheckBox:0x1035eeb48
       @checked=false,
       @name="save_login",
       @value="1">}
     {file_uploads}
     {buttons}>

通过上面输出form的fields集合，我们发现用户名已经被填写，密码却为空. 在这里可以通过为Ruby对象设置属性来完成表单的填写.下面是设置密码:

``` terminal form.password = "password"

           
        
  <p>&#x63D0;&#x4EA4;&#x8FD9;&#x4E2A;&#x8868;&#x5355;&#x662F;&#x76F8;&#x5F53;&#x7B80;&#x5355;, &#x552F;&#x4E00;&#x9700;&#x8981;&#x505A;&#x7684;&#x662F;&#x8C03;&#x7528;<code>form.submit</code>. &#x5B83;&#x5C06;&#x8FD4;&#x56DE;&#x53E6;&#x5916;&#x4E00;&#x4E2A;<code>Mechanize::Page</code>&#x5BF9;&#x8C61;.</p>

  ``` terminal
>> form.submit
  => #<WWW::Mechanize::Page
   {url #<URI::HTTP:0x10336ad68 URL:http://asciicasts.tadalist.com/lists>}
   {meta}
   {title "My Ta-da Lists"}
   {iframes}
   {frames}
   {links
    #<WWW::Mechanize::Page::Link "Highrise" "http://www.highrisehq.com">
    #<WWW::Mechanize::Page::Link "Try it free" "http://www.highrisehq.com">
    #<WWW::Mechanize::Page::Link
     "Tada-mark-bg"
     "http://asciicasts.tadalist.com/lists">
    #<WWW::Mechanize::Page::Link "Create a new list" "/lists/new">
    #<WWW::Mechanize::Page::Link "Wish List" "/lists/1463636">
    #<WWW::Mechanize::Page::Link
     "Rss"
     "http://asciicasts.tadalist.com/lists.rss?token=8ee4a563af677d3ebf3ceb618dac600a">
    #<WWW::Mechanize::Page::Link "Log out" "/session">
    #<WWW::Mechanize::Page::Link "change password" "/account/change_password">
    #<WWW::Mechanize::Page::Link "change email" "/account/change_email_address">
    #<WWW::Mechanize::Page::Link "cancel account" "/account/destroy">
    #<WWW::Mechanize::Page::Link "FAQs" "http://www.tadalist.com/help">
    #<WWW::Mechanize::Page::Link
     "Terms of Service"
     "http://www.tadalist.com/terms">
    #<WWW::Mechanize::Page::Link
     "Privacy Policy"
     "http://www.tadalist.com/privacy">
    #<WWW::Mechanize::Page::Link
     "other products from 37signals"
     "http://www.37signals.com">}
   {forms}>

上面就是这个页面的内容，显示了我们的清单，接下来需要做的就是点击链接去到商品列表页面. 下面是浏览器中的对应页面. 当使用Mechanize时，它可以帮助我们模拟浏览器以便你决定下一步执行什么脚本.

要获取清单列表，我们需要点击"Wish List"链接. 但是页面上有很多链接，怎样找到Mechanize要点击的链接呢? 可以通过agent.page.links获得页面的所有链接，然后进行迭代，循环每个链接的text属性，找到我们需要的.另外有一个更容易的办法就是通过 link_with:

``` terminal >> agent.page.link_with(:text => "Wish List") => #

          
        
  <p>&#x4F7F;&#x7528;<code>link_with</code>&#x65B9;&#x6CD5;&#x53EF;&#x4EE5;&#x8FD4;&#x56DE;&#x4E00;&#x4E2A;&#x5339;&#x914D;&#x6307;&#x5B9A;&#x6761;&#x4EF6;&#x7684;&#x94FE;&#x63A5;&#xFF0C;&#x8FD9;&#x6837;&#x5C31;&#x53EF;&#x4EE5;&#x83B7;&#x53D6;&#x5E26;&#x6709;&quot;Wish List&quot;&#x6587;&#x672C;&#x7684;&#x94FE;&#x63A5;. &#x8868;&#x5355;&#x4E5F;&#x6709;&#x7C7B;&#x4F3C;&#x7684;&#x65B9;&#x6CD5;<code>form_with</code>. &#x8FD8;&#x6709;&#x5339;&#x914D;&#x591A;&#x4E2A;&#x5BF9;&#x8C61;&#x7684;&#x65B9;&#x6CD5; &#xFF0C;<code>links_with</code> &#x548C;<code>forms_with</code>&#x662F;&#x7528;&#x6765;&#x5339;&#x914D;&#x6307;&#x5B9A;&#x6761;&#x4EF6;&#x7684;&#x591A;&#x4E2A;&#x94FE;&#x63A5;&#x6216;&#x591A;&#x4E2A;&#x8868;&#x5355;.</p>

  <p>&#x65E2;&#x7136;&#x5DF2;&#x7ECF;&#x627E;&#x5230;&#x4E86;&#x9700;&#x8981;&#x7684;&#x94FE;&#x63A5;&#xFF0C;&#x6211;&#x4EEC;&#x5C31;&#x53EF;&#x4EE5;&#x70B9;&#x51FB;&#x5B83;&#xFF0C;&#x5B83;&#x4F1A;&#x5B9A;&#x5411;&#x5230;&#x6E05;&#x5355;&#x5217;&#x8868;&#x9875;&#x9762;.</p>

  ``` terminal
agent.page.link_with(:text => "Wish List").click
    => #<WWW::Mechanize::Page
     {url
      #<URI::HTTP:0x103261138 URL:http://asciicasts.tadalist.com/lists/1463636>}

准备工作已经完成，我们已经找到了想要抓取内容的页面. 现在可以使用Nokogiri来提取内容了.但是首先还需要获得匹配列表项的CSS选择器跟上次一样，我们需要用SelectorGadget来获取对应的选择器.

点击清单的第一项，会选中第一个item，当点击下一个时，所有的清单项都被选中了，于是找到了需要的选择器.edit_item.

Using SelectorGadget to get the CSS selector for the list items.

使用Nokogiri,可以调用page对象的两个方法来提取页面元素.第一个是at，它返回匹配对应选择器的一个元素.

``` ruby agent.page.at(".edit_item")

          
  <p>&#x7B2C;&#x4E8C;&#x4E2A;&#x662F;<code>search</code>. &#x7C7B;&#x4F3C;&#x5730;&#xFF0C;&#x5B83;&#x8FD4;&#x56DE;&#x5339;&#x914D;&#x5230;&#x7684;&#x6240;&#x6709;&#x5143;&#x7D20;&#x7684;&#x6570;&#x7EC4;.</p>

  ``` ruby
agent.page.search(".edit_item")

在列表中有一些items，因此需要使用第二个方法. 使用上面的命令将返回一个Nokogiri::XML::Element对象数组,每一个元素代表清单中的一个列表项.我们可以通过控制输出来让结果具有可读性.

``` terminal >> agent.page.search(".edit_item").map(&:text).map(&:strip) => ["Settler's of Catan", "Go for Beginners book", "Nintendo DSi", "Chess Set", "Dark Knight on Blu Ray", "Modern Warfare 2 for Xbox", "Scrabble", "Dragon Age Strategy Guide", "Wario Land: Shake It!"]

          
        
  <p>&#x83B7;&#x53D6;&#x6BCF;&#x4E2A;&#x5143;&#x7D20;&#x7684;<code>text</code>&#x5C5E;&#x6027;&#xFF0C;&#x5E76;&#x8C03;&#x7528;strip&#x65B9;&#x6CD5;&#x6765;&#x53BB;&#x6389;&#x7A7A;&#x767D;&#x90E8;&#x5206;.&#x5C31;&#x53EF;&#x4EE5;&#x83B7;&#x5F97;&#x8FD9;&#x4E9B;&#x5217;&#x8868;&#x9879;&#x540D;&#x5B57;&#x7684;&#x6570;&#x7EC4;&#xFF0C;&#x8FD9;&#x521A;&#x597D;&#x662F;&#x6211;&#x4EEC;&#x9700;&#x8981;&#x7684;.</p>

  <h3>&#x96C6;&#x6210;Mechanize&#x5230;Rails&#x5E94;&#x7528;</h3>


  <p>&#x77E5;&#x9053;&#x4E86;&#x5982;&#x4F55;&#x4F7F;&#x7528;Mechanize&#xFF0C;&#x73B0;&#x5728;&#x5C31;&#x53EF;&#x4EE5;&#x5C06;&#x521A;&#x624D;&#x7684;&#x4EE3;&#x7801;&#x96C6;&#x6210;&#x5230;Rails&#x5E94;&#x7528;&#x91CC;. &#x6211;&#x4EEC;&#x5C06;&#x4F7F;&#x7528;&#x4E0A;&#x96C6;&#x4F7F;&#x7528;&#x8FC7;&#x7684;shop&#x5E94;&#x7528;.</p>

  <div class="imageWrapper">
    <img src="http://railscasts.com/static/episodes/asciicasts/E191I05.png" width="808" height="371" alt="Our application's product list."/>
  </div>

  <p>&#x8DDF;&#x6293;&#x53D6;&#x4EF7;&#x683C;&#x76F8;&#x53CD;&#xFF0C;&#x8FD9;&#x6B21;&#x6211;&#x4EEC;&#x9700;&#x8981;&#x4ECE;Ta-da list&#x5BFC;&#x5165;&#x6211;&#x4EEC;&#x7684;&#x65B0;&#x5546;&#x54C1;.&#x53EF;&#x4EE5;&#x5728;<code>/lib/tasks/product_prices.rake</code>&#x91CC;&#x521B;&#x5EFA;&#x4E00;&#x4E2A;rake&#x4EFB;&#x52A1;&#x6765;&#x5904;&#x7406;&#x8FD9;&#x4E2A;.&#x4F46;&#x662F;&#x6211;&#x4EEC;&#x8BE5;&#x600E;&#x4E48;&#x5199;&#x4EE3;&#x7801;&#x5462;&#xFF1F;&#x63A5;&#x4E0B;&#x6765;&#x4ECE;console&#x5F00;&#x59CB;&#xFF0C;&#x7136;&#x540E;&#x590D;&#x5236;&#x91CC;&#x9762;&#x7684;&#x4EE3;&#x7801;.</p>

  <p>&#x4F46;&#x662F;&#x4ECE;console&#x91CC;&#x9762;&#x590D;&#x5236;&#x4EE3;&#x7801;&#x662F;&#x6709;&#x4E9B;&#x56F0;&#x96BE;&#xFF0C;&#x56E0;&#x4E3A;&#x5B83;&#x662F;&#x6BCF;&#x4E00;&#x884C;&#x590D;&#x5408;&#x8F93;&#x51FA;&#x7684;. &#x53EF;&#x4EE5;&#x7528;&#x4E0B;&#x9762;&#x7684;&#x547D;&#x4EE4;&#x6765;&#x8FD4;&#x56DE;&#x6211;&#x4EEC;&#x4E4B;&#x524D;&#x7684;&#x6240;&#x6709;&#x8F93;&#x5165;.</p>

  ``` terminal
>> puts Readline::HISTORY.entries.split("exit").last[0..-2].join("\n")
    require 'mechanize'
    agent = WWW::Mechanize.new
    agent.get("http://asciicasts.tadalist.com/session/new")
    form = agent.page.forms.first
    form.password = "password"
    form.submit
    agent.page.link_with(:text => "Wish List").click
    agent.page.search(".edit_item").map(&:text).map(&:strip)
    => nil

上面已经列出了需要复制到rake里面的代码. 现在我们清理一下代码，然后去循环提取到的商品，为每一个创建一个Product.

``` terminal desc "Import wish list" task :import_list => :environment do require 'mechanize' agent = WWW::Mechanize.new agent.get("http://asciicasts.tadalist.com/session/new") form = agent.page.forms.first form.password = "password" form.submit agent.page.link_with(:text => "Wish List").click agent.page.search(".edit_item").each do |product| Product.create!(:name => product.text.strip) end end

          
  <p>&#x5F53;&#x7136;&#xFF0C;&#x53EF;&#x4EE5;&#x53BB;&#x6389;&#x7528;&#x6237;&#x540D;&#x548C;&#x5BC6;&#x7801;&#xFF0C;&#x901A;&#x8FC7;&#x63A7;&#x5236;&#x53C2;&#x6570;&#x4F20;&#x5165;&#x5B83;&#x4EEC;. &#x73B0;&#x5728;&#x6211;&#x4EEC;&#x9700;&#x8981;&#x5207;&#x6362;&#x7A97;&#x53E3;&#xFF0C;&#x770B;&#x770B;&#x6211;&#x4EEC;&#x7684;rake&#x4EFB;&#x52A1;&#x80FD;&#x4E0D;&#x80FD;&#x6B63;&#x5E38;&#x5DE5;&#x4F5C;.</p>

  ``` terminal
$ rake import_list
    (in /Users/eifion/rails/apps_for_asciicasts/ep191/shop)

如果运行脚步后，没有异常，就可以刷新products页面了.

The products from the list are now in our application.

脚步已经工作了: 现在已经为列表中的每一个商品创建了一个Product. 如果我们运行上集中的rake任务，我们就可以获得所有新商品的价格.

到目前为止，所有的工作都已经完成了. 我们已经通过Mechanize和Nokogiri来在页面间导航，填写表单进行页面交互，点击超链接获取我们想要的信息. 对于网站的数据抓取工作，这是一个非常不错的解决办法.