404 Blog Not Found : perl - HTML::Tidy::LibXML - LibXML鐃緒申HTML鐃緒申Tidy鐃緒申鐃緒申

HTML::Tidy::LibXML 鐃緒申 Release 鐃緒申鐃緒申鐃塾でわ申鐃塾らせ鐃緒申鐃殉わ申鐃緒申

鐃緒申鐃獣わ申鐃緒申鐃熟￥申鐃緒申鐃緒申鐃初。

鐃緒申鐃緒申鐃叔使っわ申 $parser->parse_html_file()鐃緒申鐃緒申鐃緒申鐃�XML文鐃緒申鐃術わ申 $parser->parse_file() 鐃緒申両鐃潤ソ鐃獣ドでわ申鐃緒申鐃緒申鐃遵記鐃緒申鐃縮わ申(名鐃緒申鐃塾逸申鐃楯わ申反鐃緒申鐃緒申)鐃春ワ申鐃緒申鐃緒申名鐃緒申鐃緒申鐃叔なわ申URL鐃緒申鐃熟わ申鐃緒申鐃夙わ申鐃叔緒申任鐃緒申鐃緒申覆里鐃�LWP鐃盾ジ鐃遵ー鐃緒申鐃夙わ申覆鐃緒申討癲�XML::LibXML鐃緒申鐃緒申鐃叔ネットワー鐃緒申鐃緒申鐃�XML/HTML鐃春ワ申鐃緒申鐃緒申鐃緒申鐃緒申鐃緒申鐃銃駕申鐃熟わ申鐃暑こ鐃夙わ申鐃叔わ申鐃銃わ申鐃殉わ申鐃殉わ申鐃緒申鐃緒申

鐃夙わ申鐃緒申鐃緒申鐃緒申鐃緒申鐃塾居申能鐃緒申鐃順き鐃緒申鐃緒申鐃緒申鬚�鐃緒申鐃緒申討鐃緒申泙鐃緒申鐃�

鐃淑駕申鐃緒申鐃緒申鐃緒申鐃緒申鐃緒申

鐃殉わ申鐃緒申命的鐃淑のわ申鐃緒申XML::LibXML鐃緒申直鐃緒申URL鐃緒申fetch鐃緒申鐃緒申鐃緒申隋�Content-Type:鐃舜ッワ申鐃緒申鐃薯しわ申鐃夙わ申鐃銃わ申鐃緒申襪鰹申函鐃緒申鐃緒申鐃緒申鐃�< meta http-equiv="Content-Type" content="text/html; charset=whatever">鐃熟ワ申鐃緒申鐃獣ワ申鐃緒申鐃銃わ申鐃緒申鐃緒申磴�申鐃�
鐃緒申鐃緒申鐃緒申鐃緒申覆里鐃緒申鐃�parse_html_file鐃緒申鐃宿わ申鐃緒申鐃緒申鐃�XML鐃緒申鐃緒申函鐃�<br clear="">鐃夙わ申鐃緒申鐃緒申鐃緒申任魯屮薀�申鐃緒申鐃緒申録鐃緒申鐃緒申覆鐃緒申鐃�

鐃緒申鐃緒申任鐃�XML::LibXML鐃熟結構鐃緒申速鐃淑ので￥申鐃緒申鐃緒申鐃緒申鐃曙たDOM鐃緒申鐃緒申鐃緒申鐃獣と種申直鐃緒申鐃緒申鐃緒申鐃�HTML::Tidy鐃緒申鐃緒申鐃緒申砲覆鐃塾ではなわ申鐃緒申....

鐃夙考わ申鐃銃削申辰鐃緒申里鐃緒申鐃緒申鐃緒申離皀醐申紂種申鐃夙わ申鐃緒申鐃緒け鐃叔わ申鐃緒申鐃淑駕申鐃緒申POD鐃緒申鐃夙器申茵�

NAME
    HTML::Tidy::libXML - Tidy HTML via XML::LibXML

VERSION
    $Id: libXML.pm,v 0.2 2009/02/21 11:47:58 dankogai Exp dankogai $

SYNOPSIS
      use HTML::Tidy::libXML;
      my $tidy = HTML::Tidy::libXML->new();
      my $xml   = $tidy->clean($html, $encoding);    # clean enough as xml
      my $xhtml = $tidy->clean($html, $encoding, 1); # clean enough for browsers

EXPORT
    none.

Functions
  new
    Creates an object.

      my $tidy = HTML::Tidy::libXML->new();

  html2dom
      my $dom = $tidy->html2dom($string, $encoding);

    This is analogus to

      my $lx = XML::LibXML->new;
      $lx->recover_silently(1);
      my $dom = $lx->parse_html_string($string);

    Except one major difference. HTML::Tidy::LibXML does not trust "<meta
    http-equiv="content-type" content="text/html; charset="foo">" while
    XML::LibXML tries to use one. Consider this;

      my $dom = $lx->parse_html_string('http://example.com');

    This kinda works since XML::LibXML is capable of fetching document
    directly. But XML::LibXML does not honor HTTP header. Here is the better
    practice.

      require LWP::UserAgent;
      require HTTP::Response::Encoding;
      my $uri = shift || die;
      my $res = LWP::UserAgent->new->get($uri);
      die $res->status_line unless $res->is_success;
      my $dom = $tidy->html2dom($res->content, $res->encoding);

  dom2xml
      my $tidy->com2xml($dom, $level);

    Tidies $dom which is XML::LibXML::Document object and returns an XML
    string. If the level is ommitted, the resulting XML is good enough as
    XML -- valid but not very browser compliant (like "<br clear="">", "<a
    name="here" />"). Set level to 1 or above for tidier, browser-compliant
    xhtml.

  html2xml
      my $xml = $tidy->html2xml($html, $encoding, $level)

    Which is the shorthand for:

      my $dom = $tidy->html2dom($html, $encoding);
      my $xml = $tidy->dom2xml($dom, $level);

  clean
    An alias to "html2xml".

BENCHMARK
    This is what happened trying to tidy <http://www.perl.com/> on my
    PowerBook Pro. See t/bench.pl for details.

                        Rate            H::T H::T::LibXML(1) H::T::LibXML(0)
      H::T            96.2/s              --            -25%            -49%
      H::T::LibXML(1)  128/s             33%              --            -31%
      H::T::LibXML(0)  187/s             95%             46%              --

AUTHOR
    Dan Kogai, "<dankogai at dan.co.jp>"

鐃渋際わ申DOM鐃緒申Tidy鐃緒申鐃緒申鐃緒申分鐃熟￥申鐃緒申鐃緒申粉鐃緒申鐃緒申任鐃緒申鐃緒申鐃緒申鐃緒申鐃�Level0鐃緒申鐃夙わ申鐃緒申鐃緒申分鐃緒申鐃出わ申鐃殉わ申鐃緒申

/lang/perl/HTML-Tidy-libXML/trunk/lib/HTML/Tidy/libXML.pm ? CodeRepos::Share ? Trac

sub _tidy_dom {
    my $dom = shift;
    # remove empty attributes (like <br clear="">)
    for my $node ( $dom->findnodes('//*[attribute::*=""]') ) {
        for my $attr ( $node->attributes ) {
            next if $attr->getValue;
            $node->removeAttribute( $attr->getName );
        }
    }
    # handle <script>
    for my $script ( $dom->findnodes('//script') ) {
        $script->getAttribute('type')
          or $script->setAttribute( type => "text/javascript" );
        if ( $script->hasChildNodes ) {
            $script->insertBefore( $dom->createTextNode("//"),
                $script->firstChild );
            $script->lastChild->appendData("\n//");
        }
        else { # <script src="..."/> => <script src=""></script>
            $script->appendChild( $dom->createTextNode("") );
        }
    }
    # handle <style>
    for my $style ( $dom->findnodes('//style') ) {
        $style->getAttribute('type')
          or $style->setAttribute( type => "text/css" );
        if ( $style->hasChildNodes ) {    # this one is trickier
            $style->insertBefore( $dom->createTextNode("/*"),
                $style->firstChild );
            $style->lastChild->insertData( 0, "*/" );
            $style->lastChild->appendData("/*");
            $style->appendChild( $dom->createTextNode("*/") );
        }else{
	    $style->appendChild( $dom->createTextNode("") );
	}
    }
    # fix <img>
    for my $img ( $dom->findnodes('//img') ) {
        next if $img->getAttribute('type');
	my $alt = $img->getAttribute('src');
	$alt =~ s{.*/}{}o; # basename only
	$img->setAttribute( alt => $alt || 'img' );
    }
    # <a name="foo"/> => <a name="foo"></a>
    for my $a ( $dom->findnodes('//a[@name!=""]') ) {
        my $empty = $dom->createTextNode("");
        $a->appendChild($empty);
    }
}

CodeRepos鐃塾ワ申鐃淳ッワ申鐃緒申鐃銃位￥申鐃緒申鐃緒申鐃緒申分鐃緒申添鐃緒し鐃銃わ申蕕�申鐃夙わ申鐃所が鐃緒申鐃緒申鐃叔わ申鐃緒申

Enjoy!

Dan the (X?HTML|Perl) Monger

名鐃緒申
	鐃緒申鐃緒申魑⑱鐃� 評鐃緒申鐃緒申鐃緒申

404 Blog Not Found

perl - HTML::Tidy::LibXML - LibXML鐃緒申HTML鐃緒申Tidy鐃緒申鐃緒申

鐃緒申Lightweight Languages鐃竣ワ申鐃銃ワ申鐃緒申虜膿鐃緒申鐃緒申鐃�

鐃緒申鐃緒申鐃夙わ申鐃緒申