エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
HTMLの中のコンテンツ部分だけ抽出したい、という欲望がムクムクと湧いてきたのでPerlの正規表現で書い... HTMLの中のコンテンツ部分だけ抽出したい、という欲望がムクムクと湧いてきたのでPerlの正規表現で書いてみました。これまでも、HTMLタグを取り除く処理は書いたことあるんですが、「欲張りでない量指定子」(Non-Greedy Matches)が理解できてなかったので、Javascriptの中身が残ってしまうといった失敗をしていました。『初めてのPerl』(リャマ本)7章~9章を読み直して、だいぶ理解できた気がする。 #!/usr/bin/env perl use strict; use warnings; use utf8; use feature qw/say/; use Encode qw/encode/; my $html; while(<DATA>){ chomp; $html .= $_; } # javascript部分を除去 $html =~ s#<script.*?>.*