*1  ニュース記事の title 要素内容の変化

IRC の bot に、出された URL のタイトルを取得して NOTICE で出力する機能を持たせている。最近は title 要素に見出しが入っているので難なくそうした情報を得ることが出来るが、これは当初からこうだったわけでは無く、ここ数年の傾向である。

昔の新聞系ニュースサイトでは、個別記事の title でも
<title>asahi.com - 朝日新聞社のニュースサイト</title>
のようなものであり、記事の見出しを取得するには以下のようにして、 html の body から特定箇所を狙って文字列を抜き出す必要があった。
....
  if(/<meta name="TITLE" CONTENT="(.+?)">/im =~ page)
     title = $1.gsub(/<[^>]+?>/, '').gsub(/[\r\n]/,'').toeuc
  elsif(/be\.asahi\.com/ =~ @uri &&
        /<!-- FJZONE START NAME="MIDASHI" -->(.+)<!-- FJZONE END NAME="MIDASHI" -->/im =~ page)
     title = $1.gsub(/<br>/, ' ').gsub(/<[^>]+>/,'').
        gsub(/[\r\n]/,'') 
....
その見出しすら <h1> などの見出し要素ではなく、見ての通り、特定のコメントで囲まれて区別された部分になっていて、文字の大きさ変更や強調には <FONT> が多用されていた。さらに言えばそうしたルールすら、同じ新聞社のサイトでもカテゴリによって違うなんてことはざらだった。昔の、と言っても、この処理を書いたのは 2004年前半で、せいぜい 3年前の事だ。

今になって見てみれば、ニュースサイトに限らず個別記事の title 要素に個別の見出しタイトルが入るのは極普通の事になっている。まぁ今でも ZAKZAK のように<title>ZAKZAK</title> と言うスタイルを貫いているサイトもあるが、今ではむしろこちらが例外だろう。

こうした title の使われ方の変遷には幾つか原因があるのだろうが、「CMSツール (Blogツールを含む) の普及と機能改善」「SEO に対する認識」「ソーシャルブックマークによるタイトルの可視化」あたりが影響をあたえているんじゃなかろうかと思う。

CMS ツールによって「見出し」を1度入力すれば必要な場所に配置されるようになったし、Blog ではそうした「title == 見出し」が当然のこととして扱われた。RSS/Atom フィードと言う「見出し」が要となるサービスも知名度を得た。SEO 意識の向上によって「html 的に正しい文書構造」を意識して出力用テンプレートが作られるようになった。更にソーシャルブックマークは title にある情報をそのまま再利用するため、title の持つ重要度が再認識される切っ掛けになったのではあるまいか。

*2  セマンティックウェブの将来像

ともあれ html 的に正しい位置、構文としての意味が与えられた場所にリッチな情報が入るのが常識として扱われる事は、いわゆる「自律的なWebシステム」にとってもありがたいことだ。次は全ての HTML が、同時にそれに対応した標準化されたデータ形式を持つ事、例えば個別記事が個別記事のみを含む別々の RSS フィードを持つことを妄想するが(一部の blog tool では trackback auto discovery のためにコメントアウトされた XML が埋め込みされるが、通常は全文がはいらないし標準化されたものでも無い)、今後そうした方向に進むと言う気配はあまりない。

現実としては、そうした話を個別の html 作成者側では無く「Web情報の再利用者」側で行うのが Plagger のようなWebスクレイピングツール であるわけなので、方向性としては当分はこちらなのだろうね。

About W.W.Walker

World Wide Walker は yoosee による blog です。PDA, Web・サーバ技術, 美味しい食べ物などの話題を取り上げています... read more

Monthly Archives

Select Month to read
  

Ads

Recent Entries

Related Sites