酢ろぐ!

カレーが嫌いなスマートフォンアプリプログラマのブログ。

WindowsストアアプリでHTMLから表示される文字列を取得する

Windows.Data.Html名前空間のHtmlUtilitiesクラスを使えば、簡単にHTMLからテキストコンテンツを抽出することができます。例えば、以下のようなHTML文を入力した場合、「酢酸ですよ」だけを取得することができます。

<html>
  <head>
    <title>やっほー!</title>
  </head>
  <body>酢酸ですよ</body>
</html>

以下にHTML文をコンバートしてテキストコンテンツを抽出するサンプルコードを示します。

var html = "<html><head><title>やっほー!</title></head><body>酢酸ですよ</body></html>";
var text = Windows.Data.Html.HtmlUtilities.ConvertToText(html);

// 出力:酢酸ですよ

上記のコード例のように1つのHTML文からテキストコンテンツを抽出するというよりは、ある程度スクレイピングし、細切れになったた要素からテキストコンテンツを抽出する用途で使用されるケースが多いです。

var html = "<p>酢酸ですよ</p>";
var text = Windows.Data.Html.HtmlUtilities.ConvertToText(html);

// 出力:酢酸ですよ