2013年7月30日火曜日

2ちゃんねるの書き込み中のアンカーから正規表現で数字のみ抜く(VB.NET)

とある事情で2ちゃんねるのスレッドをdatファイルで取得して、その中の書き込み内容のアンカーの数字を抜き出したいことがありました。

当然正規表現を使うことになるのですが、そんなに頻繁に使わないので忘れてしまって、使う前に勉強することになります。。
正規表現をスラスラ書けたらかっこいいなと思うのですが、なかなか。。

ということで、VB.NETでこんな感じになりました。

Dim mc As MatchCollection = Regex.Matches(body, 
    "<a.*?>&gt;&gt;(?<no>\d+)</a>")
For Each m As Match In mc
    str = m.Groups("no").Value
Next

正規表現はこれでいいのかあまり自信はないですが、とりあえずこれで取得できてます。

0 件のコメント:

コメントを投稿