Achei curioso e fiz um pequeno código para exemplificar.
Percebo pouco de expressões regulares, só mesmo as mais simples, para este exemplo construi uma que (muito) provavelmente é pouco ou nada eficiente
PHP:
Imports System.Net
Imports System.IO
Imports System.Text
Partial Class _Default
Inherits System.Web.UI.Page
Protected Sub Page_Load(ByVal sender As Object, ByVal e As System.EventArgs) Handles Me.Load
Dim pedido As WebRequest = WebRequest.Create("http://www.imdb.com/title/tt0299977/")
Dim resposta As HttpWebResponse = CType(pedido.GetResponse(), HttpWebResponse)
Dim dataStream As Stream = resposta.GetResponseStream()
Dim reader As New StreamReader(dataStream)
Dim html As String = reader.ReadToEnd()
Dim rgx_pattern As String = "<title>(?<titulo>.+)<\/title>|" _
& "<div class=""photo"">\s*<a[^>]*>(?<imagem>.+)\s*<\/a>\s*<\/div>|" _
& "<div class=""info"">\s*<h5>Director:<\/h5>\s*<a[^>]*>\s*(?<director>.+)\s*<\/a>|" _
& "<div class=""info"">\s*<h5>Language:<\/h5>\s*<a[^>]*>\s*(?<lang>.+)\s*<\/a>"
Dim rgx As Regex = New Regex(rgx_pattern, RegexOptions.IgnoreCase)
Dim matches As MatchCollection = rgx.Matches(html)
Dim values(4) As String
Dim i As Int16 = 0
For Each match As Match In matches
i = i + 1
If match.Success Then
values(i - 1) = match.Groups(i).ToString()
End If
Next
Response.Write(String.Format("Titulo<br/>{0}<br/>Imagem<br/>{1}<br/><br/>Realizador<br/>{2}<br/>Idioma<br/>{3}", values))
End Sub
End Class
Vai escrever para o output esta informação:
Código:
Titulo<br/>
Ying xiong (2002)<br/>
Imagem<br/>
<img border="0" alt="Ying xiong" title="Ying xiong" src="http://ia.media-imdb.com/images/M/MV5BMTk5NjQyMzIwM15BMl5BanBnXkFtZTcwODQyNjYyMQ@@._V1._SY140_SX100_.jpg" /<br/><br/>
Realizador<br/>
Yimou Zhang<br/>
Idioma<br/>
Mandarin
A informação pode não ser totalmente correcta, se por ex. existir mais que um idioma, só aparece o 1º, mas para quem perceba em expressões regulares isto deve ser "fácil".
Para "apanhar" a fotografia do filme nem era preciso aquilo, por ex. quando há um poster do filme aparece dentro do anchor <a name="poster" ...><img ....../></a>, mas quando não há um poster isto já não se verifica, se por ex. inserirmos um filme sem poster (
http://www.imdb.com/title/tt0293715/) vai devolver isto:
Código:
Titulo<br/>
Yeopgijeogin geunyeo (2001)<br/>
Imagem<br/>
<img border="0" src="http://ia.media-imdb.com/media/imdb/01/I/37/58/83/10.gif" width="100" height="150" alt="Poster Not Submitted" title="Poster Not Submitted"><br/><br/>
Realizador<br/>
Jae-young Kwak<br/>
Idioma<br/>
Korean
Aqui falha no idioma, pois no imdb tem "Korean | English"
Além de que se por ex. os programadores do imdb decidirem mudar a estrutura isto vai deixar de funcionar
Do pouco que sei, espero ter ajudado.