@robalo
cuando me refería a que me enreveso bastante, era por cosas como estas para la paginacion de peelink

seguro que hay otras maneras más elegantes de hacer lo mismo

, una vez que tienes el nº de pagina en el que estas, con hacer un replace de en nº de pagina + 1 y tal... pero como no se como manejarme con substrings, pues lo he resuelto buscando en los datos de la pagina el url con el nº de pagina + 1 y recojo dicha url, en vez de componerla haciendo el replace ( que era mucho mas facil )... cosas de no saber python
Código: Seleccionar todo
##########################
# puta_paginacion
patron = '<link rel="canonical" href="([^"]+)"'
try:
pagina_actual = scrapertools.get_match(data,patron)
pagina_actual = urlparse.urljoin(item.url,pagina_actual)
try:
patron='<a href="([^"]+-estreno.*?.html)">'
bloquematches = re.compile(patron,re.DOTALL).findall(data)
for scrapedurl in bloquematches:
url = urlparse.urljoin(item.url,scrapedurl)
url = url.replace("www.","")
pagina_actual = pagina_actual.replace("www.","")
if url == pagina_actual:
try:
dato = scrapertools.get_match(pagina_actual,'pagina-(\d+)-estreno')
break
except:
dato = "1"
else:
dato = "1"
dato_busq = str (int(dato) + 1 )
for scrapedurl in bloquematches:
url = urlparse.urljoin(item.url,scrapedurl)
dato2 = scrapertools.get_match(url,'pagina-(\d+)-estreno')
if dato_busq == dato2:
itemlist.append( Item(channel=__channel__, title="Pagina [COLOR red][ "+dato2+" ][/COLOR]", url=url, action="menupelis", folder=True) )
break
except: pass
except: pass
return itemlist