El archivo robots.txt es un archivo estándar también conocido como protocolo de la exclusión de robots o protocolo de robots.txt que no es más que un simple archivo de texto ubicado en el directorio raíz de cualquier servidor web.
Este archivo nos permite especificar ciertos archivos o directorios que no queremos que sean indexados por los web crawlers, también llamados robots o bots, utilizados por los diferentes motores de búsqueda.
Los chicos de Last.fm, así como cualquier otro servicio web, tienen un archivo robots.txt pero el suyo es un poquito más geek de lo usual:
User-Agent: *
Disallow: /music?
Disallow: /widgets/radio?
Disallow: /show_ads.php
Disallow: /affiliate/
Disallow: /affiliate_redirect.php
Disallow: /affiliate_sendto.php
Disallow: /affiliatelink.php
Disallow: /campaignlink.php
Disallow: /delivery.php
Disallow: /music/+noredirect/
Disallow: /harming/humans
Disallow: /ignoring/human/orders
Disallow: /harm/to/self
Allow: /
Si son fanáticos de la ciencia ficción es posible que recuerden las tres leyes de la robótica de Isaac Asimov las cuales se encuentran referenciadas en las últimas líneas del archivo robots.txt de Last.fm:
- Un robot no debe dañar a un ser humano o, por su inacción, dejar que un ser humano sufra daño.
- Un robot debe obedecer las órdenes que le son dadas por un ser humano, excepto si estas órdenes entran en conflicto con la Primera Ley.
- Un robot debe proteger su propia existencia, hasta donde esta protección no entre en conflicto con la Primera o la Segunda Ley.
Social Media