100% encontró este documento útil (1 voto)
235 vistas

1-Fundamentos de Web Scraping Con Python-Slidesxpath

Este documento presenta un curso de fundamentos de web scraping con Python. Explica por qué el web scraping es importante hoy en día y las herramientas principales que se usarán como Python, las bibliotecas Requests y BeautifulSoup, y conceptos como HTTP, HTML y XPath. El curso cubre cómo construir expresiones XPath, obtener enlaces y guardar datos scrapados para crear un proyecto de scraper de noticias que los estudiantes podrán implementar.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
100% encontró este documento útil (1 voto)
235 vistas

1-Fundamentos de Web Scraping Con Python-Slidesxpath

Este documento presenta un curso de fundamentos de web scraping con Python. Explica por qué el web scraping es importante hoy en día y las herramientas principales que se usarán como Python, las bibliotecas Requests y BeautifulSoup, y conceptos como HTTP, HTML y XPath. El curso cubre cómo construir expresiones XPath, obtener enlaces y guardar datos scrapados para crear un proyecto de scraper de noticias que los estudiantes podrán implementar.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 34

Curso de

Bagde
Fundamentos de
del curso Web Scraping con
Python
Facundo García Martoni
¿Por qué aprender
Web Scraping HOY?
Está presente en todos lados
¿Backend? ¿Data Scientist?
Simplemente Python
Requests BeautifulSoup
HTTP HTML
HTTP

Hypertext Transfer Protocol


Cliente Servidor
# Request

GET / HTTP/1.1
Host: developer.mozilla.org
Accept-Language: fr

# Response

HTTP/1.1 200 OK
Date: Sat, 09 Oct 2010 14:28:02 GMT
Server: Apache
Last-Modified: Tue, 01 Dec 2009 20:18:22 GMT
ETag: "51142bc1-7449-479b075b2891b"
Accept-Ranges: bytes
Content-Length: 29769
Content-Type: text/html

<!DOCTYPE html... (here comes the 29769 bytes of the


requested web page)
Web APIs

HTML CSS
The web
JavaScript

HTTP

DNS TLS
TCP
UDP
IP
HTML

Hypertext Markup Language


<!DOCTYPE html>
<html>
<body>
<h1>My First Heading</h1>
<p>My first paragraph.</p>
<a href="https://www.w3schools.com">This is a
link</a>
<img src="w3schools.jpg" alt="W3Schools.com"
width="104" height="142">
<ul>
<li>Coffee</li>
<li>Tea</li>
<li>Milk</li>
</ul>
<button>Click me</button>
</body>
</html>
robots.txt
XPath

XML Path Language


//div/span//h1[@class=”title”][1]
Tipos de nodos

XPath
Expresiones

XPath
Predicados

XPath
Operadores

XPath
Wildcards

XPath
In-text search

XPath
Axes

XPath
Aplicando lo
aprendido
XPath
Un proyecto para tu
portafolio: scraper de
noticias
¡Ponte a prueba!
Construcción de las
expresiones de XPath
¡Ponte a prueba!
Obteniendo los links
de los artículos
¡Ponte a prueba!
Guardando las
noticias
¡Ponte a prueba!
Conclusiones
¿Quieres preguntarme algo?

@facmartoni
facundonicolas.com

También podría gustarte