Πώς να εξαγάγετε κείμενο από ενσωματωμένο έγγραφο Python

ψήφοι
0

Θέλω να εξαγάγετε κείμενο από ορισμένες διευθύνσεις URL που χρησιμοποιούν Python, αλλά δεν ήταν σε θέση να πάρει τίποτα από BeautifulSoup ως HTML των εγγράφων περιλαμβάνει μόνο μια ενσωματωμένη ID. Εδώ είναι ένα παράδειγμα ενός αρχείου που θέλω να εξαγάγετε το κείμενο από: Παράδειγμα

Οποιεσδήποτε ιδέες για το πώς να εξαγάγετε το κείμενο από αυτή τη διεύθυνση URL;

Εδώ είναι ένα παράδειγμα του κώδικα που παράγει απλά ασυναρτησίες:

r = sessions.get(http://investors.yum.com/Cache/1001242026.PDF? O=PDF&T=&Y=&D=&FID=1001242026&iid=4025819)
html = r.text
soup = BeautifulSoup(html)
text = soup.get_text()
print(text)
Δημοσιεύθηκε 27/11/2018 στις 17:41
πηγή χρήστη
Σε άλλες γλώσσες...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more