Willkommen

Navigation


Statistik
8284
Benutzer online
Mitglieder: 1.852.419
Themen: 670.139
Beiträge: 4.119.988

 
Antwort Themen-Optionen
Alt 05.02.12, 20:10   #1 (Permalink)
Benutzerbild von sunman256
Mitglied seit: Jul 2011
Beiträge: 7
sunman256 ist offline
sunman256
Member
 
Webseite Capture 2 CHM / PDF ?

Hallo miteinander.

Wollte mal fragen, ob ihr ein Tool kennt, um Webseiten Content direkt als CHM / PDF abzulegen?

Fakt ist: wir haben auf der Arbeit einen Zugangs zu Books 24x7.
Allerdings ist es blöd, nur am PC lesen zu können / dürfen.
Wir haben schon überlegt, die Seiten abzuspeichern. Da pro Seite aber immer nur Unterkapitel angezeigt werden, kann das pro Buch schonmal 100 Klicks bedueten.
Ich habe früher mal einige CHM Bücher von TeamLiB gesehen, die auch wohl Webseiten inklusive navigierbarem Inhaltsverzeichnis geparst haben, um daraus ein CHM zu machen.
Habe aber keien Hinweise auf deren Tool finden können.

Kennt ihr irgendwie so etwas?
Und wie ist das Risiko, dass personenbezogene Inhalte darin auftauche können?

Danke schön!

Mit Zitat antworten Beitrag melden
   

Download 05.02.12, 20:10   Top
Mitglied seit: Jul 2011
Beiträge: 7
GulliBZ
Member
 
Webseite Capture 2 CHM / PDF ?

~ DOWNLOAD ~

Webseite Capture 2 CHM / PDF ?

Status: Bild anzeigen



Alt 05.02.12, 20:38   #2 (Permalink) Top
Benutzerbild von Sands23
Mitglied seit: Dec 2011
Beiträge: 66
Sands23 ist offline
Sands23
Member
 
Webseite Capture 2 CHM / PDF ?

Also ich weiß nicht ob dir das hilft aber es gibt wget.

Wget kann online links in ofline links übersetzen und auch Unterseiten downloaden.

Wenn du keine Tiefenbeschränkung beim download angiebst kann wget theroretisch das ganze internet runter laden, weil er pro ebene allen links folgt und erst dann aufhört wenn er zb zur 1. ebene kommt. Hast du 2 ebenen angegeben, dann lädt er auch noch alle links von einer seite die von der ersten verlinkt wurde und so weiter und so weiter.

So lange ein link von einen kapitel zum anderen existierst dürftest du damit alles bekommen oder von einem inhaltsverzeichniss zu den kapiteln, dann würde zb 1 ebene reichen weil von Inhaltsverz. alle Kapitel mit 1 klick erreicht werden können, vorrausgesetzt du gibst die tiefe richtig an. wenn noch links außerhalb von buch vorhanden sind, muss man am ende die halt aus den downloadorder raus löschen. Am ende hast du dann pro seite ein html file das offline auf ein anderes links usw usw.

Das sollte sich auch leicht in ein epub verpacken lassen, denk ich.

Hoffe ich konnte dir helfen :-)

Mit Zitat antworten Beitrag melden
   
Alt 05.02.12, 21:47   #3 (Permalink) Top
Benutzerbild von sunman256
Threadstarter
Mitglied seit: Jul 2011
Beiträge: 7
sunman256 ist offline
sunman256
Member
 
Webseite Capture 2 CHM / PDF ?

Nette Idee, die wir auch schon mit einem HTTP Crawler ausprobiert haben.
Das Problem bei Books 24x7 ist, dass der Link auf das nächste Kapitel durch eine (dynamische?) ID repräsentiert wird, die an ein internes JavaScript übergeben wird, was erst dann den Inhalt dazu lädt und anzeigt.
Könnte wget damit umgehen?

Mit Zitat antworten Beitrag melden
   
Alt 05.02.12, 23:14   #4 (Permalink) Top
Benutzerbild von Sands23
Mitglied seit: Dec 2011
Beiträge: 66
Sands23 ist offline
Sands23
Member
 
Webseite Capture 2 CHM / PDF ?

Leider nein:

5.3. Does Wget understand JavaScript?

Wget doesn't feature JavaScript support and is not capable of performing recursive retrieval of URLs included in JavaScript code.

In fact, it is impossible to extract URLs from JavaScript by merely parsing it. Web clients need to actually execute it, which is difficult to know how to do in a non-interactive web client. It is also slow, and memory- and CPU-intensive. However, there is a lot of demand for such a feature.The problem is that it would be effectively impossible to fetch any and all web URLs that a given JavaScript program might fetch, on every possible user interaction; so Wget can never fetch everything that a user might wish it to, or that a user might be able to retrieve through specific interactions on a web page.

However, there is a wealth of possibilities that lie between the extremes of getting nothing, and getting everything; and an examination of what behavior within that realm might be appropriate could be very illuminating. There are discussions underway as to what level of JavaScript support Wget might offer in the future.

However, given the fact that it adds a huge amount of complexity, and the fact that we could never hope to achieve "perfect" results, always just approximating it a little better and a little better, it is extremely likely that JavaScript support for Wget will be a separate development effort from Wget itself, and will probably be offered in the form of a separately-downloaded plugin (a plugin architecture being another thing planned for Wget).

See FeatureSpecifications/JavaScript for the latest status of discussons related to this feature.

FrequentlyAskedQuestions - The Wget Wgiki

Aber das kann gff helfen:

Scraping AJAX web pages (Part 1) « The Ubuntu Incident

Oder curl, aber auch curl kann kein java script, man kann die links aber ggf umschrieben so das curl diese versteht.

Ich glaube nicht das die dynamisch erzeugt werden. Hast du mal in den Quellcode der Seite reingeschaut ? Manchmal ist der Link auch versteckt in iirgendenem Attribut enthalten...


NACHTRAG:

http://www.httrack.com könnte wöhl ein bischen Java Script, ggf reicht das ja ?

Das hier kann laut Beschreibung java-Scipt links folgen:

http://www.surfoffline.com/

Hier gibts nen keygen dazu http://www.crackinn.com/view/Su...2.1.2.html

Hoffe das hilft dir weiter

Wäre super wenns es hier noch mehr bücher gibt...

Geändert von Sands23 (05.02.12 um 23:22 Uhr). Grund: ddd
Mit Zitat antworten Beitrag melden
   
Alt 23.02.12, 13:46   #5 (Permalink) Top
Benutzerbild von sunman256
Threadstarter
Mitglied seit: Jul 2011
Beiträge: 7
sunman256 ist offline
sunman256
Member
 
Webseite Capture 2 CHM / PDF ?

Das JavaScript sieht so aus:


<SCRIPT LANGUAGE="JavaScript">
<!--
function Jump(item,offset) {
var cm = new Array(0,94,0,17,90,6,56,8,14,1,79,88,11,36,7,31,37 ,99,51,17,23,1,40,99,5,39,34,5,45,41,4,19,99,4,70, 96,0,34,92,95,8,11,0,0,61,24,49,16,2,29,85,29,13,4 2,6,86,82,91,82,99,98,6,75,72,76,25,30,89,1,6,67,2 0,94,60,33,2,54,8,13,5,18,2,1,6,19,58,39,68,92,2)
var a1 = new Array(36,61,69,24,79,27,81,89,77,83,7,82,40,5,33,2 1,48,9)
var a2 = new Array(43,20,55,41,54,26,64,67,78,6,12,34,3,30,57,7 6,45,72)
var a3 = new Array(2,47,28,23,60,63,75,25,80,19,37,88,87,32,1,4 6,38,13)
var a4 = new Array(0,15,52,65,84,70,44,59,16,10,51,71,53,49,11, 74,31,42)
var a5 = new Array(68,22,39,58,85,17,86,4,35,18,66,14,62,50,73, 56,29,8)
var b1="00"+cm[a1[item]]; b1= b1.substr(b1.length-2,2)
var b2="00"+cm[a2[item]]; b2= b2.substr(b2.length-2,2)
var b3="00"+cm[a3[item]]; b3= b3.substr(b3.length-2,2)
var b4="00"+cm[a4[item]]; b4= b4.substr(b4.length-2,2)
var b5="00"+cm[a5[item]]; b5= b5.substr(b5.length-2,2)
var h ='viewer.asp?bookid=32030\46chunkid='+b1+b2+b3+b4+ b5
if(offset) h+='#'+offset;
this.location=h}
// -->
</SCRIPT>

Mit Zitat antworten Beitrag melden
   
Antwort


 


Themen-Optionen



Jetzt registrieren


Registrieren | Forum-Mitarbeiter | Kontakt | Nutzungsbedingungen

Alle Zeitangaben in WEZ +1. Es ist jetzt 14:35 Uhr.

All trademarks are the property of their respective owners.
Copyright ©2008 - 2012 BoerseBZ