PirateGov

Δήλωσε συμμετοχή στις ομάδες εργασίας και βοήθησε στην λειτουργία του κόμματος.
ergoil
Δημοσιεύσεις: 800
Εγγραφή: 18 Μάιος 2012, 09:55
Επικοινωνία:

Re: PirateGov

Δημοσίευσηαπό ergoil » 02 Ιούλ 2012, 00:24

dizzyk έγραψε:ergoil, κοιτούσα κι εγώ αν υπάρχει στο site της Βουλής τρόπος να βλέπουμε τα σχέδια νόμου που κατατίθενται προς ψήφιση, αλλά πχ το rss που έδωσες και είχα δει, πέρα από το 5/4/12 και το 19/3/12, η προηγούμενη εγγραφή είναι 4/6/2010...


Το παρατήρησα και εγώ, ότι δεν αλλάζει. :( Εκεί στην βουλή, τόσα λεφτά τους δίνουμε, ένα σωστό rssfeed δεν μπορούνε να φτιάξουν οι άχρηστοι! :evil:

Ευτυχώς υπάρχει και το εβδομαδιαίο δελτίο. Εκεί υπάρχει όλη η πληροφορία που χρειαζόμαστε. Αν υπάρχει και πουθενά αλλού πιο εύκολα, καλώς. Αν δεν υπάρχει όμως, τότε πρέπει:

1) να περαστεί το pdf δελτίο από ένα pdf distiller για να γίνει text.
2) να μπορέσει να γίνει το κατάλληλο parsing (μάλλον με χρήση της awk) έτσι ώστε να εξαχθεί η χρήσιμη πληροφορία.

οπότε, ερώτηση πρώτη: ξέρει κανείς κάποιον καλό pdf distiller;

Το ιδανικό θα ήταν, επειδή το εβδομαδιαίο δελτίο είναι δίστηλο, να μπορεί o distiller να παράγει ένα doc κείμενο με δύο στήλες-columns. Έτσι ώστε στην συνέχεια να το αλλάξουμε σε μια στήλη. Αυτό θα βοηθούσε πολύ τον προγραμματισμό στην awk.

ergoil
Δημοσιεύσεις: 800
Εγγραφή: 18 Μάιος 2012, 09:55
Επικοινωνία:

Re: PirateGov

Δημοσίευσηαπό ergoil » 02 Ιούλ 2012, 14:39

Βρήκα αυτό, που μπορεί να φανεί χρήσιμο. Και αυτό βεβαίως στο οποίο αναλύονται και οι πηγαίοι κώδικες.

Το pdfbox φαίνεται ωραίο, και έχει και command line.

java -jar pdfbox-app-x.y.z.jar ExtractText [OPTIONS] <PDF file> [Text file]


έχει κανείς καμιά καλύτερη λύση στο πρόβλημα;

pav
Δημοσιεύσεις: 1751
Εγγραφή: 09 Ιαν 2012, 16:30

Re: PirateGov

Δημοσίευσηαπό pav » 02 Ιούλ 2012, 15:08

Ίσως με αυτό:

Κώδικας: Επιλογή όλων

$ pdftotext deltio-12-4-2012.pdf


Το αποτέλεσμα στο συνημμένο.
Συνημμένα
deltio-12-4-2012.txt.zip
(4.35 KiB) Έχει μεταφορτωθεί 323 φορές

ergoil
Δημοσιεύσεις: 800
Εγγραφή: 18 Μάιος 2012, 09:55
Επικοινωνία:

Re: PirateGov

Δημοσίευσηαπό ergoil » 02 Ιούλ 2012, 15:12

ωραία, να δούμε τώρα πώς από το text θα βγάλουμε την πληροφορία, με grep-awk.

baskin
Μέλος του Κόμματος Πειρατών
Δημοσιεύσεις: 8666
Εγγραφή: 23 Δεκ 2011, 23:28
Τοποθεσία: Σύρος, Κυκλάδες

Re: PirateGov

Δημοσίευσηαπό baskin » 04 Ιούλ 2012, 00:52

Άνοιξα και μια πρωτοβουλία (απλή) στο Liquid, μπας παίξει κανείς.

https://liquid.pirateparty.gr/initiative/show/19.html
Στον τάφο της Αμφίπολης είναι ο Μαυρογένης...

pav
Δημοσιεύσεις: 1751
Εγγραφή: 09 Ιαν 2012, 16:30

Re: PirateGov

Δημοσίευσηαπό pav » 04 Ιούλ 2012, 01:02

baskin έγραψε:Άνοιξα και μια πρωτοβουλία (απλή) στο Liquid, μπας παίξει κανείς.

https://liquid.pirateparty.gr/initiative/show/19.html

Πες μας όμως γιατί είναι καλύτερη από την 18. :)

baskin
Μέλος του Κόμματος Πειρατών
Δημοσιεύσεις: 8666
Εγγραφή: 23 Δεκ 2011, 23:28
Τοποθεσία: Σύρος, Κυκλάδες

Re: PirateGov

Δημοσίευσηαπό baskin » 04 Ιούλ 2012, 01:43

Είναι άλλο πράμα!! Για τον ergoil!! (Με ποιον λογαριασμό μπήκα δεν θυμάμαι... :?: )
Στον τάφο της Αμφίπολης είναι ο Μαυρογένης...

pav
Δημοσιεύσεις: 1751
Εγγραφή: 09 Ιαν 2012, 16:30

Re: PirateGov

Δημοσίευσηαπό pav » 04 Ιούλ 2012, 11:11

pav έγραψε:Ίσως με αυτό:

Κώδικας: Επιλογή όλων

$ pdftotext deltio-12-4-2012.pdf


Το αποτέλεσμα στο συνημμένο.

Ξέχασα ότι έχει και μια παράμετρο "-raw: keep strings in content stream order" που πολλές φορές βγάζει καλύτερο αποτέλεσμα:
Συνημμένα
deltio-12-4-2012.raw.txt.zip
(4.44 KiB) Έχει μεταφορτωθεί 327 φορές

ergoil
Δημοσιεύσεις: 800
Εγγραφή: 18 Μάιος 2012, 09:55
Επικοινωνία:

Re: PirateGov

Δημοσίευσηαπό ergoil » 04 Ιούλ 2012, 11:25

baskin έγραψε:Άνοιξα και μια πρωτοβουλία (απλή) στο Liquid, μπας παίξει κανείς.

https://liquid.pirateparty.gr/initiative/show/19.html


αυτό που πάς να κάνεις δημιουργεί διαχωρισμούς, λες και δεν είναι οι πειρατές πολίτες, ή οι πολίτες πειρατές.

Το σωστό που πρέπει να γίνει (το ποιός θα το κάνει μην το ρωτάς ακόμα) είναι να υπάρχει ΜΙΑ πλατφόρμα όπου να συν-υπάρχουν όλοι.
Αλλά με κατάλληλα φίλτρα να επιτρέπει να βλέπουμε την πληροφορία διαφορετικά.

Δηλαδή ρυθμίζω, και εμφανίζονται μόνο οι προτάσεις των πειρατών αλλά οι ψήφοι όλων των πολιτών σε αυτές.
ρυθμίζω, και εμφανίζονται μόνο οι προτάσεις και οι ψήφοι των πειρατών.
ρυθμίζω, και εμφανίζονται μόνο οι προτάσεις και οι ψήφοι των πολιτών.
ρυθμίζω, και εμφανίζονται οι προτάσεις και οι ψήφοι όλων, πειρατών και πολιτών .
κλπ κλπ όλοι οι δυνατοί συνδιασμοί......

Όλοι ζουν στην ίδια χώρα, πρέπει λοιπόν και η πλατφόρμα να είναι μια για όλους, απλά να υπάρχει η δυνατότητα να βλέπουμε την πληροφορία και τα αποτελέσματα από όποια γωνία θέλουμε.
Έτσι ευνοούμε την αλληλεπίδραση ανάμεσα στις ομάδες, και δίνουμε την δυνατότητα να υπάρχουν κανάλια επικοινωνίας ανάμεσα στην μια ομάδα και μια άλλη, αν φυσικά τα μέλη της ομάδας το επιθυμούν και έχουν ρυθμίσει τα φίλτρα τους κατάλληλα.

Φίλτρα, είναι η λέξη κλειδί.

ergoil
Δημοσιεύσεις: 800
Εγγραφή: 18 Μάιος 2012, 09:55
Επικοινωνία:

Re: PirateGov

Δημοσίευσηαπό ergoil » 04 Ιούλ 2012, 11:45

pav έγραψε:
pav έγραψε:Ίσως με αυτό:

Κώδικας: Επιλογή όλων

$ pdftotext deltio-12-4-2012.pdf


Το αποτέλεσμα στο συνημμένο.

Ξέχασα ότι έχει και μια παράμετρο "-raw: keep strings in content stream order" που πολλές φορές βγάζει καλύτερο αποτέλεσμα:


Μάλλον το προηγούμενο που έστειλες είναι καλύτερο.
Καταρχήν το άλλαξα σε greeklish, γιατι δεν έχω linux με ελληνικούς χαρακτήρες, ας το δοκιμάσει κάποιος με ελληνικό Linux.

βρίσκουμε σε ποιά σημεία του κειμένου υπάρχει η λέξη YPOYRGEIO:
a=`cat lala.txt|grep -n YPOURGEIO|cut -f1 -d":"`
for i in $a
do
echo $i
done

μου βγάζει τους αριθμούς

Κώδικας: Επιλογή όλων

28 42 51 77 104 115 126

Σε αυτά τα σημεία πρέπει να κόψουμε το κείμενο, για να το χωρίσουμε ανά υπουργεία.

οπότε μετά

cat lala.txt|head -41|tail -28

μου βγάζει το

YPOURGEIO DIKAIOSYNHS, PARATHRHSEIS
DIAFANEIAS KAI
ANTHRWPINWN DIKAIWMATWN
1. Katapole?hsh idiaitera Katatethhke 5.12.2011.
sovarwn ekdhlwsewn (Oloklhrwsh 2hs
ratsis?oy kai ksenofovias. anagnwshs 21.12.2011).
Etoi?o gia syzhthsh.
EISHGHTES: V. Tsonoglou-Vylliwth
F. Pipilh
2. Kwdikas Narkwtikwn. Katatethhke 9.1.2012.
(Oloklhrwsh 2hs
anagnwshs 31.1.2012).
EISHGHTES: A. Tolkas Etoi?o gia syzhthsh.
K. Tzavaras


ενώ το
cat lala.txt|head -103|tail -27

μου βγάζει το

YPOURGEIO ANAPTYKSHS, PARATHRHSEIS
ANTAGWNISTIKOTHTAS
KAI NAFTILIAS
1. Isodyna?a koinwnika Katatethhke 14.3.2012.
?etra gia th leitourgia Ekkre?ei sth diarkh
tou ygioys antagwnis?oy, epitroph paragwghs
thn anasygkrothsh ths kai e?poriou.
ellhnikhs paragwghs,
th diakinhsh kai diathesh
twn proiontwn entos kai
ektos Elladas, kathws kai
th diasfalish kai prowthhsh
ths epixeirh?atikothtas.
PROTEINONTES VOULEFTES:
Trianta dyo (32) Vouleftes.
EISHGHTES:
2. Isodyna?a koinwnika Katatethhke 14.3.2012.
?etra: Organwsh ths Ekkre?ei sth diarkh
synergasias paragwgwn epitroph paragwghs
kai katanalwtwn, kai e?poriou.
sh?ansh ellhnikwn proiontwn
kai diatakseis ryth?ishs ths
agoras gia ta vasika
katanalwtika agatha.
PROTEINONTES VOULEFTES:
Trianta dyo (32) Vouleftes.
EISHGHTES:



Στην συνέχεια στα κομμάτια αυτά που κόψαμε ανα υπουργειο, ψάχνουμε που γράφει 1. 2. 3. κλπ
εκεί είναι τα νομοσχέδια του υπουργείου.


Επιστροφή στο

Μέλη σε σύνδεση

Μέλη σε αυτή την Δ. Συζήτηση: 0 και 0 επισκέπτες