Storie dalla Sala Macchine


Home Page | Commenti | Articoli | Faq | Documenti | Ricerca | Archivio | Storie dalla Sala Macchine | Contribuire | Login/Register

Ignora, Ignora o Ignora?

Se non puoi fare niente riguardo un problema, te ne devi preoccupare?

Le opinioni possono essere diverse al riguardo ma, in generale, se veramente non puoi farci niente, non dovresti preoccupartene. Almeno finche' non ti riguarda direttamente. A quel punto dovrai allontanarti finche' il problema non ti riguardera' piu.

Vivi nei pressi di un aereoporto internazionale e direttamente sotto il percorso degli aerei in fase di atterraggio o decollo? Puoi lamentarti finche' vuoi della cosa, ma non cambiera' di certo la situazione. Impara a distinguere gli aerei dal rumore che fanno o comincia a cercarti una nuova casa. Possibilmente non quella accanto ad un enorme impianto di riciclaggio di scorie chimiche.

Tuttavia... se il tuo lavoro e' di preoccuparti di quel problema, se non puoi risolverlo dovresti quanto meno segnalarlo alle persone competenti. Perche'... be'.... E' IL TUO FOTTUTO LAVORO!. Ecco perche'.

Dunque, siamo di nuovo qui a parlare di problemi di spazio su disco... e di chi dovrebbe essere il problema.

Dato che i nostri clienti, per la maggioranza, ci pagavano per gestire i loro sistemi, il problema avrebbe dovuto essere uno dei NOSTRI problemi. Perche' i dischi e lo spazio disponibile erano parte integrante del sistema e avrebbero dovuto essere inclusi nel contratto. D'altra parte... se un disco si sta riempiendo, non e' che ci si possa fare poi molto. Si possono rimuovere le cose che sono, ovviamente, inutili (perche' ci sono copie di copie di vecchie applicazioni non piu' usate?) ma se quello non risolve, l'unico passo successivo e' contattare il cliente e riportare il problema. Se hanno sbagliato i calcoli di quanto spazio gli serve (o, piu' prosaicamente, hanno scelto il "taglio" meno costoso di disco), dovranno rivedere i loro calcoli ed eventualmente scegliere un disco piu' grande (e pagare un costo maggiore) o cominciare a zappare via roba.

E' cosi' tanto complicato o illogico?

Tuttavia, perche' il cliente possa decidere il da farsi, devono essere prima di tutto informati che un problema esiste. E perche' quello avvenga, qualcuno deve notare la cosa e decidere che deve fare qualche cosa al riguardo. Se questo primo, cruciale, passo non viene intrapreso... Vabbe', andiamo con la storia va'...

Tanto tempo fa, esisteva $NoiVendiamoTappeti, una ditta che ... vabbe', lo sapete.

Questi avevano un sito web con webshop ed altra roba che era ospitato da $AmichevoleHostingProvider, i quali furono acquisiti in blocco da $Shitty come parte del Piano di Dominazione Mondiale.

Un giorni, $NoiVendiamo scopri' che il loro sito era ostato da noi. E noi pure.

Il sito di $NVT non era niente di straordinario, un semplice sito web con alcune parti customizzate ed un corrispondente webshop.

Uno dei pochi pezzi customizzati, l'unico un po' "strano", era relativo alla gestione delle fotografie. Apparentemente il redattore (o come stracazzo volete chiamare il tizio/la tizia che scriveva i testi in quel coso) amava avere diverse foto di ogni prodotto o cosa e poi sceglierne una che meglio si adattava al suo umore del momento. Il risultato e' che sul server si trovavano diverse dozzine di foto molto simili tra di loro.

Vabbe', niente di tanto strano... Finche' non capita che il tuo hosting passa da un "praticamente gratis e senza limiti di disco" a "superfico-megacostoso-ed-ho-detto-che-siamo-pure-supercertificati".

$NVT dette un'occhiata alla fattura del mese ed immediatamente si attacco' al telefono, il risultato fu che il contratto venne immediatamente modificato con un prezzo piu' "gestibile". Il che significa un "massimo" alle ore di gestione, una VM meno potente ed un disco piu' piccolo.

Ora, tutto avrebbe potuto funzionare perfettamente. Ed io potrei essere ricco e famoso. Proabilmente esiste da qualche parte un universo parallelo in cui entrambi questi fatti sono veri, ma non e' questo universo.

Avanti-veloce di un paio di settimane, quando il sito di $NVT cesso' di funzionare.

Ed adesso un piccolo intermezzo.

Nel disperato tentativo di avere la gente che lavorava, DB aveva introdotto una sorta di "turni". In sostanza ogni giorno qualcuno avrebbe dovuto essere in "lettura log", qualcuno avrebbe dovuto essere alla gestione dei tickets (o "Richieste Clienti"), qualcuno avrebbe dovuto essere ad installare o de-installare servers e tutti gli altri avrebbero dovuto essere occupati con i loro "progetti". Tutto bello, il problema e' cosa viene considerato un "progetto" e cosa fare quando qualcuno che dovrebbe essere in "Richieste Clienti" e' ammalato o ha altro da fare. Al solito, un buon piano dovrebbe tenere conto degli inevitabili problemi di implementazione.

Poi c'era il problema dello "stand-by", che sarebbe, il povero pirla dotato di pager che puo' mettersi a suonare in ogni momento.

Altra decisione esecutiva: durante il normale orario d'ufficio la responsabilita' del pager cade sul tizio che dovrebbe fare il controllo dei log, che e' anche responsabile per il monitoraggio delle cose che non sono strettamente 24x7, come lo spazio su disco.

Quindi, il tizio che dovrebbe concentrarsi sul controllare i log e cercare di seguire la traccia che potrebbe portare ad una macchina hackata o altre cose piuttosto puzzolenti, veniva caricato di altre attivita' che richiedevano risposte pronte e decisive. E quando parlo di macchine hackate lo faccio con ragione: e' capitato diverse volte che cercando di capire il perche' di cose strane viste nei log mi sono ritrovato con macchine che erano usate per inviare spam o facevano parte del circuito di controllo di qualche botnet. La cosa tragica era che erano cosi' da settimane, e nessuno aveva fatto niente al riguardo.

In ogni caso..

Un non-cosi'-bel-giorno, il sito di $NVT smise di funzionare. Ed il tizio che avrebbe dovuto tenere d'occhio il monitor non lo stava facendo. E dato che lui avrebbe dovuto tenere d'occhio il monitor nessun altro lo stava tenendo d'occhio. Tranne me. Io notai la luce rossa lampeggiante e domandai se qualcuno era occupato con il sito. E non ricevetti nessuna risposta. Ovviamente. A questo punto decisi di controllare. O meglio, cercai di controllare ma scoprii che non potevo fare login sul server.

E scoprii anche il perche': /var era piena al 100%

Un controllo sul grafico dell'occupazione delle partizioni mi disse che... non c'era nessun grafico perche' la macchine non era mai stata aggiunta al sistema.

Era venuto il momento di tirare in mezzo DB.

Il sito era morto ed noi non potevamo fare login. Ora di fare un reboot in single-user-mode e zappare via un po' di roba da /var e poi (ri)cominciare la discussione riguardo chi stracazzo aveva installato quel server e perche' le cose che avrebbero dovuto essere fatte non erano state fatte. Perche' tu puoi avere tutte le certificazioni che straminchia vuoi, ma se poi NON FAI LE COSE non funziona no?

DB - Perche' non hai informato prima il cliente?
Io - Prima di che?
DB - Tu stai controllando il monitor no?
Io - Io controllo le cose di tanto in tanto, non sono io che sto controllando il monitor, quello e' il turno di qualcun altro.
DB - E chi e' di turno?
Io - TU fai il planning, quindi TU dovresti saperlo.

Lui comincio' a ravanare dentro quella chiavica di "planning application" che voleva che si usasse, io feci presente molteplici volte che in ufficio avevamo gia' delle bellissime LAVAGNE che potevano essere usate come strumenti di pianificazione funzionali, gratuiti ed immediatamente leggibili, ma apparentemente non erano altrettanto "fighe".

In ogni caso, il tizio assegnato al controllo dei log fu identificato e DB si mosse per investigare.

Notare che a questo punto nessuno aveva ancora fatto niente per sistemare il sito di $NVT.

DB (parlando a CL che avrebbe dovuto essere in log-checking) - Hai visto il sito di $NVT?
CL - Chi? Io? Perche'?
DB - Non sta funzionando.
CL (guarda il pager) - Non sta suonando.
DB - Hai controllato il monitor?
CL (guarda il pager) - Non sta suonando.
DB - Puoi controllare il monitor?
CL - Sicuro

Comincia a ranavare sul computer, ovviamente di tutte le cose che sono in funzione sul suo computer nessuna e' relativa a monitoring, log-checking o simile.

CL - Ecco.

(parecchie lucette rosse lampeggianti)

Io - Hai visto quegli allarmi?
CL (indica il pager) - Non sta suonando quindi va bene.
Io - No, non va bene. Ci sono parecchie cose che non fanno suonare il pager. Questo non vuole dire che tu possa ignorarle.
CL - Non le ho ignorate.
Io - Quindi le hai guardate?
CL (indica il pager) - Non sta suonando.
Io - Lo contero' come un "NO". Hai riportato il problema al cliente o chiunque altro?
CL - Chi io?
Io - Quindi, se non hai riportato il problema e non hai fatto niente per risolverlo, lo hai ignorato.
CL - No, non l'ho ignorato.
Io - ...quindi che cosa hai fatto al riguardo?
CL - (guarda il pager) ...
Me (rivolto a DB) - Io vado a sistemare il server di $NVT, con lui parlaci tu.

Dopo un riavvio ed una bella pulizia, il server di $NVT era di nuovo on-line, ed io suggerii ad MM di contattarli e spiegargli che o ripulivano le dozzine di immagini inutili o cominciavano a pensare ad un disco piu' grosso. Dopodiche' feci la domanda inutile, cioe' perche' c'e' una sola stracazzo di partizione /var su questa merda di server e perche' /var/www non e' una partizione a se' stante e chi cazzo ha installato questa merda di server e perche' se uno dei "passi" di installazione e' "aggiungere il server al monitoring e graphing" non e' stato fatto? Indovinate chi aveva installato il server?

La parte interessante di tutto questo e' che io decisi di riportare il tutto durante il "meeting settimanale" e ci fu una non-discussione della cosa. Il mio punto di tutta la faccenda e' che se tu dovresti controllare i vari sistemi, tu dovresti controllare i vari sistemi, e non contare sul fatto che il pager cominci a suonare. Ovviamente tutti, incluso CL, si mostro' d'accordo con la cosa.

Fast forward di alcune settimane.

Ancora una volta, CL era di turno per i log ed il monitoring. Ed ancora una volta, io vidi una grossa luce rossa lampeggiante ed apparentemente nessuno aveva intenzione di fare niente al riguardo.

Questa volta non era il server di qualcuno, questa volta era la coda dei messaggi di posta di uno dei nostri smtp relay di un datacenter. Normalmente le code di questi server dovrebbero essere intorno ai 100 messaggi. Quella coda era di 29000. E stava crescendo. Un controllo ai grafici mi disse che aveva cominciato a crescere intorno alle 20.15 del giorno prima. E che era successo intorno alle 20.15 del giorno prima? Sembra che uno dei nostri clienti aveva avuto una nuova versione del loro cms installato intorno a quell'ora. Coincidenza? Probabilmente no.

Feci login nel mailserver e controllai chi aveva fatto login recentmente. Risultato: Nessuno. Ok, prima di fare qualunque altra cosa sono andato subito a rompere i marroni a DB.

Io - Controlla il monitor.
DB - (controlla il monitor) 29.000!
Io - Yep.
DB - Hai gia' controllato cosa e'?
Io - No. Non sono quello che dovrebbe controllare queste cose. Quel coso e' in quelle condizioni da ieri sera quindi non e' nemmeno una novita'. Qualcun'altro avrebbe gia' dovuto controllarlo ed evidentemente non lo sta facendo.

Ancora una volta DB ripete il balletto di "controllare chi e' di turno" ed ancora una volta io faccio presente che lui e' quello che organizza i turni settimanali e potrebbe pure farlo mensile se si impegnasse un pelo ma noooo....

Ancora una volta ci presentiamo al tavolo di CL che era molto occupato a guardare un video riguardo... niente di lavorativo, a meno che il suo lavoro non fosse il cronista sportivo.

Io (indicando lo schermo dietro di noi) - Hai visto quella cosa?
CL (prendendo su il pager) - Non sta...
Io - Suonando. No. Ho notato. Hai visto quella cosa?
CL - No.
Io - E non pensi che dovresti controllarla?
CL - Ma il pager non sta suonando.

Ed ancora una volta cominciamo la stessa discussione idiota.

E nel mezzo della quale io decisi che non mi interessava portarla avanti cosi' me ne tornai al mio tavolo ed a fare quello che stavo facendo prima e che se funziona per CL puo' funzionare anche per me. Dopo circa un'ora DB si presenta al mio tavolo.

DB - Hai guardato il server di posta?
Io - No. E non intendo farlo. CL e' la persona che stai cercando.
DB - Non riesce a vedere niente di strano.
Io - Puo' vedere la porta.
DB - Possiamo discuterne dopo?
Io - Possiamo discuterne mai, perche' non c'e' niente di cui discutere veramente. Dato che apparentemente non c'e' niente da fare al riguardo.

La lezione qui e' che se ignori il problema abbastanza a lungo, qualcun altro dovra' risolverlo. Ed a quel punto non sara' piu' il tuo problema.

Oh, cosa erano le 29000 mails in coda? Apparentemente il nuovo CMS aveva una funzione di "manda una mail a chiunque con qualunque testo" che avrebbe dovuto essere disattivata ma non lo era. Il risultato fu che il nostro relay fini' in tutte le blacklist del pianeta per circa un mese.

No, CL non si preoccupo' della cosa. Il pager non stava suonando.

Davide
30/06/2017 12:22

Precedente Successivo

I commenti sono aggiunti quando e soprattutto se ho il tempo di guardarli e dopo aver eliminato le cagate, spam, tentativi di phishing et similia. Quindi non trattenete il respiro.

6 messaggi posta messaggio
Francesco Di Francesco - postato il 28/08/2017 12:10 - rispondi

Davide sbaglio o questi a $brancodipaguri fanno fare la figura di tecnici di profonda competenza?

 

Brrr

 

Francesco

--
Francesco


L'ennesimo codardo anonimo Di L'ennesimo codardo anonimo - postato il 29/08/2017 09:39 - rispondi

Il pager non stava suonando - CL era già suonato di partenza.

--
L'ennesimo codardo anonimo


Anonymous Stupid Di Anonymous Stupid - postato il 29/08/2017 11:40 - rispondi

Interessante... Sarà stato stupido oppure gli avranno detto che l'unica cosa che contava era quel pager?

Perchè DB secondo me sembra abbastanza CL da aver dati istruzioni suicida.

--
Anonymous Stupid


Bopp Di Bopp - postato il 31/08/2017 09:30 - rispondi

Credevo che avessi toccato il fondo quando lavoravi dall'altra parte. Con questo mucchio selvaggio, a quanto pare qualcuno ti ha dato un badile e ti ha detto "Mo' scava!".

N. B.: "pager" = "paguro" ????

--
Bopp


Eladamri Di Eladamri - postato il 01/09/2017 12:12 - rispondi

Ignora, ignora o ignora è come ragiona il cervello dei vari CL a qualunque input.

Quando non possono ignorare scaricano la cosa ad un altro CL finchè la cosa non verrà dimenticata.

--
Eladamri


Guido Di Guido - postato il 06/09/2017 09:13 - rispondi

L'unica cosa buona di rientrare dalle ferie e' che ho due storie da leggere invece di una :P

--
who uses Debian learns Debian but who uses Slackware learns Linux


6 messaggi posta messaggio

Precedente Successivo


Il presente sito e' frutto del sudore della mia fronte (e delle mie dita), se siete interessati a ripubblicare uno degli articoli, documenti o qualunque altra cosa presente in questo sito per cortesia datemene comunicazione (o all'autore dell'articolo se non sono io), cosi' il giorno che faccio delle aggiunte potro' avvisarvi e magari mandarvi il testo aggiornato.


Questo sito era composto con VIM, ora e' composto con VIM ed il famosissimo CMS FdT.

Questo sito non e' ottimizzato per la visione con nessun browser particolare, ne' richiede l'uso di font particolari o risoluzioni speciali. Siete liberi di vederlo come vi pare e piace, o come disse qualcuno: "Finalmente uno dei POCHI siti che ancora funzionano con IE5 dentro Windows 3.1".

Web Interoperability Pleadge Support This Project
Powered By Gort