Frequently
Asked Questions (FAQ)
Témata:
Podrobnosti o projektu:
Komu
"patří" výsledky? Co se s nimi stane?
Na rozdíl od ostatních projektů, používajících distribuované výpočty, je Genome@home
provozován akademickou institucí (konkrétně Pande
Group na Stanfordské univerzitě v
Chemické katedře),
což je nezisková instituce věnovaná vědeckému výzkumu a výuce.
Výsledky projektu Genome@home budou k dispozici na různých úrovních.
Zaprvé dáváme statistiky a informace
o navržených proteinových sekvencích na web, aby se
kdokoli mohl podívat. Ty jsou obnovovány denně a obsahují informace
o tom, kteří uživatelé navrhovali které sekvence. Zadruhé výsledky analýz
navržených sekvencí budou zveřejněny v odborných časopisech a po zveřejnění
budou vystaveny na web. Zatřetí po zveřejnění těchto článků, které se
zabývají analýzou dat, budou "syrová" data dána k dispozici komukoli
včetně vědců na tomto serveru.
Jak se mohu podívat, kolik dalších lidí na projektu spolupracuje? Co všechno
bylo zatím "navrženo"? A kolik jsem toho navrhl/a já?
Provozujeme různé druhy statistik o uživatelích a jejich práci na našem
webu. Podívej se na hlavní stránku statistik tady.
Kromě toho sledujeme, kolik práce je hotovo, kolik uživatelů je zaregistrováno
a kdo momentálně pracuje tady.
Můžeš se taky podívat, kolik práce už jsi udělal/a (a kolik toho udělali ostatní)
na téhle stránce.
Je tam spousta informací, probrouzdej to, a# vidíš, co všechno odtud lze vyčíst.
Ne všechny statistiky jsou však obnovovány automaticky, takže můžeš najít
nějaký nesoulad (diskrepance).
Jak má tento projekt pomoci porozumět "opravdovému" genovému kódu a proteinům?
Genome@home studuje skutečný genom a proteiny přímo, a to navrhováním
nových sekvencí ve 3D proteinových strukturách, které jsou výsledkem
mapování skutečných genomů. Soubory proteinových struktur, které jsou
odesílány ke zpracování, obsahují kartézské souřadnice proteinu.
Tato data byla záskána experimentálně prostřednictvím
Rentgenové
krystalografie nebo NMR technik. To jsme však neudělali my;
tisíce vědců strávily spoustu času sběrem těchto dat,
která jsou v podstatě dána volně k dispozici. Navrhováním nových sekvencí,
které zformují tyto konkrétní proteinové struktury, připravujeme půdu pro
zdolání mnoha současných témat ve strukturální biologii, genetice a medicíně.
Data projektu Genome@home budou například použita pro:
- Pokus o rozkrytí základního tématu "problém skládání proteinu"
(které je jádrem velkého množství moderních biomedikálních výzkumů):
fakt, že tisíce rozdílných sekvencí se mohou formovat do stejných
trojrozměrných struktur.
- Předvídání funkcí nově objevených genů a proteinových struktur.
Moderní obory strukturální biologie známé jako "proteonika" nebo
"strukturální genomika" často popíší proteinové struktury, aniž by
věděly, jakou mají proteiny funkci. Protože tyto techniky nejlépe
pracují s velkými sekvencemi dat, bude virtuální knihovna sekvencí
neocenitelným zdrojem.
- Potenciálně navrhovat a vytvářet nové verze existujících proteinů
pro použití v klinické medicíně.
Verze:
Co je nového ve verzi 0.91?
Jsou nové obě verze, pro Windows i pro Linux.
i) Kešování - Pokud se nemůžeš spojit se serverem Genome@home (neběži
nebo ty nejsi připojen) ve chvíli, kdy je čas uložit hotovou práci,
obdržíš několik PutWork chybových hlášek. Po dvaceti minutách
se Genome@home probere, uloží práci na disk a začne znovu zpracovávat
stejná data. Protože výsledky jsou pokaždé jiné, je to naprosto totéž,
jako by byla přijatá nová data ke zpracování. Klient bude pokračovat
ve zpracování stejných dat (třeba i týdny, pokud jsi na dovolené),
dokud nebude schopen se znovu spojit se serverem, kdy odešle všechny
výsledky na server a tobě budou připsány pracovní jednotky za všechnu práci.
ii) Používání checkpointů (záložek) - Genome@home si nyní dělá "záložky"
(ukládá pracovní data) po každé z 30ti sekvencí návrhu. Pokud například
dokončíš návrh 23 sekvencí a zastavíš G@H stisknutím Ctrl-C, lehne ti počítač,
vypnou ti ho rodiče pod rukama, v zásuvkách dojde proud nebo co, klient
po novém spuštění bude pokračovat na 24. sekvenci. Nicméně i kdybys měl
navrženo 90% 24. sekvence ve chvíli, kdy se Genome@home zastavil, bude
potřeba začít navrhovat 24. sekvenci od začátku. Čili všechno, co můžeš
ztratit, je práce na jedné ze 30ti sekvencí (což dělá zhruba hodinu
práce pro většinu strojů a proteinů).
Co je nového ve verzi 0.93?
Jsou nové obě verze, pro Windows i pro Linux.
Linuxová verze byla rekompilována, aby pracovala i se staršími procesory
jako Pentium II a AMD K-6. Ty v předchozích Linuxových verzích nebyly podporovány.
Byla odstraněna chyba v pojmenovávání souborů, která někdy znemožnila
odeslání výsledků. Taky byla vyřešena chyba v čítací smyčce a při nastavování
generátoru náhodných čísel v algoritmu návrhu proteinů.
Obě verze se nyní snaží po spuštění odeslat zpět dokončenou práci.
Klient si také stáhne nová data, uloží je, dokončí rozdělanou práci
a hned pokračuje na nových datech. Pokud jsou k dispozici stará i nová
data, nic se nestahuje.
Co je nového ve verzi 0.98?
Jsou nové obě verze, pro Windows i pro Linux.
Tato verze nedokáže zpracovat pracovní jednotky (work units) dat pro
starší verze klienta. Při upgradování je nejlepší nechat nejdříve starou
verzi dokončit práci a potom teprve nainstalovat novou (ani byte nazmar ;-)
V klientu přibylo mnoho dalších kontrol integrity dat, které se předtím,
než začne zpracování dat nebo než jsou výsledky odeslány zpět, přesvědčí,
že jsou data neporušená. Informace identifikující každou pracovní jednotku
jsou nyní pevněji svázány s daty a chráněny kontrolními součty. Když je
klient znovu spuštěn, aby pokračoval v práci, nemění 32-bitový základ pro
generátor inkrementací, ale náhodným posunem. Všechny tyto změny mají
zabránit zduplikovaným či prefabrikovaným (nenáhodným) výsledkům. Klient
také varuje uživatele, jestliže byl ukončen nekorektně či už jednou běží
ve stejném adresáři.
Klient vytváří základní log toho nejdůležitějšího, co vypisuje do souboru
scrlog.gah a každý záznam označí datem a časem. Toto logování se může časem
ještě změnit.
Bylo přidáno mnoho voleb použitelných z příkazové řádky a do Windows Start menu
je Genome@home při instalaci přidán do Windows Start menu.
- -config: Spustí rekonfiguraci klienta, takže lze změnit uživatele apod.
- -upload: Odešle všechnu dokončenou práci a ukončí se.
- -clear: Smaže všechny poškozené pracovní jednotky a spustí se znovu.
- -nonet: Zpracovává aktuální data pořád dokola, aniž by se pokoušel připojit
k síti.
Klient se snaží získat nová data častěji, než předešlé verze. Po třech
neúspěšných pokusech se pokouší znovu zpracovat stará data. Čas mezi pokusy
přijmout práci a pokusy odeslat práci byl zkrácen na 2 minuty.
Sí#ové problémy:
Připojuji se modemem, mohu používat Genome@home?
Ano, klient Genome@home bude pracovat s vetšinou nastavení modemu.
Vypíše chybovou hlášku, pokud se nebude moci spojit se serverem, protože
nejsi on-line, ale bude se snažit navázat spojení každých 5 minut. Jakmile
se připojíš, bude se schopen spojit s Genome@home serverem.
Jsem za firewallem, mohu používat Genome@home?
Pokud jsi za firewallem, odpověz "yes" na příslušný dotaz při nastavování
a podej dalsí informace, o které tě Genome@home požádá.
Ne všechny verze firewallu jsou podporovány. Také je dobré se přesvědčit,
že běží SOCKS. V některých případech je třeba odpovědět "no" i když za firewallem
jsi, jestliže funguje transparentně. Poraď se s tím, kdo ho spravuje.
Chyby
Běží server? Nějak to nic nedělá nebo to vypisuje spoustu chybových
hlášek o síti.
Někdy server neběží, ale klient je udělán tak, aby počkal,
až bude server zase na světě. Nemusíš nic dělat, mělo by to probíhat
automaticky. Vždy čeká několik minut, než to znovu zkusí, takže se nenech
znervóznit pauzami dlouhými 5 - 10 minut nebo i více.
Pořád mi to hlásí chybu. Lehne to hned po spuštění. Co je špatně?
Někdy se prostě klient poněkud zauzluje. V drtivé většině případů to řeší
vymazání souboru "input.inp" z adresáře, kde je Genome@home. To
ho donutí zapomenout na pracovni jednotku, se kterou má problémy a vyzvednout
si novou.
Proč se to zastaví po hlášce "Initializing protein design algorithm"?
To se Genome@home nezastavil, tenhle krok prostě trvá delší dobu. Na slabých
strojích to může být i hodina.
Genome@home vypadá divně (ve Windows) nebo se složí na segfaults (v Linuxu)
Genome@home potřebuje aspoň 32 MB of RAM. Když je paměti méně
můžou se dít divné věci.
Windows po mě chtějí nějakou DLL. Kde jí najdu?
Microsoft má tyhle DLLka na svém webu. V zásadě potřebuješ
DLLka pro winsock2. Ty jsou ve většině Windows NT, 98 a 2000. Nicméně ve Windows 95
být nemusí.
Windows
socket 2 update pro Microsoft Windows 95 vyřeší soustu problémů s Winsock2.
Také řeší soustu chyb v TCP/IP.
Hlásí mi to chyby jako "Network Recv Timeout"
Pokud klient vypisuje něco jako:
Network Recv Timeout
GetWork Failed
tak buď v klidu. Jen dává najevo, že má problémy s připojením
k serveru a čeká, až to zkusí znovu. Pokud to potrvá den nebo tak, je asi
lepší restartovat ho nebo reinstalovat. Stiskni Ctrl-C, abys klienta
ukončil korektně.
Provozování
Co znamenají ty věci, co to vypisuje?
Genome@home ti říká, jak je daleko s aktuální pracovní jednotkou.
Začne s velkým množstvím variací možných správných sekvencí a opakovaně
je prohledává a třídí, až mu zůstane vhodná sekvence. Jádro "navrhovacího"
algoritmu se spustí třicetkrát za sebou a pokaždé vyprodukuje jednu
"nejlepší" sekvenci. Po třiceti opakováních Genome@home odešle výsledky
zpět na server a vyzvedne si novou práci.
Funguje Genome@home na počítačích se dvěma procesory?
Ano. Genome@home podporuje dvoupocesorové stroje.
Měl bys mít nainstalované dvě kopie Genome@home, každou v jiném adresáři.
Proč bych měl updatovat klienta na poslední verzi?
Na klientovi Genome@home neustále pracujeme a vydáváme
novou verzi, když odstraníme nějaké chyby nebo dosáhneme nějakého vylepšení.
Jak se výsledky dostanou zpátky do centra projektu?
Tvůj počítač automaticky odešle výsledky na Genome@home server
pokaždé, když dokončí pracovní jednotku a zároveň si stáhne novou práci.
Kolik je vlastně ta "pracovní jednotka" (work unit)?
Pracovní jednotku definujeme jako zpracování proteinové sekvence
skládající se ze 100 aminokyselin. To obvykle trvá den či dva na průměrném
počítači. Velikost proteinu, na kterém pracuješ, může být menší
nebo větší než 100 aminokyselin, takže když počítáme pracovní statistiku,
přepočítáváme to na velikost proteinu, který navrhoval tvůj klient.
Jinými slovy (převzato z konference
GenomeAtHome):
algoritmus návrhu proteinu generuje 30 sekvencí, než odešle výsledky
serveru. Prvních 29 jsou mezivýsledky procesu návrhu (které jsou také
zajímavé) a poslední je skutečný výsledek návrhu, "nový gen".
Pracovní jednotka (work unit, WU) je pro účely statistiky definována
jako navržení a vrácení jedné 100-aminokyselinové sekvence (každé
písmeno reprezentuje jednu aminokyselinu). Takže je-li vaše sekvence
dlouhá 100 aminokyselin, odpovídá jeden navrácený balík po výpočtu
30ti WU. Je-li delší, znamená to více WU, je-li kratší, méně. Čili například
zašlete-li zpět balík 30 sekvencí, každé po 50 aminokyselinách, připočte
se Vám 15 WU. Avšak balík obsahuje 30 sekvencí, zatímco pouze poslední
z nich je "novým genem", počet Vámi navržených genů se tak zvýší o 1.
Jak se můžu přesvědčit, že to, co jsem udělal/a, bylo odesláno zpět a použito?
Jak můžu zjistit, kolik práce už jsem udělal/a?
Informace o tom, co jsi odeslal/a zpět do centra, najdeš na
stránce uživatelských statistik. Když tvůj
počítač odesílá zpět výsledky, mělo by tam být vidět tvoje jméno a počet
pracovních jednotek tebou zpracovaných. Pokud tam ještě není vidět, zřejmě
ještě nebyly od tebe zpět zaslány žádné výsledky.
Můžu mít spuštěný Genome@home když už mi běží SETI@home a/nebo Folding@home?
Ano. Genome@home by se měl bez problémů snášet se SETI@home a/nebo
Folding@home, jestliže máš dost paměti.
Statistiky,
týmy, uživatelská jména
Na co se používají e-maily/uživatelská jména?
E-maily uložené v Genome@home nikdy nebudou distribuovány
či předány jakékoli jiné organizaci. Jsme nezisková organizace na Stanfordské
univerzitě a nemáme žádné komerční zájmy. Na tvou adresu bude odeslán potvrzovací
mail, když si poprvé stáhneš Genome@home nebo když založíš nový tým. Občas
rozesíláme zprávu o nové verzi nebo zajímavých novinkách v projektu.
Pokud nestojíš o tyto zprávy, bude brzo možné si toto zasílání vypnout
na své stránce (zatím to nejde).
Jak si můžu změnit uživatelské jméno?
Nejjednodušší cesta je odinstalovat Genome@home, stáhnout
si ho znovu a nainstalovat s novým jménem, které si zvolíš před stahováním.
Jak se můžu připojit k týmu nebo založit nový?
Pro založení nového týmu jdi sem. Pokud se
chceš připojit k nějakému již existujícímu týmu, musíš zadat ID zvoleného týmu,
když poprvé spustíš Genome@home. Pokud chceš změnit tým, měl byt odinstalovat
Genome@home, stáhnout si nový a zase nainstalovat.
(Miker: nevím nevím, zkoušel jsem změnit členství v týmu
bez reinstalace a neměl jsem s tím problém. Mě připadá nejjednodušší zastavit
Genome@home a vymazat soubory "ghclient.cfg" a "input.*". Při spuštění se provede
rekonfigurace a vše je ok. Rozdělaná práce se samozřejmě ztratí.) Chceš-li
se podívat, jak si tvůj tým vede, můžeš tak učinit zde.
Miker: aniž bych snad chtěl někoho ovlivňovat nebo co ;-),
rád bych doporučil ID 1565204469. Je to ID týmu Czech_Republic.
Buď nacionální, kooperativní, solidární a vůbec :-). No jen si to představ, jenom
se připojíš k týmu 1565204469 a rázem se můžeš holedbat, že jsi 22. na celičkém
širém světě! To je přece super, ne :-)? Tak si poznamenej: 1565204469!
Proč není na stránce statistiky mého týmu vidět všechna moje práce?
Do práce vykonané týmem se započítávají pouze ty pracovní
jednotky, kteké jsou "nadepsány " ID číslem tvého týmu.
Ujisti se, že máš správný tým uveden na všech tvých kopiích Genome@home,
najdeš ho v souboru ghclient.cfg. Práce kterou jsi vykonal předtím, než ses
připojil k týmu, není do práce týmu započítána.
Běží mi několik mašin za firewallem. Můžu mít na všech stejné uživatelské jméno?
Jasně. Server Genome@home přiřadí každému stroji unikátní
cpu id, takže můžeš zadat stejné uživatelské jméno při každé instalaci.
Měl bych se vyhnout nějakým znakům při volbě uživatelského jména?
Můžeš použít cokoli kromě "oddělovačů" (mezery, tabelátory apod).
Pokud chceš mít ve jménu mezeru, použij místo ní podtržítko "_".
Kam se poděly statistiky "cpudays" a "hours/unit"?
Protože klient nyní umí "kešovat" (ukládat výsledky lokálně)
a dělat checkpointy ("záložky"), staly se tyto statistiky poněkud nepřesné
a ztratily smysl. Proto jsme je zastavili ve prospěch jiných činností.
To ostatní:
Odkud se vzalo to logo?
Logo projektu Genome@home je kombinace tří elementů. Název projektu je
napsán zřetelnými barevnými písmeny, mírně se vznášejícími nad logem.
Dvoubarevná šroubovnice znázorňuje řetězec DNA, z něhož jsou sestaveny
geny a genomy. Tento element je vidět i v logu partnerského projektu Folding@home.
Miker: autor zapomněl dodat, že třetí element loga
je podklad, který tvoří čtyři písmena: A,T,G a C. Těmito písmeny jsou
označovány čtyři základní stavební kameny - nitrogenové báze adenin,
thymin, guanin a cytosin. Ty spolu se skupinou
fosfátů a cukry (deoxyribóza) tvoří dvojitou šroubovnici DNA, v níž je
řada spárovaných nitrobází (A vždy s T a G vždy s C, proto se nevyjmenovávají
podle pořadí písmen v abecedě). Sled těchto párů v nukleopolymeru je vlastně
onen DNA kód.
Jak je to s bezpečností? Budu se cítit bezpečně ;-)?
Klienta Genome@home lze získat pouze na našem sajtu a vlastně budeme
vděčni každému, kdo nás upozorní, pokud by viděl Genome@home klienta
nabízet ke stažení kdekoli jinde. Tento software odesílá a přijímá data
pouze z našeho serveru ve Stanfordu a jde pouze o data projektu.
V podstatě je Genome@home klient mnohem bezpečnější než browser, který
práve používáš.
Proč není verze na Mac/Solaris/atd?
Čekáme na žádosti o verze klientů pro jiné platformy. Nyní po získání zkušeností
z Folding@home by to neměl být
zásadní problém.
|