Библиографическая БД DataGuide
- 1 запись -- 1 экспериментальная статья (33716 с 1895 по 2011 г.)
- запись об эксперименте: ускоритель, детектор, эксперимент, коллаборация,
реакции, кинематика, измеряемые величины,
изучавшиеся частицы
- журнальная ссылка и/или на препринты/arXiv, авторы,
название статьи, абстракт, ссылки (в т.ч. на предварительные/окончательные результаты
того же измерения)
- данные хранятся не текстом, а в виде выражений на языке PPDL (Particle Physics Data Language)
- словарь PPDL хранится в cамой БД, задает слова языка, но не cинтаксис
- парсеры выражений на PPDL собираются из описания синтаксиса средствами YACC
Чем это лучше SPIRES:
-
В DataGuide есть поиск по реакции, соотношениям квантовых чисел в начальном и конечном состоянии,
кинематике пучков, наблюдаемым,
экспериментальной установке, изучавшимся частицам + библиографический поиск.
В SPIRES же фактически есть только библиографический поиск.
Например:
- Поиск в DataGuide публикаций по полному сечению рождения двух пионов при √s < 2 ГэВ на ускорителях ИЯФ:
re = e+ e- --> pi+ pi-; and dd = cs; and b = < 2 gev (ecm); and ac ~~ novo;
- Поиск экзотики c пучком π- и бериллиевой мишенью на У-70 (ИФВЭ):
ac = serp; and re ~~ pi- be --> YY; and p = exotic;
- Поиск реакций со сменой знака странности на У-70 и CERN-PS:
re = is.S != 0 && is.S == -fs.S and ( ac = serp; or ac = cern-ps; );
Все примеры можно проверить в web-интерфейсе или
в строчном интерфейсе DataGuide.
Для сравнения можно поискать те же работы в SPIRES.
-
В DataGuide сложно занести мусор: например, реакцию c отсутствующими в словаре частицами, бесcмысленную запись
кинематики пучков, несуществующую установку и т.д.
-
Сложно сформулировать бесмыссленный запрос, возвращающий непустой результат.
Чем это хуже SPIRES:
- Содержит только экспериментальные работы.
- После ~2000 г. на arxiv.org появляется в среднем 2-3 экспериментальных работы в сутки, не успеваем их прочесть и закодировать.
-
В web-интерфейсе DataGuide есть кнопка "New record", желающие могут присоединяться к заполнению базы на общественных началах.
Структура записи DataGuide
Запись в DataGuide имеет вид дерева с листьями вида КЛЮЧ = ЗНАЧЕНИЕ,
где ЗНАЧЕНИЕ -- выражение на языке PPDL, например:
- Реакция:
pi- nucleon --> nucleon pi+ 2pi- gamma
- Пучки:
B = 37 GeV (Plab)
- Реакция с каскадным распадом:
f1(1285) --> phi(1020) < k+ k- > gamma
- Частица и изучавшиеся в работе ее свойства (масса, полная и парциальные ширины):
p = J/Psi(1S);
pp = mass; pp.= w; pp. = pw;
Пример записи
(возвращается, например, по запросу
re = tq --> jet; and de = atlas; and b = 13 TeV (ecm);
комментарии к парам
КЛЮЧ = ЗНАЧЕНИЕ
следуют после //
):
SC = AABOUD 19A; // ShortCode = {Фамилия первого в списке автора} {год публикации}{уникальный для этого автора и года индекс}
R = arXiv:1903.02942 [hep-ex]; // Библиографическая ссылка
TY = EPRI; // и ее тип, в данном случае это e-print
D = 2019; // Год публикации
R. = CERN-EP-2019-011;
TY = PREP;
D = 2019;
AUTHORS;
A = Aaboud, M.; // Автор публикации
A. = et al; // Список авторов может быть сколь угодно длинным
I = CERN; // Институт -- место "приписки" авторов выше
T = Measurement of jet-substructure observables in top quark, {W} boson and light jet production in proton-proton collisions
at sqrt(s) = 13 TeV with the ATLAS detector; // Название статьи
ABS = A measurement of jet substructure variables is presented using data collected // Абстракт
in 2016 by the ATLAS experiment at the LHC with proton-proton collisions at
sqrt(s) = 13 TeV. Large-radius jets groomed with the trimming and soft-drop
algorithms are studied. Dedicated event selections are used to study jets
produced by light quarks or gluons, and hadronically decaying top quarks and W bosons.
The variables measured are sensitive to pronged substructure, and therefore are
typically used for tagging jets from boosted massive particles.
These include the energy correlation functions and the N-subjettiness variables.
The number of subjets and the Les Houches angularity are also considered.
The distributions of the substructure variables, corrected for detector effects,
are compared to the predictions of various Monte Carlo event generators.
They are also compared between the large-radius jets originating from light quarks or
gluons, and hadronically decaying top quarks and {W} bosons.;
URL = https://arxiv.org/abs/1903.02942; // Ссылки на web-ресурсы с этой публикацией
URL. = https://cds.cern.ch/record/2665903;
SB = ENCODED 09 MAR 2019 BY ZOV; // Кто и когда занес публикацию в базу
EXPERIMENT;
AC = CERN-LHC; // Ускоритель
DE = ATLAS; // Детектор
PR = CERN-LHC-ATLAS; // Обозначение эксперимента
COL = ATLAS Collaboration; // Коллаборация
RR = SEE *arXiv:1808.07858 [hep-ex]; // Related Reference = SEE -- просто см. другую публикацию, не обязательно цитируемую в данной
RR. = MORE *JHEP 1205, 128; // MORE -- более ранние публикации по тому же измерению тем же экспериментом
RR. = MORE *PRL 121, 092001;
RR. = SEE *JHEP 1305, 090;
RR. = SEE *JHEP 1811, 113;
RR. = SEE *PR D98, 092014;
REAC-DATA;
RE = P P --> 2JET X; // Реакция
B = 13 TEV (ECM); // Кинематика пучков
DD = PT; // Наблюдаемые. PT -- поперечный импульс
DD. = MASS; // Инвариантная масса
DD. = COR; // Коррелятор
DD. = COL; // Коллективные переменные
RE. = P P --> ( GLUON + QUARK - TQ ) ( GLUON + QUARKBAR - TQBAR ) X; //
RE. = GLUON --> JET;
RE. = QUARK --> JET;
RE. = QUARKBAR --> JET;
REAC-DATA.;
RE = P P --> JET JET MU+- X;
RE. = P P --> TQ < JET > TQBAR < W- < MU- NUMUBAR > BQBAR < JET > > X;
RE. = P P --> TQBAR < JET > TQ < W+ < MU+ NUMU > BQ < JET > > X;
RE. = P P --> TQ < W+ < JET > BQ < JET > > TQBAR < W- < MU- NUMUBAR > BQBAR > X;
RE. = P P --> TQBAR < W- < JET > BQBAR < JET > > TQ < W+ < MU+ NUMU > BQ > X;
B = 13 TEV (ECM);
DD = PT;
DD. = MASS;
DD. = COR;
DD. = COL;
REAC-DATA.;
RE = TQ --> JET;
RE. = TQBAR --> JET;
RE. = W+ --> JET;
RE. = W- --> JET;
RE. = GLUON + QUARK - TQ --> JET;
RE. = GLUON + QUARKBAR - TQBAR --> JET;
DD = MASS;
DD. = COR;
DD. = COL;
REAC-DATA.;
RE = JET --> MULT(JET);
DD = COR;
DD. = COL;
CD = Large radius jets are reconstructed with an anti-kT algoritm with // Произвольный комментарий кодировщика
the eta-phi radius R=1.0 and then trimmed by removing R=0.2 subjets
with pT(subjet)/pT(R=1.0 jet) < 0.05.
The trimming removes jet constituents originating from pile-up and the underlying events.
See Section 5 for the definition of jet structure variables.;
CD. = Data on plots only;
CB = Submitted to JHEP; // Библиографический комментарий.
QUESTION = DataGuide maintainers: add authors & institutions; // Вопросы администратору базы
*E // Конец записи
Реализация
- Специализированная иерархическая СУБД написана на C + YACC + LEX с нуля.
- Исходный код: https://gitlab.ihep.su/zenin_o/reac
- Везде, где возможно, код на С компилируется из определения грамматики на YACC.
- Требования: POSIX-совместимая ОС, компилятор ANSI C.
- Практически работает на GNU/Linux (glibc 2.5 -- 2.23, gcc 4.X -- 5.X / tcc 0.9.26)
- Желающие проверить фактическую совместимость с другими POSIX-совместимыми ОС приветствуются,
пишите.
- Св-во о гос. регистрации программы для ЭВМ No. 2019614465
- Древовидная структура базы данных отображается на реляционную БД sqlite3.
- Back-end не принципиален, в частности, не обязан быть реляционной БД.
Sqlite3 был выбран из-за компактности и простоты libsqlite3.
- Отображение иерархической СУБД на реляционную составляет хорошо изолированную небольшую часть кода.
- По структуре записи и языку PPDL намеренно сохранена совместимость с эксплуатировавшейся в ИФВЭ в 1980-1990x гг. базой данных
BDMS DOC.
- Текстовый дамп из последнего экземпляра BDMS DOC,
работавшего в эмуляторе SIMH/VAX,
загружен в DataGuide без изменений, кроме исправления ошибок,
не найденных в BDMS DOC из-за менее строгой реализации PPDL.
- Пользователи ИФВЭ уже знакомы со структурой записи и языком PPDL.
Менять их (и пользователей тоже) можно в дальнейшем при необходимости.
-
Портирование BDMS DOC на POSIX-совместимую ОС было нецелесообразно:
- ~105 строк на Фортране написаны в 1970-1990x
- Авторов бОльшей части кода уже нет. Проще переписать с нуля, чем разбираться в историческом коде.
- Последняя версия BDMS DOC привязана к DEC Alpha(VAX)/VMS:
нет машин Alpha (VAX), коммерческая закрытая ОС VMS поддерживается фирмой HP для
дорогостоящих машин на Itanium.
BDMS DOC практически непереносима.
- Строчная оболочка DataGuide написана как расширение bash:
- Интерфейс к БД через bash builtins
- Плюсы использования *sh в качестве оболочки очевидны.
Для полноценного использования БД достаточно строчного интерфейса.
- Web-интерфейс написан с использованием AngularJS.
- AngularJS -- достаточно распространенное средство разработки подобных интерфейсов.
- Простота разработки.
- Может легко дорабатываться по запросам трудящихся.
Вопросы/ответы: zenin_o@ihep.ru, thegriglat@ihep.ru
(c) ИФВЭ, ОЭФ, сектор системной феноменологии, 1980-2019