Flex linux что это
westes / flex Public
The Fast Lexical Analyzer - scanner generator for lexing in C and C++
Latest commit
Git stats
Files
Failed to load latest commit information.
README.md
This is flex, the fast lexical analyzer generator.
flex is a tool for generating scanners: programs which recognize lexical patterns in text.
The flex codebase is kept in Git on GitHub. Source releases of flex with some intermediate files already built can be found on the github releases page.
Use GitHub's issues and pull request features to file bugs and submit patches.
There are several mailing lists available as well:
-
- where posts will be made announcing new releases of flex. - where you can post questions about using flex - where you can discuss development of flex itself
The flex distribution contains the following files which may be of interest:
- README - This file.
- NEWS - current version number and list of user-visible changes.
- INSTALL - basic installation information.
- ABOUT-NLS - description of internationalization support in flex.
- COPYING - flex's copyright and license.
- doc/ - user documentation.
- examples/ - containing examples of some possible flex scanners and a few other things. See the file examples/README for more details.
- tests/ - regression tests. See TESTS/README for details.
- po/ - internationalization support files.
You need the following tools to build flex from the maintainer's repository:
- compiler suite - flex is built with gcc
- bash, or a good Bourne-style shell
- m4 - m4 -P needs to work; GNU m4 and a few others are suitable
- GNU bison; to generate parse.c from parse.y
- autoconf; for handling the build system
- automake; for Makefile generation
- gettext; for i18n support
- help2man; to generate the flex man page
- tar, gzip, lzip, etc.; for packaging of the source distribution
- GNU texinfo; to build and test the flex manual. Note that if you want to build the dvi/ps/pdf versions of the documentation you will need texi2dvi and related programs, along with a sufficiently powerful implementation of TeX to process them. See your operating system documentation for how to achieve this. The printable versions of the manual are not built unless specifically requested, but the targets are included by automake.
- GNU indent; for indenting the flex source the way we want it done
In cases where the versions of the above tools matter, the file configure.ac will specify the minimum required versions.
Once you have all the necessary tools installed, life becomes simple. To prepare the flex tree for building, run the script:
in the top level of the flex source tree.
This script calls the various tools needed to get flex ready for the GNU-style configure script to be able to work.
From this point on, building flex follows the usual routine:
This file is part of flex.
This code is derived from software contributed to Berkeley by Vern Paxson.
The United States Government has rights in this work pursuant to contract no. DE-AC03-76SF00098 between the United States Department of Energy and the University of California.
Redistribution and use in source and binary forms, with or without modification, are permitted provided that the following conditions are met:
- Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer.
- Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or other materials provided with the distribution.
Neither the name of the University nor the names of its contributors may be used to endorse or promote products derived from this software without specific prior written permission.
THIS SOFTWARE IS PROVIDED ``AS IS'' AND WITHOUT ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, WITHOUT LIMITATION, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE.
Уже около двух лет я участвую в OpenSource проекте SourceAnalyzer, и вот появилась необходимость написать парсер для языка Python, который должен уметь строить граф вызовов (Call Graph) и граф зависимостей классов (Class Graph Dependency). Если точнее, граф строится с помощью других инструментов, а парсер должен лишь подготовить для этих инструментов данные.
Процесс работы над парсером был довольно занятным и мне бы хотелось поделиться с вами приобретенным опытом, а также поведать о некоторых подводных камнях, которые встретились на этапе разработки.
Терминология
Если вы уже работали с граматиками и знаете, как устроен компилятор, смело шагайте в следующий абзац, остальным Welcome.
- Анализ входного потока и разбиения его на токены (Лексический анализ)
- Разбор токенов набором синтаксических правил (Синтаксический Анализ)
Построим правила преобразования входного потока:
Таким образом, после лексического анализа получим:
Далее следует пример грамматики, с помощью которой впоследствии, применяя правила, можно сделать разбор выражения:
В данном примере NUMBER, MULT, PLUS — по определению терминалы, или токены, определенные на этапе лексического анализа. expr, sign — не терминалы, так как являются составными единицами.
Данное введение не является сколь-либо исчерпывающим, поэтому за теорией следует обратиться к книге Flex&Bison O’Relly.
Грамматика
В мою задачу входило лишь выявление определения классов, функций и вызовов функций.
Для начала опишем нужную часть грамматики с помощью расширенной формы Бэкуса-Наура (РБНФ) (wiki).
Здесь [X] — 0 или 1 вхождение X , — 0 и более вхождений Y .
Для определения имени класса и его зависимостей вполне достаточно. Теперь для функций.
Кстати, предполагается, что код пользователя будет корректным (с точки зрения интерпретатора), иначе правила грамматики надо определять строже.
Отлично, на этом пока закончим с грамматикой и перейдем к лексеру (лексическому анализатору), так как перед разбором грамматики исходный python-код следует разбить на токены.
Лексический анализатор
Лексер генерируется программой Flex. Простейший пример:
Как скомпилировать данный пример:
ОК, теперь определимся с токенами. В грамматике мы уже использовали следующие:
CLASS, COLON, COMMA, DEF, DOT, ID, LBRACE, MESSAGE, RBRACE, OTHER, STAR
Еще нам понадобится DEFINED — зарезервированные слова Python.
Краткий разбор: комментарии, пустые строки и пробелы игнорируем. Все остальное (так называемый, поток токенов) отдаем на вход Bison.
Набор символов, который находит паттерн (например, по шаблону [ \t]+ ), помещается в yytext . По умолчанию yytext — это char pointer, но если добавить ключ -l при компиляции, то yytext будет восприниматься как char array. Перед тем, как вернуть бизону токен, запишем определенное по шаблону значение в переменную yylval (подробнее — далее).
Самое время перейти к описанию грамматики для Бизона.
Bison
Я снова отсылаю вас к данной статье, потому что те, кто не может составить грамматику для бизона, без труда научатся с помощью материала по данной ссылке. Ну а кто умеет — отлично, идем дальше.
Итак, заглядывая в пункт статьи Грамматика, попробуем составить грамматику для бизона:
В правиле Bison каждая лексема имеет значение. Значение группы, собираемой текущим правилом, хранится в $ , значения остальных лексем — в $1, $2, …
Значение, хранящееся в $n есть не что иное, как значение переменной yylval в момент, когда лексер возвращает токен.
Как работает анализатор. Происходит вызов функции yyparse из main , которая запускает анализ — читает лексемы, производит какие-то действия и завершает работу, если встречает конец входного текста ( return 0 ) или синтаксическую ошибку ( return 1 ).
Пробуем скомпилировать и затестить то, что имеем:
В принципе, верно, хотя и не совсем. Хотелось бы видеть “полное имя” в определении функции, то есть:
Для этого поступим следующим образом: заведем стек, в который будем добавлять имя текущего класса. Как только встречается определение функции — постепенно достаем из стека имена классов, конкатенируя с именем функции. Если встречается новый класс глубже по уровню — добавляем в стек, иначе удаляем из стека элементы, пока не дойдем до текущего уровня вложенности (и еще на единицу меньше), и добавляем новый класс в стек.
Идея и реализация далее.
Особенности Python
Очевидная проблема — узнать уровень вложенности. Как известно, в Python для этого используется табуляция (или пробелы). Поэтому надо хранить текущий отступ в какой-то глобальной переменной, доступной и анализатору, и лексеру. Руководство Bison говорит, что функция yyparse ожидает, что положение только что разобранной лексемы в тексте находится в глобальной переменной yylloc .
yylloc — это структура из четрыех элементов: first_line, first_column, last_line и last_column . В first_line будем хранить номер текущей строки (пригодится для отладки, да и входит в мою задачу), в last_column будем хранить отступ.
Вносим изменения в код. В лексере определим тип переменной yylloc и значение по умолчанию для номера строки:
Когда встречаем новую строку:
Если строка начинается с пробелов:
yyleng — длина найденной шаблоном лексемы. SPACES_PER_INDENT по умолчанию зададим равным 4 (по стандарту).
Если строка начинается с символа табуляции:
Теперь подкорректируем подсчет строк. В питоне есть тройные кавычки, используются обычно для длинного комментария документации. Для игнора напишем функцию:
Тут, на самом деле, можно было обойтись регулярным выражением, но тогда не получится верно определить номер строки — мы не сможем узнать количество съеденных регэкспом строк (или сможем? если да — пишите способ).
Уже около двух лет я участвую в OpenSource проекте SourceAnalyzer, и вот появилась необходимость написать парсер для языка Python, который должен уметь строить граф вызовов (Call Graph) и граф зависимостей классов (Class Graph Dependency). Если точнее, граф строится с помощью других инструментов, а парсер должен лишь подготовить для этих инструментов данные.
Процесс работы над парсером был довольно занятным и мне бы хотелось поделиться с вами приобретенным опытом, а также поведать о некоторых подводных камнях, которые встретились на этапе разработки.
Терминология
Если вы уже работали с граматиками и знаете, как устроен компилятор, смело шагайте в следующий абзац, остальным Welcome.
- Анализ входного потока и разбиения его на токены (Лексический анализ)
- Разбор токенов набором синтаксических правил (Синтаксический Анализ)
Построим правила преобразования входного потока:
Таким образом, после лексического анализа получим:
Далее следует пример грамматики, с помощью которой впоследствии, применяя правила, можно сделать разбор выражения:
В данном примере NUMBER, MULT, PLUS — по определению терминалы, или токены, определенные на этапе лексического анализа. expr, sign — не терминалы, так как являются составными единицами.
Данное введение не является сколь-либо исчерпывающим, поэтому за теорией следует обратиться к книге Flex&Bison O’Relly.
Грамматика
В мою задачу входило лишь выявление определения классов, функций и вызовов функций.
Для начала опишем нужную часть грамматики с помощью расширенной формы Бэкуса-Наура (РБНФ) (wiki).
Здесь [X] — 0 или 1 вхождение X , — 0 и более вхождений Y .
Для определения имени класса и его зависимостей вполне достаточно. Теперь для функций.
Кстати, предполагается, что код пользователя будет корректным (с точки зрения интерпретатора), иначе правила грамматики надо определять строже.
Отлично, на этом пока закончим с грамматикой и перейдем к лексеру (лексическому анализатору), так как перед разбором грамматики исходный python-код следует разбить на токены.
Лексический анализатор
Лексер генерируется программой Flex. Простейший пример:
Как скомпилировать данный пример:
ОК, теперь определимся с токенами. В грамматике мы уже использовали следующие:
CLASS, COLON, COMMA, DEF, DOT, ID, LBRACE, MESSAGE, RBRACE, OTHER, STAR
Еще нам понадобится DEFINED — зарезервированные слова Python.
Краткий разбор: комментарии, пустые строки и пробелы игнорируем. Все остальное (так называемый, поток токенов) отдаем на вход Bison.
Набор символов, который находит паттерн (например, по шаблону [ \t]+ ), помещается в yytext . По умолчанию yytext — это char pointer, но если добавить ключ -l при компиляции, то yytext будет восприниматься как char array. Перед тем, как вернуть бизону токен, запишем определенное по шаблону значение в переменную yylval (подробнее — далее).
Самое время перейти к описанию грамматики для Бизона.
Bison
Я снова отсылаю вас к данной статье, потому что те, кто не может составить грамматику для бизона, без труда научатся с помощью материала по данной ссылке. Ну а кто умеет — отлично, идем дальше.
Итак, заглядывая в пункт статьи Грамматика, попробуем составить грамматику для бизона:
В правиле Bison каждая лексема имеет значение. Значение группы, собираемой текущим правилом, хранится в $ , значения остальных лексем — в $1, $2, …
Значение, хранящееся в $n есть не что иное, как значение переменной yylval в момент, когда лексер возвращает токен.
Как работает анализатор. Происходит вызов функции yyparse из main , которая запускает анализ — читает лексемы, производит какие-то действия и завершает работу, если встречает конец входного текста ( return 0 ) или синтаксическую ошибку ( return 1 ).
Пробуем скомпилировать и затестить то, что имеем:
В принципе, верно, хотя и не совсем. Хотелось бы видеть “полное имя” в определении функции, то есть:
Для этого поступим следующим образом: заведем стек, в который будем добавлять имя текущего класса. Как только встречается определение функции — постепенно достаем из стека имена классов, конкатенируя с именем функции. Если встречается новый класс глубже по уровню — добавляем в стек, иначе удаляем из стека элементы, пока не дойдем до текущего уровня вложенности (и еще на единицу меньше), и добавляем новый класс в стек.
Идея и реализация далее.
Особенности Python
Очевидная проблема — узнать уровень вложенности. Как известно, в Python для этого используется табуляция (или пробелы). Поэтому надо хранить текущий отступ в какой-то глобальной переменной, доступной и анализатору, и лексеру. Руководство Bison говорит, что функция yyparse ожидает, что положение только что разобранной лексемы в тексте находится в глобальной переменной yylloc .
yylloc — это структура из четрыех элементов: first_line, first_column, last_line и last_column . В first_line будем хранить номер текущей строки (пригодится для отладки, да и входит в мою задачу), в last_column будем хранить отступ.
Вносим изменения в код. В лексере определим тип переменной yylloc и значение по умолчанию для номера строки:
Когда встречаем новую строку:
Если строка начинается с пробелов:
yyleng — длина найденной шаблоном лексемы. SPACES_PER_INDENT по умолчанию зададим равным 4 (по стандарту).
Если строка начинается с символа табуляции:
Теперь подкорректируем подсчет строк. В питоне есть тройные кавычки, используются обычно для длинного комментария документации. Для игнора напишем функцию:
Тут, на самом деле, можно было обойтись регулярным выражением, но тогда не получится верно определить номер строки — мы не сможем узнать количество съеденных регэкспом строк (или сможем? если да — пишите способ).
330MB). Я распаковал архив в папку flex в домашнем каталоге, вы же можете сделать это в любой другой каталог.
А теперь — настройка!
- Подсветка синтаксиса
- Автодополнение ключевых слов
- Автоматические отступы
- Тестирование и отладка с помощью FlexSDK и Ant
sudo apt-get install scite — уже делали
sudo apt-get install ant — для отладки
whereis ant — смотрим куда установилось, для дальнейшего добавления в файл настроек
whereis google-chrome — для того же (у вас может быть любой другой браузер)
sudo cp
Ну а скопировать из одного файла в другой надеюсь труда не составит.
Но как же сделать компиляцию, спросите вы? Один португальский блог подсказал как можно осуществить задуманное. Для этого в пользовательский файл настроек необходимо добавить:
mxmlc= / папка_куда_распаковали_flex / bin / mxmlc
command. compile .$ ( file. patterns . actionscript ) =$ ( mxmlc ) $ ( FileNameExt )
command. go .$ ( file. patterns . actionscript ) = ( $browser ) $ ( FileName ) . swf
Важный момент: для того чтобы компилировать не только *.as но и *.mxml сорцы нужно найти такую строчку:
file. patterns . actionscript = * . as3 ; * . as
filter. actionscript =Actionscript ( as3 as ) | $ ( file. patterns . actionscript ) |
и сделать её такой
file. patterns . actionscript = * . as3 ; * . as ; * . mxml
filter. actionscript =Actionscript ( as3 as mxml ) | $ ( file. patterns . actionscript ) |
Ну вот теперь практически всё готово. Главное не забыть сделать файл mxmlc исполняемым и не забывать прилагать к проектам build.xml файлы, иначе муравей ругаться будет.
Тестирование
Целесообразно проверить качество сборки, поэтому создаём пустой *.mxml файл и пишем там:
< ? xml version = "1.0" ? >
< s:Application xmlns:fx= "ns.adobe.com/mxml/2009"
xmlns:s= "library://ns.adobe.com/flex/spark"
xmlns:mx= "library://ns.adobe.com/flex/mx" >
< fx:Script >
<! [ CDATA [
private function clk ( ) : void <
myLabel. text += " World!" ;
>
] ] >
</ fx:Script >
< mx:Canvas borderStyle= "solid" >
< mx:VBox >
< mx:Label id= "myLabel" text = "Hello," />
< mx: Button label= "OK" click= "clk()" />
</ mx:VBox >
</ mx:Canvas >
</ s:Application >
Сохраняем под именем test.mxml и нажимаем Ctrl+F7. Вуаля?
Вкусность
Для поддержки русского языка в кодировке UTF-8 и установки нормального шрифта нужно добавить в пользовательский файл настроек вот эту магию:
Всем спасибо за внимание! Жду критики.
UPD. По просьбам в комментариях выкладываю скрины работы автодополнения и автоотступов, а также процесса компиляции (P.S. Ant'a я пока не прикрутил).
Компиляция…
Всё остальное…
Читайте также: